使用教程
学习如何使用各项功能,快速上手
文本分析基础教程高频词提取工具使用教程:统计词频和固定词组,找出文本中反复强调的核心提法
写报告、做分析的时候,你可能想知道一篇文章里哪些词被反复提到、哪些说法经常连在一起出现。靠人工通读很难精确量化,靠AI读也不行——容易有幻觉,遗漏或编造根本不存在的提法。高频词提取解决的就是这个问题:统计单个词的出现次数,也可以在你勾选两个词、三个词、四个词组合后,统计相邻词组成的固定词组。报告会自动给出关键发现,配上词云、面积图、Top 20 清单和「核心词 × 长组合」对比表;多文件时还会展示跨文档共有词和单篇独有词。
文本分析基础教程关键词抽取工具使用教程:TF-IDF 和 TextRank 双算法交叉验证,提取文本核心关键词
一篇文章里哪些词最能代表它的主题?单靠一种算法可能会有偏差。关键词抽取同时运行 TF-IDF 和 TextRank 两种方法,TF-IDF 看稀有度,TextRank 看关联强度,再自动计算排名相关系数,帮你在交叉验证中找到最可靠的关键词。
文本分析基础教程词性标注工具使用教程:统计词类分布,分析文本语法特征
文本中的名词、动词、形容词比例,会影响我们对文体风格的判断。词性标注会把每个词归入语法类别,再汇总为分布统计、相邻词性转移矩阵和基准语料对比。中文文本同时跑两套标注引擎,结果可以相互参照,帮助发现分词路径和语法角色判断上的差异;英文走句法级路径,标签集更贴近跨语言语法体系。
文本分析基础教程文本质量评估器:从字符构成到任务适用性,给语料做一次全面体检
你手头有一份文本,想拿去做主题建模或者情感分析,但不确定质量够不够。符号太多会不会让分词崩?重复行太多会不会让主题模型全是噪声?文本质量评估器帮你回答这些问题。它用纯统计方法(不调用大模型)从字符构成、词汇丰富度、重复率、句长分布、信息熵等多个维度给文本做一次量化体检,输出一份 0-100 的综合得分和六种 NLP 任务的适用性判定。
文本分析基础教程文本规范化文本清洗中文文本规范化工具使用教程:繁简转换、标点统一、数字转正文、拼音转写
不同来源的中文文本,繁简体、标点符号、数字写法经常不一致。人工阅读时不太显眼,但做排版发布或者文本分析时会出问题——同一个词在简体和繁体里变成了两个词条,词频统计就散了。中文文本规范化帮你把这些不一致统一起来,处理方式是无损替换,一个字都不会丢。和文本清洗不同,规范化是"改写",清洗是"删减",建议先规范化再清洗。
文本清洗文本分析基础教程文本清洗工具使用教程:批量去除噪声、标点、停用词,输出干净语料
原始文本里经常混着 HTML 标签、多余标点、emoji、零宽字符这些东西。它们会干扰词频统计、主题建模、情感分析的结果。文本清洗帮你把这些噪声批量去掉,处理完得到干净文本和一份对照预览,方便你确认没有误删。
TATOOLS 用户隐私政策
