TATOOLS 工具目录

中文文本分析、语料处理与主题建模在线工具

这里汇总 TATOOLS 已开放的零代码文本分析工具,覆盖文本清洗、词频统计、情感分析、关键词提取、主题模型、文本聚类、知识图谱、实体识别与语料对比等研究场景。

标准文本处理

  • 文本清洗

    按行清洗文本:移除停用词、处理标点、剥离网页噪声,并可按字数窗口分段供后续建模。

  • 文本质量评估器

    从六个维度给文本做一次全面体检,判断它能不能直接用于主题建模、聚类、实体识别等下游任务。

  • 中文文本规范化

    把繁简、标点、全半角写法不一的中文统一成出版级样式,并可整篇转写为拼音。

  • 词性标注

    统计名词动词分布、转移矩阵、基准语料对比,看清文本的语法骨架。

  • 关键词抽取

    提取文本核心关键词,TF-IDF 看稀有度、TextRank 看关联强度,交叉对比看清文本核心语义。

  • 高频词提取

    统计词频和固定词组,包括 2–4 个词组成的搭配,自动归纳焦点说法与多篇间的共性。

  • 命名实体识别

    自动识别文本里的人名地名机构时间,生成可核对实体清单。

  • 文体风格指纹

    把写作习惯拆成可对比的统计指标,定位风格差异来源。多篇文本可对比风格上是否相近、相近到什么程度。

  • 词语共现分析

    找出文本里经常成对出现的词,并用多项统计指标判断这种搭配是否真的稳定。

  • 依存句法分析

    可视化每句话的主干、修饰与依赖关系,并给整段文本打出句法复杂度评分。

  • 文本矩阵分析

    识别一批文本里最重要的核心词,并以矩阵和网络呈现这些词之间的关联强度。

  • 传统情感分析

    同时用 PySenti 和 CnText 两种词典方法逐行判断情感倾向

  • 简单文本聚类

    把相似文本自动分到几个主题里,并用多种评估指标和图表判断分组是否清晰。

  • DeepKeyword 深度学习模型关键词发现

    用语义模型从完整文章中抽取关键词,综合得分、频次和位置排序,适合单篇长文分析。

  • DeepSentiV2深度学习情感分析

    使用深度学习模型判断情感倾向,支持电商、学术、金融等 7 种行业语境,输出关键词和置信度。

  • KWIC关键词上下文索引

    列出每个关键词在原文里的左右上下文,纵向对齐看它的用法、搭配与出现位置。

  • KWIC关键词命中矩阵

    把同义词合并成概念组,统计每个主题在哪些文档里被密集讨论——和 KWIC 互补,看的是「分布」而非「用法」。

  • 文档词项矩阵

    逐文档统计词频并构建文档-词汇矩阵,热力图直观展示不同文档的用词差异。

  • 标点纠正

    自动修复中文文本中缺失或错误的标点符号,逐句对照显示纠正变化。

  • 文本可读性分析

    估算中英文本的阅读门槛与近似阅读年级,挑出最难和最易的句子,看适合什么水平的读者。

  • 相似句查找

    基于语义向量查找含义相近的句子对,输出相似度矩阵和配对明细。

  • 词汇等级评估

    对照官方词表逐词估等级并筛超纲,可作新词发现候选与后续主题、关键词任务的自定义词表。

  • 抽取式摘要(TextRank / LexRank 双引擎)

    用 TextRank 与 LexRank 双算法从原文挑出最关键的几句拼成摘要,不改写、可溯源。

  • 敏感信息脱敏

    批量识别并脱敏文本里的身份证、手机号、银行卡等结构化个人信息,占位 / 掩码 / 删除三选一。

辅助工具

高级文本处理

  • 高级情感分析

    逐句解释文本为何偏正负面,给出证据词和推理逻辑。

  • AIGC内容检测

    不只给整体参考分,还定位逐段逐句风险,并生成可复用改稿提示。

  • 知识图谱

    从文本中自动抽取人物、机构、概念及其关系,生成可交互的知识图谱。

  • 停用词挖掘

    自动整理停用词候选,省去反复手写、增补停用词表的精力。

  • 文本结构还原器

    把无标点的连续中文恢复成带句读的句子,并给出句长诊断与逐句列表,便于后续文本挖掘。

  • BERTopic 主题聚类

    基于语义聚类重建文本主题结构,自动生成抽象标签并解析主题间距离与层级关系。

  • LDA 主题模型

    从文本中发现若干主题,展示主题词、文档分布及主题之间的关系。

  • VAD 三维情感分析

    分析文本情感,除积极/中性/消极外,输出效价(V)、唤醒度(A)、支配度(D)三个维度。

  • PCA 主成分分析

    把高维文本特征压缩成少数主成分,帮助看清差异主要来自哪些方向。

  • 高级文本聚类

    对大批量文本做语义聚类,自动发现主题与结构。

  • LSA 潜在语义分析

    用LSA把分散文本压成几个语义方向,看清主题边界、重叠关系和代表性段落。

  • 智能发现新词

    找出常规分词容易切碎的术语、专名和流行表达,补齐领域词表。

  • LDA困惑度计算

    对LDA在多个候选主题数下做多指标对照,给出更稳妥的主题数建议。

  • 信息价值评估

    逐句评估信息量与表达效率,筛出真正值得保留和引用的内容。

  • 文本相似度去重雷达

    对成批文档做相似度分析与聚类,给出去重建议与可视化(矩阵、雷达等)。

  • 词语搭配强度分析

    用关联强度指标筛出材料里稳定的词搭配,可指定中心词专门查它周围的典型搭配伙伴。

  • 重复内容合并

    基于语义相似度将意思接近的句子或段落归组,保留代表句并合并重复表达。

  • 词汇多样性分析

    标量化文本用词丰富度,并定位哪一段开始变得"车轱辘话"。

  • PCA 主成分降维

    对表格数值列做主成分分析,输出方差解释、载荷、得分和二维投影散点图。

  • 领域术语抽取

    从一批专业文档里自动挑出该领域反复使用的多字术语。

  • 样本聚类

    对表格数值列做 K-Means 聚类,自动选 K 并输出分群画像和二维投影图。

  • 语料对比关键词分析

    用 keyness 关键性统计对比两组语料,找出目标里反复强调的特征词与相对回避的话题。

  • 趋势分析

    对日期指标序列做聚合、移动平均、环比同比分析,自动识别峰谷和异常。

  • 语料检索

    在一批文档里按相关度检索段落、句子或整篇文档,关键词与意思接近的内容都能找到。

  • 词汇增长曲线分析

    拟合词汇增长曲线与 Zipf 分布,给出用词开放度、词频陡峭度,并预测再读多少文本能新增多少词。

  • 依存句法模式挖掘

    从大批句子中归纳反复出现的依存关系、词性骨架、动词论元与修饰搭配,补足单句句法树看不到的整体规律。

  • 话语标记词分析

    总结「所以、然而、总之」这类衔接词的用量与位置,看懂文章怎么讲道理、哪里转折和收束最集中。

  • 写作风格判定

    基于多种统计风格特征,量化每篇文档的写作风格。

图像分析

智能分析

  • 因果关系推断

    从文本中识别「因为—所以」等因果关系,适合政策与社科分析。

  • 立场分析

    识别文本中的利益相关方、立场态度与利益动因。

  • 期待挖掘

    从反馈与政策文本中挖出具体期待,判断大家最想要什么、急不急、情绪如何。

  • 隐含情感识别

    逐句检测中文文本中的阴阳怪气、过度捧杀和隐含负面情绪,揭示字面之外的真实态度。

  • 事件时间线抽取

    从长文中抽取时间、事件、主体、地点并归一化日期,输出可排序的时间线。

  • 修辞手法检测

    逐句标注比喻、排比、反问等修辞手法,输出分布统计和密度指标。