TATOOLS 工具目录

中文文本分析、主题建模、OCR 与图像处理在线工具

这里汇总 TATOOLS 已开放的零代码工具,覆盖文本清洗、词频统计、情感分析、关键词提取、主题模型、知识图谱、OCR、图像识别与图像分割等研究场景。

标准文本处理

  • 文本清洗

    统一清理文本中的特殊字符、标点和停用词,并可按字数切分长文档,为分析做好预处理。

  • 文本质量评估器

    给文本做一次"体检",同时从写作视角看可读性、从 NLP 视角判断能不能直接喂给后续分析。

  • 词性标注

    逐词标注词性并给出各词类的占比与示例,中文同时输出两种分词方案的对比结果。

  • 关键词抽取

    从文本里挑出最能代表内容的关键词并按重要度排序,可选三种算法,结果以词云呈现。

  • 高频词提取

    统计高频词,并找出由 2–4 个词组成的固定提法,自动归纳焦点说法与多篇间的共性。

  • 命名实体识别

    自动识别文本里的人名、地名、机构名、时间等实体,并定位到具体句子。

  • 文体风格指纹(文档相似度)

    依据写作习惯的多维统计,判断多篇文本在风格上是否相近、相近到什么程度。

  • 词语共现分析

    找出文本里经常成对出现的词,并用多项统计指标判断这种搭配是否真的稳定。

  • 依存句法分析

    可视化每句话的主干、修饰与依赖关系,并给整段文本打出句法复杂度评分。

  • 文本矩阵分析

    识别一批文本里最重要的核心词,并以矩阵和网络呈现这些词之间的关联强度。

  • 情感分析

    按行判断文本情感是积极、消极还是中性,可针对电商评论、学术论文等行业选择对应模型。

  • 简单文本聚类

    把相似文本自动分到几个主题里,并用多种评估指标和图表判断分组是否清晰。

  • KWIC关键词上下文索引

    列出每个关键词在原文里的左右上下文,纵向对齐看它的用法、搭配与出现位置。

  • KWIC关键词命中矩阵

    把同义词合并成概念组,统计每个主题在哪些文档里被密集讨论——和 KWIC 互补,看的是「分布」而非「用法」。

  • 中文文本规范化

    把繁简、标点、全/半角写法不一的中文统一成出版级样式,并可整篇转写为拼音。

  • 文本可读性分析

    估算中英文本的阅读门槛与近似阅读年级,挑出最难和最易的句子,看适合什么水平的读者。

  • 词汇等级评估

    对照官方词表逐词估等级并筛超纲,可作新词发现候选与后续主题、关键词任务的自定义词表。

  • 抽取式摘要(TextRank / LexRank 双引擎)

    用 TextRank 与 LexRank 双算法从原文挑出最关键的几句拼成摘要,不改写、可溯源。

  • 敏感信息脱敏

    批量识别并脱敏文本里的身份证、手机号、银行卡等结构化个人信息,占位 / 掩码 / 删除三选一。

辅助工具

高级文本处理

  • 高级情感分析

    逐句解释文本为何偏正负面,给出证据词和推理逻辑。

  • AIGC内容检测

    不只给整体参考分,还定位逐段逐句风险,并生成可复用改稿提示。

  • 知识图谱

    从文本中自动抽取人物、机构、概念及其关系,生成可交互的知识图谱。

  • 停用词挖掘

    自动整理停用词候选,省去反复手写、增补停用词表的精力。

  • BERTopic 主题聚类

    基于语义聚类重建文本主题结构,自动生成抽象标签并解析主题间距离与层级关系。

  • LDA 主题模型

    从文本中发现若干主题,展示主题词、文档分布及主题之间的关系。

  • VAD 三维情感分析

    分析文本情感,除积极/中性/消极外,输出效价(V)、唤醒度(A)、支配度(D)三个维度。

  • PCA 主成分分析

    把高维文本特征压缩成少数主成分,帮助看清差异主要来自哪些方向。

  • 高级文本聚类

    对大批量文本做语义聚类,自动发现主题与结构。

  • LSA 潜在语义分析

    用LSA把分散文本压成几个语义方向,看清主题边界、重叠关系和代表性段落。

  • 智能发现新词

    找出常规分词容易切碎的术语、专名和流行表达,补齐领域词表。

  • LDA困惑度计算

    对LDA在多个候选主题数下做多指标对照,给出更稳妥的主题数建议。

  • 信息价值评估

    逐句评估信息量与表达效率,筛出真正值得保留和引用的内容。

  • 文本相似度去重雷达

    对成批文档做相似度分析与聚类,给出去重建议与可视化(矩阵、雷达等)。

  • 词语搭配强度分析

    用关联强度指标筛出材料里稳定的词搭配,可指定中心词专门查它周围的典型搭配伙伴。

  • 词汇多样性分析

    标量化文本用词丰富度,并定位哪一段开始变得"车轱辘话"。

  • 领域术语抽取

    从一批专业文档里自动挑出该领域反复使用的多字术语。

  • 语料对比关键词分析

    用 keyness 关键性统计对比两组语料,找出目标里反复强调的特征词与相对回避的话题。

  • 语料检索

    在一批文档里按相关度检索段落、句子或整篇文档,关键词与意思接近的内容都能找到。

  • 词汇增长曲线分析

    拟合词汇增长曲线与 Zipf 分布,给出用词开放度、词频陡峭度,并预测再读多少文本能新增多少词。

  • 依存句法模式挖掘

    从大批句子中归纳反复出现的依存关系、词性骨架、动词论元与修饰搭配,补足单句句法树看不到的整体规律。

  • 话语标记词分析

    总结「所以、然而、总之」这类衔接词的用量与位置,看懂文章怎么讲道理、哪里转折和收束最集中。

  • 写作风格判定

    基于多种统计风格特征,量化每篇文档的写作风格。

图像分析

智能分析

  • 因果关系推断

    从文本中识别「因为—所以」等因果关系,适合政策与社科分析。

  • 立场分析

    识别文本中的利益相关方、立场态度与利益动因。

  • 期待挖掘

    从反馈与政策文本中挖出具体期待,判断大家最想要什么、急不急、情绪如何。

  • 隐含情感识别

    逐句检测中文文本中的阴阳怪气、过度捧杀和隐含负面情绪,揭示字面之外的真实态度。

  • 文本结构还原器

    把无标点的连续中文恢复成带句读的句子,并给出句长诊断与逐句列表,便于后续文本挖掘。