TATOOLS 工具目录
中文文本分析、主题建模、OCR 与图像处理在线工具
这里汇总 TATOOLS 已开放的零代码工具,覆盖文本清洗、词频统计、情感分析、关键词提取、主题模型、知识图谱、OCR、图像识别与图像分割等研究场景。
标准文本处理
- 文本清洗
统一清理文本中的特殊字符、标点和停用词,并可按字数切分长文档,为分析做好预处理。
- 文本质量评估器
给文本做一次"体检",同时从写作视角看可读性、从 NLP 视角判断能不能直接喂给后续分析。
- 词性标注
逐词标注词性并给出各词类的占比与示例,中文同时输出两种分词方案的对比结果。
- 关键词抽取
从文本里挑出最能代表内容的关键词并按重要度排序,可选三种算法,结果以词云呈现。
- 高频词提取
统计高频词,并找出由 2–4 个词组成的固定提法,自动归纳焦点说法与多篇间的共性。
- 命名实体识别
自动识别文本里的人名、地名、机构名、时间等实体,并定位到具体句子。
- 文体风格指纹(文档相似度)
依据写作习惯的多维统计,判断多篇文本在风格上是否相近、相近到什么程度。
- 词语共现分析
找出文本里经常成对出现的词,并用多项统计指标判断这种搭配是否真的稳定。
- 依存句法分析
可视化每句话的主干、修饰与依赖关系,并给整段文本打出句法复杂度评分。
- 文本矩阵分析
识别一批文本里最重要的核心词,并以矩阵和网络呈现这些词之间的关联强度。
- 情感分析
按行判断文本情感是积极、消极还是中性,可针对电商评论、学术论文等行业选择对应模型。
- 简单文本聚类
把相似文本自动分到几个主题里,并用多种评估指标和图表判断分组是否清晰。
- KWIC关键词上下文索引
列出每个关键词在原文里的左右上下文,纵向对齐看它的用法、搭配与出现位置。
- KWIC关键词命中矩阵
把同义词合并成概念组,统计每个主题在哪些文档里被密集讨论——和 KWIC 互补,看的是「分布」而非「用法」。
- 中文文本规范化
把繁简、标点、全/半角写法不一的中文统一成出版级样式,并可整篇转写为拼音。
- 文本可读性分析
估算中英文本的阅读门槛与近似阅读年级,挑出最难和最易的句子,看适合什么水平的读者。
- 词汇等级评估
对照官方词表逐词估等级并筛超纲,可作新词发现候选与后续主题、关键词任务的自定义词表。
- 抽取式摘要(TextRank / LexRank 双引擎)
用 TextRank 与 LexRank 双算法从原文挑出最关键的几句拼成摘要,不改写、可溯源。
- 敏感信息脱敏
批量识别并脱敏文本里的身份证、手机号、银行卡等结构化个人信息,占位 / 掩码 / 删除三选一。
辅助工具
- 语音转文字
把录音、会议等语音转成文字,支持多语言,适合记录与字幕。
- JSON 转 CSV
把 JSON 数据转成表格,支持嵌套结构,便于在 Excel 等中分析。
- Word/Excel/PPT 转 PDF
Office 文档转 PDF,保持排版,支持批量。
- EXCEL 转 CSV
把 Excel 表另存为 CSV,支持多表、自定义分隔符。
- CSV 转 EXCEL
把 CSV 转成 Excel,自动识别分隔符与编码。
- TXT 转 CSV
按分隔符把文本转成表格,便于导入与分析。
- 智能OCR
把图片或 PDF 里的文字、公式、表格识别出来,导出为可编辑文档。
- WORD 转 CSV 文件
把 Word 里的表格转成 CSV 文件。
- Word/PDF/Excel/CSV 转 TXT
从各类文档中提取纯文字,去掉格式,便于做文本分析。
- 视频提取音频
从视频中导出音频轨道,支持多格式与音质选择。
- 批量转换图片分辨率
批量转换图片分辨率,更适合 ai 模型处理
- PDF 页面分割
按页码范围从 PDF 中截取页面,另存为新文档。
- 语音合成
语音合成
高级文本处理
- 高级情感分析
逐句解释文本为何偏正负面,给出证据词和推理逻辑。
- AIGC内容检测
不只给整体参考分,还定位逐段逐句风险,并生成可复用改稿提示。
- 知识图谱
从文本中自动抽取人物、机构、概念及其关系,生成可交互的知识图谱。
- 停用词挖掘
自动整理停用词候选,省去反复手写、增补停用词表的精力。
- BERTopic 主题聚类
基于语义聚类重建文本主题结构,自动生成抽象标签并解析主题间距离与层级关系。
- LDA 主题模型
从文本中发现若干主题,展示主题词、文档分布及主题之间的关系。
- VAD 三维情感分析
分析文本情感,除积极/中性/消极外,输出效价(V)、唤醒度(A)、支配度(D)三个维度。
- PCA 主成分分析
把高维文本特征压缩成少数主成分,帮助看清差异主要来自哪些方向。
- 高级文本聚类
对大批量文本做语义聚类,自动发现主题与结构。
- LSA 潜在语义分析
用LSA把分散文本压成几个语义方向,看清主题边界、重叠关系和代表性段落。
- 智能发现新词
找出常规分词容易切碎的术语、专名和流行表达,补齐领域词表。
- LDA困惑度计算
对LDA在多个候选主题数下做多指标对照,给出更稳妥的主题数建议。
- 信息价值评估
逐句评估信息量与表达效率,筛出真正值得保留和引用的内容。
- 文本相似度去重雷达
对成批文档做相似度分析与聚类,给出去重建议与可视化(矩阵、雷达等)。
- 词语搭配强度分析
用关联强度指标筛出材料里稳定的词搭配,可指定中心词专门查它周围的典型搭配伙伴。
- 词汇多样性分析
标量化文本用词丰富度,并定位哪一段开始变得"车轱辘话"。
- 领域术语抽取
从一批专业文档里自动挑出该领域反复使用的多字术语。
- 语料对比关键词分析
用 keyness 关键性统计对比两组语料,找出目标里反复强调的特征词与相对回避的话题。
- 语料检索
在一批文档里按相关度检索段落、句子或整篇文档,关键词与意思接近的内容都能找到。
- 词汇增长曲线分析
拟合词汇增长曲线与 Zipf 分布,给出用词开放度、词频陡峭度,并预测再读多少文本能新增多少词。
- 依存句法模式挖掘
从大批句子中归纳反复出现的依存关系、词性骨架、动词论元与修饰搭配,补足单句句法树看不到的整体规律。
- 话语标记词分析
总结「所以、然而、总之」这类衔接词的用量与位置,看懂文章怎么讲道理、哪里转折和收束最集中。
- 写作风格判定
基于多种统计风格特征,量化每篇文档的写作风格。