TATOOLS 工具目录

中文文本分析、主题建模、OCR 与图像处理在线工具

这里汇总 TATOOLS 已开放的零代码工具，覆盖文本清洗、词频统计、情感分析、关键词提取、主题模型、知识图谱、OCR、图像识别与图像分割等研究场景。

标准文本处理

文本清洗
统一清理文本中的特殊字符、标点和停用词，并可按字数切分长文档，为分析做好预处理。
文本质量评估器
给文本做一次"体检"，同时从写作视角看可读性、从 NLP 视角判断能不能直接喂给后续分析。
词性标注
逐词标注词性并给出各词类的占比与示例，中文同时输出两种分词方案的对比结果。
关键词抽取
从文本里挑出最能代表内容的关键词并按重要度排序，可选三种算法，结果以词云呈现。
高频词提取
统计高频词，并找出由 2–4 个词组成的固定提法，自动归纳焦点说法与多篇间的共性。
命名实体识别
自动识别文本里的人名、地名、机构名、时间等实体，并定位到具体句子。
文体风格指纹（文档相似度）
依据写作习惯的多维统计，判断多篇文本在风格上是否相近、相近到什么程度。
词语共现分析
找出文本里经常成对出现的词，并用多项统计指标判断这种搭配是否真的稳定。
依存句法分析
可视化每句话的主干、修饰与依赖关系，并给整段文本打出句法复杂度评分。
文本矩阵分析
识别一批文本里最重要的核心词，并以矩阵和网络呈现这些词之间的关联强度。
情感分析
按行判断文本情感是积极、消极还是中性，可针对电商评论、学术论文等行业选择对应模型。
简单文本聚类
把相似文本自动分到几个主题里，并用多种评估指标和图表判断分组是否清晰。
KWIC关键词上下文索引
列出每个关键词在原文里的左右上下文，纵向对齐看它的用法、搭配与出现位置。
KWIC关键词命中矩阵
把同义词合并成概念组，统计每个主题在哪些文档里被密集讨论——和 KWIC 互补，看的是「分布」而非「用法」。
中文文本规范化
把繁简、标点、全/半角写法不一的中文统一成出版级样式，并可整篇转写为拼音。
文本可读性分析
估算中英文本的阅读门槛与近似阅读年级，挑出最难和最易的句子，看适合什么水平的读者。
词汇等级评估
对照官方词表逐词估等级并筛超纲，可作新词发现候选与后续主题、关键词任务的自定义词表。
抽取式摘要（TextRank / LexRank 双引擎）
用 TextRank 与 LexRank 双算法从原文挑出最关键的几句拼成摘要，不改写、可溯源。
敏感信息脱敏
批量识别并脱敏文本里的身份证、手机号、银行卡等结构化个人信息，占位 / 掩码 / 删除三选一。

辅助工具

语音转文字
把录音、会议等语音转成文字，支持多语言，适合记录与字幕。
JSON 转 CSV
把 JSON 数据转成表格，支持嵌套结构，便于在 Excel 等中分析。
Word/Excel/PPT 转 PDF
Office 文档转 PDF，保持排版，支持批量。
EXCEL 转 CSV
把 Excel 表另存为 CSV，支持多表、自定义分隔符。
CSV 转 EXCEL
把 CSV 转成 Excel，自动识别分隔符与编码。
TXT 转 CSV
按分隔符把文本转成表格，便于导入与分析。
智能OCR
把图片或 PDF 里的文字、公式、表格识别出来，导出为可编辑文档。
WORD 转 CSV 文件
把 Word 里的表格转成 CSV 文件。
Word/PDF/Excel/CSV 转 TXT
从各类文档中提取纯文字，去掉格式，便于做文本分析。
视频提取音频
从视频中导出音频轨道，支持多格式与音质选择。
批量转换图片分辨率
批量转换图片分辨率，更适合 ai 模型处理
PDF 页面分割
按页码范围从 PDF 中截取页面，另存为新文档。
语音合成
语音合成

高级文本处理

高级情感分析
逐句解释文本为何偏正负面，给出证据词和推理逻辑。
AIGC内容检测
不只给整体参考分，还定位逐段逐句风险，并生成可复用改稿提示。
知识图谱
从文本中自动抽取人物、机构、概念及其关系，生成可交互的知识图谱。
停用词挖掘
自动整理停用词候选，省去反复手写、增补停用词表的精力。
BERTopic 主题聚类
基于语义聚类重建文本主题结构，自动生成抽象标签并解析主题间距离与层级关系。
LDA 主题模型
从文本中发现若干主题，展示主题词、文档分布及主题之间的关系。
VAD 三维情感分析
分析文本情感，除积极/中性/消极外，输出效价（V）、唤醒度（A）、支配度（D）三个维度。
PCA 主成分分析
把高维文本特征压缩成少数主成分，帮助看清差异主要来自哪些方向。
高级文本聚类
对大批量文本做语义聚类，自动发现主题与结构。
LSA 潜在语义分析
用LSA把分散文本压成几个语义方向，看清主题边界、重叠关系和代表性段落。
智能发现新词
找出常规分词容易切碎的术语、专名和流行表达，补齐领域词表。
LDA困惑度计算
对LDA在多个候选主题数下做多指标对照，给出更稳妥的主题数建议。
信息价值评估
逐句评估信息量与表达效率，筛出真正值得保留和引用的内容。
文本相似度去重雷达
对成批文档做相似度分析与聚类，给出去重建议与可视化（矩阵、雷达等）。
词语搭配强度分析
用关联强度指标筛出材料里稳定的词搭配，可指定中心词专门查它周围的典型搭配伙伴。
词汇多样性分析
标量化文本用词丰富度，并定位哪一段开始变得"车轱辘话"。
领域术语抽取
从一批专业文档里自动挑出该领域反复使用的多字术语。
语料对比关键词分析
用 keyness 关键性统计对比两组语料，找出目标里反复强调的特征词与相对回避的话题。
语料检索
在一批文档里按相关度检索段落、句子或整篇文档，关键词与意思接近的内容都能找到。
词汇增长曲线分析
拟合词汇增长曲线与 Zipf 分布，给出用词开放度、词频陡峭度，并预测再读多少文本能新增多少词。
依存句法模式挖掘
从大批句子中归纳反复出现的依存关系、词性骨架、动词论元与修饰搭配，补足单句句法树看不到的整体规律。
话语标记词分析
总结「所以、然而、总之」这类衔接词的用量与位置，看懂文章怎么讲道理、哪里转折和收束最集中。
写作风格判定
基于多种统计风格特征，量化每篇文档的写作风格。

图像分析

图像识别与分类
快速判断图片属于哪一类，并给出置信度。
图像语义分割与实例分割
自动识别图中物体并按类别/实例圈出、打标签。
景别判断
判断照片是特写、近景、中景还是远景，适合批量分析取景。
图像语义分割
按物体类别对整张图做像素级分区标注。
图像颜色分布
提取图片主色、生成配色方案并展示颜色分布。
实例分割图像
圈出图中每一个独立物体并区分不同实例。
预设分类图像分类
按你设定的类别给图片打标签，适合固定场景。

智能分析

因果关系推断
从文本中识别「因为—所以」等因果关系，适合政策与社科分析。
立场分析
识别文本中的利益相关方、立场态度与利益动因。
期待挖掘
从反馈与政策文本中挖出具体期待，判断大家最想要什么、急不急、情绪如何。
隐含情感识别
逐句检测中文文本中的阴阳怪气、过度捧杀和隐含负面情绪，揭示字面之外的真实态度。
文本结构还原器
把无标点的连续中文恢复成带句读的句子，并给出句长诊断与逐句列表，便于后续文本挖掘。