TATOOLS 工具目录
中文文本分析、语料处理与主题建模在线工具
这里汇总 TATOOLS 已开放的零代码文本分析工具,覆盖文本清洗、词频统计、情感分析、关键词提取、主题模型、文本聚类、知识图谱、实体识别与语料对比等研究场景。
标准文本处理
- 文本清洗
按行清洗文本:移除停用词、处理标点、剥离网页噪声,并可按字数窗口分段供后续建模。
- 文本质量评估器
从六个维度给文本做一次全面体检,判断它能不能直接用于主题建模、聚类、实体识别等下游任务。
- 中文文本规范化
把繁简、标点、全半角写法不一的中文统一成出版级样式,并可整篇转写为拼音。
- 词性标注
统计名词动词分布、转移矩阵、基准语料对比,看清文本的语法骨架。
- 关键词抽取
提取文本核心关键词,TF-IDF 看稀有度、TextRank 看关联强度,交叉对比看清文本核心语义。
- 高频词提取
统计词频和固定词组,包括 2–4 个词组成的搭配,自动归纳焦点说法与多篇间的共性。
- 命名实体识别
自动识别文本里的人名地名机构时间,生成可核对实体清单。
- 文体风格指纹
把写作习惯拆成可对比的统计指标,定位风格差异来源。多篇文本可对比风格上是否相近、相近到什么程度。
- 词语共现分析
找出文本里经常成对出现的词,并用多项统计指标判断这种搭配是否真的稳定。
- 依存句法分析
可视化每句话的主干、修饰与依赖关系,并给整段文本打出句法复杂度评分。
- 文本矩阵分析
找出多份文本里最重要的核心词,用矩阵和网络图展示词与词之间的关联强度。
- 传统情感分析
识别文本情感倾向,支持自建积极词和消极词。
- DeepSentiV2深度学习情感分析
使用深度学习模型判断情感倾向,支持电商、学术、金融等 7 种行业语境,输出关键词和置信度。
- DeepKeyword 深度学习模型关键词发现
用语义模型从完整文章中抽取关键词,综合得分、频次和位置排序,适合单篇长文分析。
- 简单文本聚类
把相似文本自动分到几个主题里,并用多种评估指标和图表判断分组是否清晰。
- KWIC关键词上下文索引
列出每个关键词在原文里的左右上下文,纵向对齐看它的用法、搭配与出现位置。
- KWIC关键词命中矩阵
把同义词合并成概念组,统计每个主题在哪些文档里被密集讨论——和 KWIC 互补,看的是「分布」而非「用法」。
- 文档词项矩阵
逐文档统计词频并构建文档-词汇矩阵,热力图直观展示不同文档的用词差异。
- 标点纠正
自动修复中文文本中缺失或错误的标点符号,逐句对照显示纠正变化。
- 文本可读性分析
估算中英文本的阅读门槛与近似阅读年级,挑出最难和最易的句子,看适合什么水平的读者。
- 相似句查找
基于语义向量查找含义相近的句子对,输出相似度矩阵和配对明细。
- 词汇等级评估
对照官方词表逐词估等级并筛超纲,可作新词发现候选与后续主题、关键词任务的自定义词表。
- 抽取式摘要(TextRank / LexRank 双引擎)
用 TextRank 与 LexRank 双算法从原文挑出最关键的几句拼成摘要,不改写、可溯源。
- 敏感信息脱敏
批量识别并脱敏文本里的身份证、手机号、银行卡等结构化个人信息,占位 / 掩码 / 删除三选一。
辅助工具
- 文档转写导出TXT
将 Word/PDF/PPT/Excel 等文档统一转写为 Markdown 和纯文本,同时输出多种格式。
- 语音转文字
把录音、会议等语音转成文字,支持多语言,适合记录与字幕。
- JSON 转 CSV
把 JSON 数据转成表格,支持嵌套结构,便于在 Excel 等中分析。
- Word/Excel/PPT 转 PDF
Office 文档转 PDF,保持排版,支持批量。
- EXCEL 转 CSV
把 Excel 表另存为 CSV,支持多表、自定义分隔符。
- CSV 转 EXCEL
把 CSV 转成 Excel,自动识别分隔符与编码。
- TXT 转 CSV
按分隔符把文本转成表格,便于导入与分析。
- 智能OCR
把图片或 PDF 里的文字、公式、表格识别出来,导出为可编辑文档。
- WORD 转 CSV 文件
把 Word 里的表格转成 CSV 文件。
- Word/PDF/Excel/CSV 转 TXT
从各类文档中提取纯文字,去掉格式,便于做文本分析。
- 视频提取音频
从视频中导出音频轨道,支持多格式与音质选择。
- 批量转换图片分辨率
批量转换图片分辨率,更适合 ai 模型处理
- PDF 页面分割
按页码范围从 PDF 中截取页面,另存为新文档。
高级文本处理
- 高级情感分析
逐句解释文本为何偏正负面,给出证据词和推理逻辑。
- AIGC内容检测
不只给整体参考分,还定位逐段逐句风险,并生成可复用改稿提示。
- 知识图谱
从文本中自动抽取人物、机构、概念及其关系,生成可交互的知识图谱。
- 停用词挖掘
自动整理停用词候选,省去反复手写、增补停用词表的精力。
- 文本结构还原器
把无标点的连续中文恢复成带句读的句子,并给出句长诊断与逐句列表,便于后续文本挖掘。
- BERTopic 主题聚类
基于语义聚类重建文本主题结构,自动生成抽象标签并解析主题间距离与层级关系。
- LDA 主题模型
从文本中发现若干主题,展示主题词、文档分布及主题之间的关系。
- VAD 三维情感分析
分析文本情感,除积极/中性/消极外,输出效价(V)、唤醒度(A)、支配度(D)三个维度。
- PCA 主成分分析
把高维文本特征压缩成少数主成分,帮助看清差异主要来自哪些方向。
- 高级文本聚类
对大批量文本做语义聚类,自动发现主题与结构。
- LSA 潜在语义分析
用LSA把分散文本压成几个语义方向,看清主题边界、重叠关系和代表性段落。
- 智能发现新词
找出常规分词容易切碎的术语、专名和流行表达,补齐领域词表。
- LDA困惑度计算
对LDA在多个候选主题数下做多指标对照,给出更稳妥的主题数建议。
- 信息价值评估
逐句评估信息量与表达效率,筛出真正值得保留和引用的内容。
- 文本相似度去重雷达
对成批文档做相似度分析与聚类,给出去重建议与可视化(矩阵、雷达等)。
- 词语搭配强度分析
用关联强度指标筛出材料里稳定的词搭配,可指定中心词专门查它周围的典型搭配伙伴。
- 重复内容合并
基于语义相似度将意思接近的句子或段落归组,保留代表句并合并重复表达。
- 词汇多样性分析
标量化文本用词丰富度,并定位哪一段开始变得"车轱辘话"。
- PCA 主成分降维
对表格数值列做主成分分析,输出方差解释、载荷、得分和二维投影散点图。
- 领域术语抽取
从一批专业文档里自动挑出该领域反复使用的多字术语。
- 样本聚类
对表格数值列做 K-Means 聚类,自动选 K 并输出分群画像和二维投影图。
- 语料对比关键词分析
用 keyness 关键性统计对比两组语料,找出目标里反复强调的特征词与相对回避的话题。
- 趋势分析
对日期指标序列做聚合、移动平均、环比同比分析,自动识别峰谷和异常。
- 语料检索
在一批文档里按相关度检索段落、句子或整篇文档,关键词与意思接近的内容都能找到。
- 词汇增长曲线分析
拟合词汇增长曲线与 Zipf 分布,给出用词开放度、词频陡峭度,并预测再读多少文本能新增多少词。
- 依存句法模式挖掘
从大批句子中归纳反复出现的依存关系、词性骨架、动词论元与修饰搭配,补足单句句法树看不到的整体规律。
- 话语标记词分析
总结「所以、然而、总之」这类衔接词的用量与位置,看懂文章怎么讲道理、哪里转折和收束最集中。
- 写作风格判定
基于多种统计风格特征,量化每篇文档的写作风格。
