词汇多样性分析

用于客观量化文本"用词到底有多丰富、多不重复",把"这篇写得啰嗦""那篇用词丰富"这种模糊感受翻译成可比较、可入论文的具体数字。

系统会一次性给出 9 项主流学术指标(TTR、MATTR、MSTTR、MTLD、HD-D、vocd-D、Yule's K、Yule's I、Maas a²),从滑动窗口、分段平均、词频分布等不同口径同时打分,互相印证,避免被文本长度或单一指标偏好误导。

报告提供各指标矩阵与等级解读、MATTR 沿位置滑窗曲线(精确定位哪一段开始变得啰嗦重复)、多文件标准化雷达对比图,以及基于 9 维向量的两两余弦相似度矩阵,可一眼看出哪几份文本的丰富度画像最接近

常用于教材与读物的难度分级、稿件与版本之间的写作质量筛比,也是作者识别与风格指纹研究的常用预筛指标。

使用前请读:词汇丰富度专项

一次性给出 9 项学术级词汇丰富度指标,并附 MATTR 沿位置滑窗曲线、 多文件标准化雷达、两两余弦相似度。

相比一期 evaluate-text-quality 自带的 TTR / MTLD / HD-D 三项概览,本工具是专项深挖: 完整 9 指标 + 滑窗 + 多文件对比 + 学术引用,研究专用。

加载文件上传组件中...

系统会一次性算出全部 9 项词汇丰富度指标,无需选择。简单理解:这些数字都在回答同一个问题—— 「这段文字用词到底有多丰富、有多不重复」,只是从不同角度(用词比例、滑动窗口、词频分布等)去衡量; 数字越大通常表示用词越多样(Maas 例外,越小越多样)。直接看报告里的雷达图和解读即可,不必纠结公式。

TTR
MATTR
MSTTR
MTLD
HD-D
vocd-D
Yule's K
Yule's I
Maas a²

自动模式按文中中英文字符占比判断;混排建议手动指定。

关闭:原汁原味的语料统计(默认,符合大多数学术口径);开启:只看实词的丰富度。

100 token

滑窗越小越「敏感」(短段重复也会拉低指标);学界惯用 100,长文本可放到 200–500。

100 token

每段算一次 TTR 取平均;末尾不足一段者按 Johnson 1944 原版做法丢弃。

每 20,000 字 2 点

TAT logoText analysis tools
© 2026 tatools.cn 京ICP备2020042889号-2 渝公网安备50010302505500号