词汇多样性分析

用于客观量化文本"用词到底有多丰富、多不重复"，把"这篇写得啰嗦""那篇用词丰富"这种模糊感受翻译成可比较、可入论文的具体数字。

系统会一次性给出 9 项主流学术指标（TTR、MATTR、MSTTR、MTLD、HD-D、vocd-D、Yule's K、Yule's I、Maas a²），从滑动窗口、分段平均、词频分布等不同口径同时打分，互相印证，避免被文本长度或单一指标偏好误导。

报告提供各指标矩阵与等级解读、MATTR 沿位置滑窗曲线（精确定位哪一段开始变得啰嗦重复）、多文件标准化雷达对比图，以及基于 9 维向量的两两余弦相似度矩阵，可一眼看出哪几份文本的丰富度画像最接近。

常用于教材与读物的难度分级、稿件与版本之间的写作质量筛比，也是作者识别与风格指纹研究的常用预筛指标。

使用前请读：词汇丰富度专项

一次性给出 9 项学术级词汇丰富度指标，并附 MATTR 沿位置滑窗曲线、多文件标准化雷达、两两余弦相似度。

相比一期 evaluate-text-quality 自带的 TTR / MTLD / HD-D 三项概览，本工具是专项深挖：完整 9 指标 + 滑窗 + 多文件对比 + 学术引用，研究专用。

加载文件上传组件中...

参与计算的指标

系统会一次性算出全部 9 项词汇丰富度指标，无需选择。简单理解：这些数字都在回答同一个问题—— 「这段文字用词到底有多丰富、有多不重复」，只是从不同角度（用词比例、滑动窗口、词频分布等）去衡量；数字越大通常表示用词越多样（Maas 例外，越小越多样）。直接看报告里的雷达图和解读即可，不必纠结公式。

TTR

MATTR

MSTTR

MTLD

HD-D

vocd-D

Yule's K

Yule's I

Maas a²

文本语言

自动模式按文中中英文字符占比判断；混排建议手动指定。

切分单位

主流学术口径

计算前去除停用词

关闭：原汁原味的语料统计（默认，符合大多数学术口径）；开启：只看实词的丰富度。

MATTR 滑窗大小100 token

滑窗越小越「敏感」（短段重复也会拉低指标）；学界惯用 100，长文本可放到 200–500。

MSTTR 分段大小100 token

每段算一次 TTR 取平均；末尾不足一段者按 Johnson 1944 原版做法丢弃。

每 20,000 字 2 点

完成后发送邮件通知