词汇多样性分析
用于客观量化文本"用词到底有多丰富、多不重复",把"这篇写得啰嗦""那篇用词丰富"这种模糊感受翻译成可比较、可入论文的具体数字。
系统会一次性给出 9 项主流学术指标(TTR、MATTR、MSTTR、MTLD、HD-D、vocd-D、Yule's K、Yule's I、Maas a²),从滑动窗口、分段平均、词频分布等不同口径同时打分,互相印证,避免被文本长度或单一指标偏好误导。
报告提供各指标矩阵与等级解读、MATTR 沿位置滑窗曲线(精确定位哪一段开始变得啰嗦重复)、多文件标准化雷达对比图,以及基于 9 维向量的两两余弦相似度矩阵,可一眼看出哪几份文本的丰富度画像最接近。
常用于教材与读物的难度分级、稿件与版本之间的写作质量筛比,也是作者识别与风格指纹研究的常用预筛指标。
一次性给出 9 项学术级词汇丰富度指标,并附 MATTR 沿位置滑窗曲线、 多文件标准化雷达、两两余弦相似度。
相比一期 evaluate-text-quality 自带的 TTR / MTLD / HD-D 三项概览,本工具是专项深挖: 完整 9 指标 + 滑窗 + 多文件对比 + 学术引用,研究专用。
系统会一次性算出全部 9 项词汇丰富度指标,无需选择。简单理解:这些数字都在回答同一个问题—— 「这段文字用词到底有多丰富、有多不重复」,只是从不同角度(用词比例、滑动窗口、词频分布等)去衡量; 数字越大通常表示用词越多样(Maas 例外,越小越多样)。直接看报告里的雷达图和解读即可,不必纠结公式。
自动模式按文中中英文字符占比判断;混排建议手动指定。
关闭:原汁原味的语料统计(默认,符合大多数学术口径);开启:只看实词的丰富度。
滑窗越小越「敏感」(短段重复也会拉低指标);学界惯用 100,长文本可放到 200–500。
每段算一次 TTR 取平均;末尾不足一段者按 Johnson 1944 原版做法丢弃。
每 20,000 字 2 点