评估器做的事情分成两个层面,分别面向不同需求。

第一个层面是"文本基础概览",面向写作和编辑场景。它统计文本的基本规模——总字数、净字数、词数、唯一词、句数、段数——然后从三个角度展开分析。

句长分布方面,按中英文句末标点切句,计算平均句长、P50 和 P90 句长,统计短句(15 词以内)和长句(40 词以上)各占多少比例,并画一张等距分箱直方图。

词汇丰富度用三个学术界标准指标衡量:TTR(类型-总词比,最直观但受长度影响大)、MTLD(长度自适应,跨文件可比性更强)、HD-D(超几何抽样,消除长度偏差),三个指标还会绘制成雷达图方便对比。

字符构成用环形图展示中文、英文、数字、标点、空白、表情、其他各自占比。另外还有全半角标点统计,方便判断排版规范度。

第二个层面是"NLP 任务适用性体检",面向技术场景。它从 100 分起步,按符号占比、有效字符、句长段长、词汇丰富度、重复率、信息熵等维度逐项扣分,给出综合得分和 good/fair/poor 三档评价。然后按"语料是否干净到能跑"的最低门槛,分别判定这份文本能否作为聚类、LDA、BERTopic、命名实体识别、情感分析、抽取式摘要六种任务的合格输入。

判定只排除空文件、纯符号、极重复模板这些明显不可用的情况,不要求文件有多大。NLP 体检部分还细分为六个指标分组:基础统计、重复性检测、文本组成分析、词汇质量评估、结构特征提取、信息密度计算,每个分组独立展示。

上传多个文件时,自动展示横向对比表,按字数、词数、句数、段数、唯一词、TTR、MTLD、HD-D、平均句长九个维度对照。每个指标区块都附带算法说明和注意事项,帮助你理解计算逻辑和适用边界。


适用文档

支持 TXT 和 CSV 两种格式。

  1. TXT 文件。按全文处理,编码建议用 UTF-8。其他编码出现乱码可以先转码再上传。
  2. CSV 文件。自动识别文本列进行评估,非文本列不影响结果。需要带表头。


适用情景

  1. 主题建模前摸底。你打算用 LDA 或 BERTopic 做主题分析,但不确定手头语料质量够不够。跑一次评估器,看看综合得分和任务适用性判定,心里有数再往下走,避免跑出一堆噪声主题。
  2. 多份语料横向对比。你从不同渠道收集了几份语料,想快速比较哪份质量更好。上传多个文件,看综合得分和词汇丰富度指标,就能分出高下,再决定用哪份或者怎么混合。
  3. 爬虫数据质量检查。爬回来的文本可能夹杂大量噪声、重复内容或模板化文本。评估器的重复性指标(重复行比例、重复词比例、重复 n-gram 比例)能帮你快速发现问题,知道哪些站点的数据需要先做清洗。
  4. 写作质量参考。翻译稿、学术论文、公众号文章等,可以用词汇丰富度(TTR、MTLD、HD-D)和句长分布来评估用词多样性和行文节奏,发现用词单一或句子过长的问题。
  5. 语料库批量审核。做学术研究时需要建一个规范的语料库,评估器可以批量扫描每份文本的质量,筛除不合格样本,统一标准后再进入分析流程。


使用步骤

第一步:上传文件。你可以上传一个或多个 TXT 或 CSV 文件,系统逐文件独立评估。


第二步:查看报告。提交后系统自动处理,完成后跳转到报告页。报告页从上到下依次展示:结果说明提示、文本基础概览(规模数字卡、句长分布直方图、词汇丰富度雷达图、字符构成环形图、标点全半角统计、多文件对比表),以及 NLP 体检(综合得分、任务适用性六项判定、基础统计、重复性指标、文本组成、词汇质量、结构特征、信息密度)。

第三步:下载结果。报告页提供 CSV 导出,包含所有指标的完整数据。建议先看综合得分和任务适用性,再根据需要深入查看各个指标分组。

报告解读

报告页信息量比较大,这里按区域逐一说明怎么看、看什么。


1.文本基础概览——规模数字卡。六个数字一排:总字数是原始文本的全部字符数(含空白标点),净字数剔除了空白,更接近实际承载内容的量。词数的口径是"中文字符数加英文单词数",不是语义分词意义上的"词",如果你需要语义词数,可以用分词高频词工具。唯一词反映词汇多样性的绝对规模,越大说明用词越广。句数和段数配合平均句长一起看,能判断行文节奏。



2.文本基础概览——句长分布。先看平均句长和 P50/P90 句长。P50 表示有一半句子不超过这个长度,P90 表示有九成句子不超过这个长度,两者差距大说明句长参差不齐。再看短句占比和长句占比:短句多可能是口语或对话类文本,长句多可能是学术或法律文本。直方图帮你快速看出句长集中在哪个区间。注意:按中英文句末标点切句,不识别省略号内嵌句等复杂情形,含大量列表的文本会偏向短句。



3.文本基础概览——词汇丰富度。TTR 最直观但受文本长度影响大,短文本天然偏高,跨文件比较时不要看 TTR。MTLD 和 HD-D 对不同长度的文本可比性更强,是跨文件比较的首选。雷达图把三个指标映射到 0-100 方便直观对比,多文件上传时可以叠加查看。不到 50 个词的极短文本,MTLD 会退化为文本长度本身,仅作参考。



4.文本基础概览——字符构成。环形图展示中文、英文、数字、标点、空白、表情、其他各自占比。中文占比高说明是中文为主的内容,英文占比高可能是中英混排或英文文档。标点占比异常高可能意味着格式问题。注意:这个统计的分类口径和 NLP 体检里的"文本组成分析"不完全一致,这里偏排版视角,那边偏 NLP 视角,差异属正常。



5.文本基础概览——标点全半角。全角标点多是中文排版规范的体现,半角标点多不一定有问题——如果文本含大量代码、URL 或英文术语,半角计数自然偏高。



6.文本基础概览——多文件对比表。多文件上传时自动出现,按字数、词数、句数、段数、唯一词、TTR、MTLD、HD-D、平均句长九个维度横向对照。快速发现哪份文件规模异常、哪份词汇丰富度偏低。不同长度文件之间不要用 TTR 直接比较,应优先看 MTLD 和 HD-D。


7.NLP 体检——综合得分。页面中间的大数字就是综合得分,75 分及以上是 good(绿底),60 到 74 是 fair(黄底),60 以下是 poor(红底)。得分是启发式累计扣分的结果,从 100 分起步逐项减分。古文、口语、对话、代码、表格类样本可能被误判为低质,需要结合文本基础概览综合判断。



8.NLP 体检——任务适用性。六张卡片分别对应聚类、LDA、BERTopic、命名实体识别、情感分析、抽取式摘要。绿色对勾表示通过(该文本可以作为这项任务的合格输入),红色叉号表示不通过。门槛只排除空文件、纯符号、有效字符过少、极端模板化重复等明显不可用的情况。聚类和主题建模还需要语料里有足够多条文本(多文件或同一文件内多行多段)才有意义,这里只是判断"内容是否干净到能跑"。



9.NLP 体检——六个指标分组。基础统计展示主语言类别、字符总数、词汇总数、段落数量。重复性指标用进度条展示重复行、重复词、重复 n-gram 三项比例,高重复率往往提示模板化或爬虫噪声,但词典、列表、法律条文等天然高重复的文本不一定低质。文本组成分析展示符号占比、有效字符占比、标点占比、大写字母占比、简洁性比率。词汇质量指标展示 TTR、词汇密度(实词占比)、稀有词得分(只出现一次的词占比)、新颖性。结构特征展示平均段落长度、段落信息熵、句长统计。信息密度展示文档信息熵、信息密度、语义信息量(唯一词数)。



10.完整数据和术语表。报告底部可以展开查看所有原始字段的数值,还有一个可折叠的术语表,包含 30 个统计学术语的解释,遇到不认识的指标可以在这里查。



参数解析与对比示例

文本质量评估器无需手动配置参数,上传文件即可自动评估。以下是评估过程中涉及的核心指标和阈值。

综合得分扣分规则。

指标扣分条件扣分值
符号占比超过 30%-15
有效字符占比低于 50%-15
文本长度不足 800 字符-15
平均句长超过 80 词-8
段落信息熵低于 2.0-10
平均段落长度超过 2000 字符-8
TTR低于 0.10-10
重复行比例超过 40%-6
重复词比例超过 92%-6
重复 n-gram 比例超过 85%-7
唯一词数低于 50-8
句数低于 3 句-8
自然句占比低于 40%-10
长行问题存在超 2000 字符的行-6

任务适用性判定门槛。

任务最低字符数其他要求
聚类150语料合格基线(有效字符 >= 30%、重复 n-gram <= 95%、TTR >= 0.05、唯一词 >= 15)
LDA100同上
BERTopic50同上(门槛最低,因为嵌入模型对短文本鲁棒性更好)
命名实体识别200有效字符 >= 50%
情感分析100有效字符 >= 50%
抽取式摘要400句数 >= 3 且综合评价不是 poor

两组典型评估结果供参考。

  1. 良好语料。综合得分 82(good),六种任务全部通过。字符以中文为主(占比 78%),符号占比 5%,TTR 0.42,MTLD 67.3,重复 n-gram 12%,句长分布均匀。可以直接进入下游分析。
  2. 需清洗语料。综合得分 47(poor),六种任务均未通过。符号占比 38%(爬虫噪声),重复行比例 52%,有效字符不足。需要先做文本清洗去重去噪声,再重新评估。

案例分析

案例一:主题建模前的质量摸底。
背景:某研究者准备用 BERTopic 对 200 篇新闻报道做主题聚类,想先确认语料质量。
操作:上传全部 200 篇文件,跑一次评估器。
结果:综合得分 82(good),任务适用性显示聚类、LDA、BERTopic 三项全部通过。词汇丰富度 MTLD 为 67.3,说明用词多样性不错。重复 n-gram 比例 12%,在合理范围内。多文件对比表显示各文件得分集中在 75-90 之间,没有明显异常文件。研究者放心进入下一步主题建模。


案例二:爬虫数据质量筛查。
背景:某团队从三个不同网站爬取了 300 篇文章,想确认哪些网站的数据质量更好。
操作:三个网站的文本分别上传,横向对比。
结果:网站 A 综合得分 71(fair),重复行比例 38% 偏高,模板化明显,重复性指标分组中重复行进度条接近四成;网站 B 得分 85(good),各项指标健康,字符构成以中文为主、符号占比低;网站 C 得分 54(poor),符号占比 45%,有效字符不足,六种任务全部未通过。团队决定只用网站 B 的数据,网站 A 需要先做文本清洗去重,网站 C 数据质量太差需要重新爬取。


案例三:学术语料库批量审核。
背景:某语言学实验室建了一个 200 篇论文的语料库,需要统一标准筛选合格样本。
操作:上传全部文件,查看综合得分分布和任务适用性。
结果:综合得分中位数 76(good),但有 15 篇综述类文章得分在 55-62 之间(fair 到 poor 边界),MTLD 明显低于实验类文章,句长分布偏向长句(P90 达 62 词)。实验室据此将综述和实验分开建模,聚类效果改善明显。


类似功能对比

文本质量评估器和文本可读性评估容易搞混,其实侧重点不一样。

对比维度文本质量评估器信息价值评估器文本可读性评估
分析粒度整篇文档逐段/逐行整篇文档
关注什么文本能不能用于 NLP 任务每段话的信息量够不够高文本对读者来说好不好懂
核心指标综合得分、任务适用性、重复率、词汇丰富度段落综合得分、信息熵、困惑度、词汇密度、信息密度可读性指数、阅读难度等级
方法纯统计,零 LLM纯统计加可选大模型复核统计加语言学公式
典型用途跑分析前预检语料质量从长文中筛出信息量高的段落,剔除噪声段落,删除废话评估文章的受众适配度
输出综合得分 + 六项任务判定 + 六组指标每段得分 + 保留/剔除建议 + 原因标签可读性等级 + 难度评分

如果你关心的是"这份语料能不能拿去做分析",用文本质量评估器。如果你关心的是"这篇文章小学生能不能看懂",用文本可读性评估。