使用教程登录 / 注册

语料对比关键词分析

用于在一份「想分析的文本」（目标语料）和一份「常见说法的对照」（参考语料）之间做词频对比，识别目标里反复强调的特征词，以及密度明显偏低、相对回避的话题。

对每个词构造 2×2 列联表，同时计算 Log-likelihood、Chi-square 与 Log-ratio 三种关键性统计量：前两者衡量"差异显著程度"，后者突出"差异倍数"，三者互为印证、避免单一指标的偏见。

报告分别给出过度代表与不足代表的词表，配 Top N 条形图、可按任一统计量排序的详情表，并附目标 PMW、参考 PMW、期望频次与 p 值；过度代表词可当作特征词或标签，不足代表词可作为话题缺口的检查清单。

适合自家品牌评论对照行业评论梳理用户的卖点与槽点，也适合政策文本对照通用新闻提取本期文件的新提法与口径变化。

使用前请读：keyness 不是单纯找高频词

需要 两组语料：上面是目标语料（你想分析的那一份），下面是参考语料（拿来作对比的"普通文本"）。工具会自动找出"在目标里反复出现、但在参考里少见"的词（过度代表，俗称"目标语料的特征词"），以及反过来"目标里少见、参考里却常见"的词（不足代表，目标语料"刻意避开"的话题）。

实际能拿来做什么：

市场 / 品牌：自家品牌评论 vs 行业评论 → 看用户嘴里反复提到的卖点和槽点，作为投放文案、客服话术、产品迭代的输入。
政策 / 舆情：政府公文 / 政策文本 vs 通用新闻 → 看本期文件强调了哪些新提法、淡化了哪些旧表述，沉淀政策口径变化时间线。
研究 / 学术：A 作者 vs B 作者、A 期刊 vs B 期刊、医学文献 vs 通用语料 → 提取学科术语、写作风格、专业表达，可直接用作论文「关键词」「术语表」素材。
内容运营：自家公众号 / 自媒体 vs 全网通用语料 → 看自己的内容标签是不是过窄或过时，反向指导选题。
客服 / 售后：投诉工单 vs 普通对话 → 找出投诉里反复出现的问题词，作为质检 / 培训重点。

只有一组语料时改用「高频词提取」或「关键词抽取」即可。

目标语料（你想分析的那一份）

支持一篇或多篇 txt / csv，自动按句切词后统计词频。

加载文件上传组件中...

参考语料（拿来对比的"普通文本"）

上传 txt 文件，或直接把整段参考文本贴到下方文本框；不需要任何额外的内置词频表。

上传参考语料文件

直接输入参考文本

加载文件上传组件中...

建议提供 至少 5 万字 的参考语料，才有足够的统计稳健性；越大越好。

没有参考语料？一键填入下面的示例文本（仅作演示，真实分析请用更大语料）

点击后会自动切换到「直接输入参考文本」模式，并把示例文本填入文本框，可在此基础上修改。

统计量

默认同时计算并展示三种关键性统计量： Log-likelihood（Dunning 1993，主流首选）、 Chi-square、 Log-ratio（Hardie 2014）。 LL 与 χ² 偏向高频词；log-ratio 更突出"差异倍数"。报告里三种统计量会分别给出 Top N 条形图，详情表也支持按任一统计量排序。

目标语料最低出现次数5 次

过滤"在目标里只出现 1-2 次"的词，避免低频噪声。短文本可调到 2-3，长文本建议 5-10。

各取前 N 词200 个

报告分别保留 N 个过度代表词 + N 个不足代表词。

文本语言

自动检测

中文

英文

停用词与词性过滤

强烈建议开启：否则关键词排行的最前列大概率会被「的、是、和、了、the、of、a」这类高频功能词淹没。目标语料与参考语料会同步使用这套停用词，保证 keyness 统计前后一致。

使用系统停用词

使用自定义停用词

系统停用词与自定义停用词会取并集；关闭自定义停用词时会自动清空已上传文件。

只统计某些词性

每 20,000 字 2 点

完成后发送邮件通知