语料对比关键词分析
用于在一份「想分析的文本」(目标语料)和一份「常见说法的对照」(参考语料)之间做词频对比,识别目标里反复强调的特征词,以及密度明显偏低、相对回避的话题。
对每个词构造 2×2 列联表,同时计算 Log-likelihood、Chi-square 与 Log-ratio 三种关键性统计量:前两者衡量"差异显著程度",后者突出"差异倍数",三者互为印证、避免单一指标的偏见。
报告分别给出过度代表与不足代表的词表,配 Top N 条形图、可按任一统计量排序的详情表,并附 目标 PMW、参考 PMW、期望频次与 p 值;过度代表词可当作特征词或标签,不足代表词可作为话题缺口的检查清单。
适合自家品牌评论对照行业评论梳理用户的卖点与槽点,也适合政策文本对照通用新闻提取本期文件的新提法与口径变化。
需要 两组语料:上面是目标语料(你想分析的那一份), 下面是参考语料(拿来作对比的"普通文本")。 工具会自动找出"在目标里反复出现、但在参考里少见"的词 (过度代表,俗称"目标语料的特征词"), 以及反过来"目标里少见、参考里却常见"的词 (不足代表,目标语料"刻意避开"的话题)。
实际能拿来做什么:
- 市场 / 品牌:自家品牌评论 vs 行业评论 → 看用户嘴里反复提到的卖点和槽点,作为投放文案、客服话术、产品迭代的输入。
- 政策 / 舆情:政府公文 / 政策文本 vs 通用新闻 → 看本期文件强调了哪些新提法、淡化了哪些旧表述,沉淀政策口径变化时间线。
- 研究 / 学术:A 作者 vs B 作者、A 期刊 vs B 期刊、医学文献 vs 通用语料 → 提取学科术语、写作风格、专业表达,可直接用作论文「关键词」「术语表」素材。
- 内容运营:自家公众号 / 自媒体 vs 全网通用语料 → 看自己的内容标签是不是过窄或过时,反向指导选题。
- 客服 / 售后:投诉工单 vs 普通对话 → 找出投诉里反复出现的问题词,作为质检 / 培训重点。
只有一组语料时改用「高频词提取」或「关键词抽取」即可。
目标语料(你想分析的那一份)
支持一篇或多篇 txt / csv,自动按句切词后统计词频。
参考语料(拿来对比的"普通文本")
上传 txt 文件,或直接把整段参考文本贴到下方文本框;不需要任何额外的内置词频表。
建议提供 至少 5 万字 的参考语料,才有足够的统计稳健性;越大越好。
点击后会自动切换到「直接输入参考文本」模式,并把示例文本填入文本框,可在此基础上修改。
默认同时计算并展示三种关键性统计量: Log-likelihood(Dunning 1993,主流首选)、 Chi-square、 Log-ratio(Hardie 2014)。 LL 与 χ² 偏向高频词;log-ratio 更突出"差异倍数"。 报告里三种统计量会分别给出 Top N 条形图,详情表也支持按任一统计量排序。
过滤"在目标里只出现 1-2 次"的词,避免低频噪声。短文本可调到 2-3,长文本建议 5-10。
报告分别保留 N 个过度代表词 + N 个不足代表词。
强烈建议开启:否则关键词排行的最前列大概率会被「的、是、和、了、the、of、a」这类高频功能词淹没。 目标语料与参考语料会同步使用这套停用词,保证 keyness 统计前后一致。
只对中文有效(基于 jieba 词性)。常见用法:只看名词 + 形容词 + 动词,过滤代词、连词。
每 20,000 字 2 点