词语搭配强度分析

用于在一批语料里区分"真正的固定搭配"与"碰巧同现"——比如政策关键词周围反复出现的形容词、品牌名常被用户怎样修饰、动词在这批材料里的典型宾语

系统会在候选词对的左右窗口内统计共现次数,对照"两词独立出现时的理论次数",用 7 种主流关联强度指标同时打分(PMI、MI3、LL、T-score、Z-score、Dice、LogDice),把"的、和、the、of"这类高频却无意义的功能词从前列剔除。

报告同时支持节点模式(给出中心词的典型搭配伙伴清单关系网络图)和全局模式(整批材料中所有显著的二词组合),并提供多指标 Top 20 横向对比,被多个指标共同推到前列的搭配最不依赖统计口径偏好

既适合词典编纂整理地道说法例句,也适合政策研究对比同一关键词周围形容词随时间的变迁。

搭配 ≠ 共现:看的不是「在一起出现多少次」,而是「显著程度」

当你需要看一个词在你这批材料里"真正"和谁搭配—— 名词的典型修饰语、动词的典型宾语、品牌词在用户口中常被怎么形容、 某个政策关键词在不同年份周围的形容词如何变化—— 把语料丢给本工具,它会替你算出每个候选搭配伙伴的"统计显著程度", 把"的、是、和"这类高频却没意义的功能词从前列剔除,让你一眼看到真正稳定的搭配。

基于语料库语言学经典的关联强度指标体系(PMI / MI3 / Log-likelihood / T-score / Z-score / Dice / LogDice 等 7 种主流统计量同时计算,可在结果里互相印证): PMI 看"比偶然显著高多少", Log-likelihood(Dunning 1993)对小样本最稳, T-score 偏向高频固定搭配, LogDice(SketchEngine 标准)对词典编纂友好。

典型用法: 词典编纂找搭配例句、政策/舆情看节点词周围的形容词随时间变化、 品牌评论挖掘看用户在产品名旁反复用的修饰语、 外语教学整理高频实义动词的典型宾语清单。

支持格式:.txt / .csv,单文件 ≤ 5 MB、最多 20 个文件;中英文均可,自动识别。 不太适合:单条短于 5 个字的弹幕 / 短评(统计量过低,结果不稳)。

两种使用模式: 填了 节点词 → 节点模式,每个节点出一份"它的显著搭配伙伴"清单; 留空 → 全局模式,跑出整个语料里所有显著的二词组合。

本工具的输出常用于下一步的词共现网络关键词抽取KWIC 索引,可以在对应的工具中继续处理(结果页底部会给出跳转入口)。

加载文件上传组件中...

节点词数量越多,需要的语料就越大;建议一次 1-10 个,配合至少 1 万字的语料。

5 词

节点词左边几个词内算"共现"。

5 词

节点词右边几个词内算"共现"。

默认关闭:窗口在句号/换行处截断,更接近真实搭配关系。
3 次

过滤"只共现 1-2 次"的偶然搭配。短文本设 2-3,长文本可设 5-10。

关联强度指标

默认同时计算 7 种主流关联强度指标PMI · MI3 · LL(Log-likelihood)· T-score · Z-score · Dice · LogDice。 不同指标在挑选稀有词 / 高频固定搭配上的偏好不同,结果页里会一并展示,方便你互相印证。

强烈建议开启:否则结果排行的最前列大概率会被「的、是、和、了、the、of、a」这类高频功能词淹没。

每 20,000 字 2 点

TAT logoText analysis tools
© 2026 tatools.cn 京ICP备2020042889号-2 渝公网安备50010302505500号