词语搭配强度分析

用于在一批语料里区分"真正的固定搭配"与"碰巧同现"——比如政策关键词周围反复出现的形容词、品牌名常被用户怎样修饰、动词在这批材料里的典型宾语。

系统会在候选词对的左右窗口内统计共现次数，对照"两词独立出现时的理论次数"，用 7 种主流关联强度指标同时打分（PMI、MI3、LL、T-score、Z-score、Dice、LogDice），把"的、和、the、of"这类高频却无意义的功能词从前列剔除。

报告同时支持节点模式（给出中心词的典型搭配伙伴清单与关系网络图）和全局模式（整批材料中所有显著的二词组合），并提供多指标 Top 20 横向对比，被多个指标共同推到前列的搭配最不依赖统计口径偏好。

既适合词典编纂整理地道说法例句，也适合政策研究对比同一关键词周围形容词随时间的变迁。

搭配 ≠ 共现：看的不是「在一起出现多少次」，而是「显著程度」

当你需要看一个词在你这批材料里"真正"和谁搭配—— 名词的典型修饰语、动词的典型宾语、品牌词在用户口中常被怎么形容、某个政策关键词在不同年份周围的形容词如何变化—— 把语料丢给本工具，它会替你算出每个候选搭配伙伴的"统计显著程度"，把"的、是、和"这类高频却没意义的功能词从前列剔除，让你一眼看到真正稳定的搭配。

基于语料库语言学经典的关联强度指标体系（PMI / MI3 / Log-likelihood / T-score / Z-score / Dice / LogDice 等 7 种主流统计量同时计算，可在结果里互相印证）： PMI 看"比偶然显著高多少"， Log-likelihood（Dunning 1993）对小样本最稳， T-score 偏向高频固定搭配， LogDice（SketchEngine 标准）对词典编纂友好。

典型用法： 词典编纂找搭配例句、政策/舆情看节点词周围的形容词随时间变化、品牌评论挖掘看用户在产品名旁反复用的修饰语、外语教学整理高频实义动词的典型宾语清单。

支持格式：.txt / .csv，单文件 ≤ 5 MB、最多 20 个文件；中英文均可，自动识别。 不太适合：单条短于 5 个字的弹幕 / 短评（统计量过低，结果不稳）。

两种使用模式： 填了 节点词 → 节点模式，每个节点出一份"它的显著搭配伙伴"清单；留空 → 全局模式，跑出整个语料里所有显著的二词组合。

本工具的输出常用于下一步的词共现网络、关键词抽取、 KWIC 索引，可以在对应的工具中继续处理（结果页底部会给出跳转入口）。

加载文件上传组件中...

节点词（可选；留空 → 全局模式跑出所有显著二词组合）

节点词数量越多，需要的语料就越大；建议一次 1-10 个，配合至少 1 万字的语料。

左窗口宽度5 词

节点词左边几个词内算"共现"。

右窗口宽度5 词

节点词右边几个词内算"共现"。

允许窗口跨句默认关闭：窗口在句号/换行处截断，更接近真实搭配关系。

最低共现次数3 次

过滤"只共现 1-2 次"的偶然搭配。短文本设 2-3，长文本可设 5-10。

文本语言

停用词过滤

强烈建议开启：否则结果排行的最前列大概率会被「的、是、和、了、the、of、a」这类高频功能词淹没。

应用系统自带的中英文常用停用词（默认开启）

使用自定义停用词

每 20,000 字 2 点

完成后发送邮件通知