停用词挖掘
领域语料中常见高频低信息词在各段近乎均匀散布,仅靠通用停用词表难以盖全本领域特有噪声。
按段落比较各词分布与按段长加权的均匀散布基准;主指标可在Gries DP 或信息熵法中二选一,并保留另一分数互验。中文按词时对照通用语料词稀有度,以降低专业实词误判。
指标卡区分领域特有候选与命中已知通用停用词;表内列出频次、分布率、主副分数与词性,散点图同列频次与得分。可据表收窄自定停用词口径,减轻词频、共现或主题中的背景词干扰。
适用于判决、合同等文书中反复出现的程序性套语,也适用于医学问诊或客服对话里高频但不承载实质信息的口径词。
⚠️ 必读:上传前请先用 「文本清理」工具 把文档按段落切分
本工具按段落计算词的分布不均匀度,每段被视为一个独立小文档。 如果你直接上传一整段没有空行的长文,最终只会被当成 1 段,所有词的分布都退化为 100%,结果不可用。 推荐先到「文本清理」打开"分割长文本",按 100–300 字/段切好后下载,再把切好的文件上传到本工具。
已经是 CSV 的话不用切——本工具会把每个非空单元格视为一段; .txt 内部用空行分隔段落即可(没有空行则按行分段,通常效果较差)。
当你拿到一份领域语料(一批法律判决、医学问诊、客服对话、访谈记录、评论文本等), 想找出"在这个领域里像通用助词那样均匀散布、信息量很低"的词,把它们当作该领域的停用词候选, 就用这个工具。结果可以直接导出成一份停用词表,喂给后续的词频、共现、主题等分析工具。
算法分两层: ① 本语料分布不均匀度—— 停用词在所有段落里"按段落大小比例均匀散布", 主题词只集中在某些段落(Gerlach et al. *Nature MI* 2019 信息熵法 / Gries 2008 DP 法二选一); ② 对比通用语料—— 接入 jieba 自带的 27 万词中文通用 IDF 表, 只让"通用语境下也常见"的词进入候选,自动排除"模型/训练/法院/当事人"等 领域专业词被错挖成停用词的情形(Lo et al. 2005 KL 散度法的可解释简化版)。
支持 .txt / .csv,单文件 ≤ 5MB。只需上传一份文件即可—— 它会按你文件里的段落来计算(每段相当于一个独立"小文档")。 不适合:整个文件就是一段连贯长文(没有段落切分),样本量过小(< 30 段时统计不稳定)。
本工具的输出常用于下一步的词频统计、关键词提取、 词语共现网络、主题建模等分析—— 先剔除领域停用词,下游结果才不会被"治疗 / 患者 / 当事人"这类高频但无信息量的词淹没。
领域语料文件(一份即可,按段落统计)
上传一份已分段的 .txt 或 .csv 文件即可。段落数越多统计越稳健,建议 ≥ 30 段;< 5 段时报告会显式提示"样本不足"。
本工具相对原论文做了哪些改造?
- 稀疏 DP 加速:Gries 原文按"枚举所有文档"求和,本实现改为 只遍历该词出现过的段落,配合
DP = ½ · [Σ|p_obs−p_exp| + (1−Σp_exp_in)]闭式化简, 百万词级语料也能秒级跑完。 - 段落大小先验:把原文中每个文档"等权 1/N"的零模型替换为按 段落实际词数加权(
p_exp(d) = n_d / N),更贴合中文长短段混合的真实文本。 - 有限样本截断:信息含量法在小语料里会出现
I(w) < 0的数值噪声,本实现统一 clip 到[0, H_null]并归一化为I_norm,让"距离完美停用词还差多少"这件事可读。 - 双指标互验:每行结果同时输出 entropy 与 dispersion 两个分数, 方法切换不影响产物可对比,便于研究者横向验证。
想挖"高频字"(如"的 / 了 / 是"等单字停用候选)才用按字模式;多数场景请保持按词。
DP ∈ [0, 1],越接近 0 越像停用词。推荐 0.3–0.5;调到 0.2 以下通常只剩极少最像 "的 / 是"的词;调到 0.7+ 会把不少主题词也带进来。
过滤"在整份语料里只出现 1–2 次"的偶发词;段落越多可调越高。 注意:只在 1 个段落里出现过的词不参与候选(无分布可言)。
每 20,000 字 2 点
下一步建议
挖出领域停用词后,把它喂回下面这些工具,下游结果会立刻"干净"很多。