使用教程登录 / 注册

停用词挖掘

领域语料中常见高频低信息词在各段近乎均匀散布，仅靠通用停用词表难以盖全本领域特有噪声。

按段落比较各词分布与按段长加权的均匀散布基准；主指标可在Gries DP 或信息熵法中二选一，并保留另一分数互验。中文按词时对照通用语料词稀有度，以降低专业实词误判。

指标卡区分领域特有候选与命中已知通用停用词；表内列出频次、分布率、主副分数与词性，散点图同列频次与得分。可据表收窄自定停用词口径，减轻词频、共现或主题中的背景词干扰。

适用于判决、合同等文书中反复出现的程序性套语，也适用于医学问诊或客服对话里高频但不承载实质信息的口径词。

使用前请读：先把长文档"按段落"切好，再来挖停用词

⚠️ 必读：上传前请先用「文本清理」工具把文档按段落切分

本工具按段落计算词的分布不均匀度，每段被视为一个独立小文档。如果你直接上传一整段没有空行的长文，最终只会被当成 1 段，所有词的分布都退化为 100%，结果不可用。推荐先到「文本清理」打开"分割长文本"，按 100–300 字/段切好后下载，再把切好的文件上传到本工具。

已经是 CSV 的话不用切——本工具会把每个非空单元格视为一段； .txt 内部用空行分隔段落即可（没有空行则按行分段，通常效果较差）。

当你拿到一份领域语料（一批法律判决、医学问诊、客服对话、访谈记录、评论文本等），想找出"在这个领域里像通用助词那样均匀散布、信息量很低"的词，把它们当作该领域的停用词候选，就用这个工具。结果可以直接导出成一份停用词表，喂给后续的词频、共现、主题等分析工具。

算法分两层： ① 本语料分布不均匀度—— 停用词在所有段落里"按段落大小比例均匀散布"，主题词只集中在某些段落（Gerlach et al. *Nature MI* 2019 信息熵法 / Gries 2008 DP 法二选一）； ② 对比通用语料—— 接入 jieba 自带的 27 万词中文通用 IDF 表，只让"通用语境下也常见"的词进入候选，自动排除"模型/训练/法院/当事人"等领域专业词被错挖成停用词的情形（Lo et al. 2005 KL 散度法的可解释简化版）。

支持 .txt / .csv，单文件 ≤ 5MB。只需上传一份文件即可—— 它会按你文件里的段落来计算（每段相当于一个独立"小文档"）。不适合：整个文件就是一段连贯长文（没有段落切分），样本量过小（< 30 段时统计不稳定）。

本工具的输出常用于下一步的词频统计、关键词提取、 词语共现网络、主题建模等分析—— 先剔除领域停用词，下游结果才不会被"治疗 / 患者 / 当事人"这类高频但无信息量的词淹没。

领域语料文件（一份即可，按段落统计）

上传一份已分段的 .txt 或 .csv 文件即可。段落数越多统计越稳健，建议 ≥ 30 段；< 5 段时报告会显式提示"样本不足"。

加载文件上传组件中...

挖掘方法

Gries DP 法分布离散度推荐

Deviation of Proportions ∈ [0, 1]，DP ≈ 0 时词的分布几乎和段落大小分布一致，越像停用词；DP ≈ 1 时高度集中在少数段，是典型的内容词。灵感源自 Gries (2008) Dispersions and adjusted frequencies in corpora, IJCL 13(4)，本工具在原始 DP 公式基础上做了多处工程化改造（见下方说明），并非论文实现的复刻。

信息熵法H_null − H(w)

比较词的实际分布熵 H(w) 与"按段落大小随机散布"零模型的期望熵 H_null，信息含量 I(w) = H_null − H(w) 越接近 0 越像停用词。灵感源自 Gerlach, Shi & Amaral (2019) A universal information theoretic approach to the identification of stopwords, Nature MI 1: 606–612，本工具在原始信息含量公式基础上做了多处工程化改造（见下方说明），并非论文实现的复刻。

本工具相对原论文做了哪些改造？

稀疏 DP 加速：Gries 原文按"枚举所有文档"求和，本实现改为只遍历该词出现过的段落，配合 DP = ½ · [Σ|p_obs−p_exp| + (1−Σp_exp_in)] 闭式化简，百万词级语料也能秒级跑完。
段落大小先验：把原文中每个文档"等权 1/N"的零模型替换为按段落实际词数加权（p_exp(d) = n_d / N），更贴合中文长短段混合的真实文本。
有限样本截断：信息含量法在小语料里会出现 I(w) < 0 的数值噪声，本实现统一 clip 到 [0, H_null] 并归一化为 I_norm，让"距离完美停用词还差多少"这件事可读。
双指标互验：每行结果同时输出 entropy 与 dispersion 两个分数，方法切换不影响产物可对比，便于研究者横向验证。

切分单位

按词（中文按语言学词，英文按空格切） · 推荐

按字（中文按汉字 / 英文按字母）

想挖"高频字"（如"的 / 了 / 是"等单字停用候选）才用按字模式；多数场景请保持按词。

最大 DP（Deviation of Proportions） 0.40

DP ∈ [0, 1]，越接近 0 越像停用词。推荐 0.3–0.5；调到 0.2 以下通常只剩极少最像 "的 / 是"的词；调到 0.7+ 会把不少主题词也带进来。

最低总频次10 次

过滤"在整份语料里只出现 1–2 次"的偶发词；段落越多可调越高。注意：只在 1 个段落里出现过的词不参与候选（无分布可言）。

自动分段

开启后，对超长段落自动按窗口 + 标点优先策略重新切分，确保有足够的段落数供统计使用。 段落数 ≥ 30 时统计最稳健；< 5 段时结果基本不可用。如果你的文件段落数不足，建议开启此选项。 CSV 文件不受影响（每个非空单元格已视为一段）。

每 20,000 字 2 点

下一步建议

挖出领域停用词后，把它喂回下面这些工具，下游结果会立刻"干净"很多。

文本清理（带自定义停用词）

把本工具导出的 stopwords.txt 上传过去，连同通用停用词一起从原文剔除，得到一份"已脱噪"的干净文本。

词频统计

剔除领域停用词后再统计高频词，榜单上才会出现真正"代表本领域"的词，而不是被"治疗 / 患者"这类词刷屏。

关键词提取

用作自定义停用词后再做关键词提取，提出来的词更接近研究者真正关心的概念。

词语共现网络

共现网络里如果不剔除领域停用词，会出现一个由"是 / 的 / 当事人"等词构成的"中心黑洞"，看不到真正关系。

主题建模（BERTopic）

把领域停用词加进自定义停用词列表，每个主题摘出来的关键词更具区分度，主题命名也更容易。

完成后发送邮件通知