高频词提取做的事情是:按频次统计文本中最常出现的词;当你勾选两个词以上的组合时,也会统计相邻词组成的固定词组。
处理过程大致分四步。
- 先做分词。TXT 或 CSV 中的文本会先被切成词。中文默认使用精确模式,也可以切换为全模式或搜索引擎模式;领域词容易被切散时,可以上传自定义字典辅助分词。停用词会在统计前被过滤。
- 然后统计勾选的对象。默认只统计单个词。如果勾选两个词、三个词、四个词组合,系统会继续统计相邻词组成的词组。词组最低频次只对两个词及以上的组合生效,单个词不受这个门槛影响。
- 接着做可选过滤和识别。词性过滤会把选中的词性类型排除在后续分析之外,且只支持中文。智能词汇识别会尝试发现语料中的新词,但这些新词只是作为补充分词词典参与处理,不一定会在最终结果里单独出现。
- 最后生成报告。包含关键发现段落、词云、面积图、Top 20 高频词清单和「核心词 × 长组合」对比表,多文件时还会展示跨文档共有词和单篇独有词的分布。
关键发现是系统根据统计结果自动生成的一段分析文字,用来概括主导词、稳定搭配和表达集中度。它可以帮助你快速阅读结果,但重要结论仍建议回到原文或 KWIC 上下文中复核。
适用文档
- 高频词提取对文档内容有一定要求,下面从文本长度、文本质量、语言和行业、是否需要预处理、输入格式五个方面说明。
- 文本长度方面,建议单篇至少 300 字以上。低于这个长度,词频统计的样本量不够,排名靠前的词往往只是偶然多出现了一两次,参考价值有限。单篇 1,000 到 10,000 字是比较理想的区间——足够长让高频词浮现,又不至于长到处理太慢。政策文件、财报研报、学术论文通常都在这个范围内;问卷开放题单条可能只有几十字,但按行上传 CSV 后每行独立统计,200 条以上的量也能得到有意义的结果。单个文件大小上限 10MB,多文件一次最多上传 10 个。
- 文本质量方面,工具假设输入文本已经过基本整理。如果文本里混着大量 HTML 标签、URL、emoji、乱码或重复段落,这些噪声会被当成「词」参与统计,拉低有效高频词的排名。从网页抓下来的文本通常需要先用「文本清洗」工具去掉 HTML 和噪声,再做高频词提取。访谈转录稿可能需要去掉说话人标记和语气词。如果文本有明显的繁简混用或标点不统一,建议先用「中文文本规范化」统一写法,避免同一个词因为繁简不同被统计成两个。问卷开放题回答一般比较干净,可以直接用。如果不确定文本质量,可以先直接跑一次看结果,如果发现排名靠前的都是「的」「了」「是」或者乱码片段,再回去做预处理。
- 语言和行业方面,中文和英文都支持,中英混排也可以处理。分词模式(精确、全模式、搜索引擎模式)和词性过滤主要面向中文文本;英文走默认分词策略,词性过滤不生效。行业不限——政策文件、问卷回答、财报研报、新闻通稿、学术论文、访谈转录稿、竞品文案都可以,工具本身不做行业判断。如果领域术语较多(比如医学、法律、金融),建议上传自定义字典,帮助分词器把专业词组切对。
- 预处理建议因文本来源而异。政策文件和新闻通稿一般格式规整,可以直接用。网页抓取数据需要先清洗标签和噪声。访谈转录稿建议去掉说话人标记。问卷回答如果包含大量口语化虚词(「觉得」「一个」「比较」),可以上传自定义停用词表过滤,也可以在参数里按词性排除介词、连词、代词等不希望参与统计的词类。多文件对比时,建议每份文件的文本长度和来源类型尽量接近,否则跨文档共有词的参考意义会打折扣。
使用步骤
第一步:上传文件。你可以上传一个或多个 TXT 或 CSV 文件,系统逐个处理。

第二步:配置参数。上传后页面显示参数配置区域。默认只统计单个词;如果要统计固定词组,需要勾选两个词、三个词或四个词组合。你还可以上传自定义字典、自定义停用词,调整分词模式,按词性排除不想参与统计的词类,或在必要时开启智能词汇识别。具体含义在下一节展开。

第三步:查看报告。提交后系统自动处理,完成后跳转到报告页。报告从上到下通常包括:关键发现段落、词云、面积图、Top 20 高频词清单和「核心词 × 长组合」对比表。







第四步:跨文档对比。如果上传了多个文件,报告会额外展示跨文档共有词和单篇独有词的分布,看出哪些提法贯穿所有材料、哪些只在某一篇里出现。

第五步:下载结果。点击下载拿到 CSV 结果文件,用于保留词项、词组、频次、占比等明细,方便后续复核或二次分析。
参数解析与对比示例
| 参数 | 说明 | 默认值 |
|---|---|---|
| 自定义字典 | 上传 TXT 词典,每行一个词,用于辅助分词识别领域词;最多 1 个文件,大小不超过 0.2MB | 关闭,未上传 |
| 自定义停用词 | 上传 TXT 停用词表,每行一个停用词,统计前自动过滤;最多 1 个文件,大小不超过 0.2MB | 关闭,未上传 |
| 智能词汇识别 | 自动发现语料中的新词,并作为补充分词词典参与处理;只处理前 20,000 字,耗时较长且会额外消耗算力,新词不一定在最终结果中单独呈现 | 关闭 |
| 分词模式 | 中文分词方式,可选精确模式、全模式、搜索引擎模式 | 精确模式 |
| 词性过滤 | 选中的词性类型会在分词阶段被过滤掉,不参与后续分析;仅支持中文 | 关闭 |
| 统计对象 | 选择要统计的高频类型,可勾选单个词、两个词组合、三个词组合、四个词组合 | 单个词 |
| 词组最低频次 | 词组至少出现几次才算高频,范围 1-20;只对两个词及以上的组合生效,单个词不受影响 | 2 |
| 完成后发送邮件通知 | 任务完成后通过邮件提醒,适合长文本或多文件任务 | 关闭 |
报告页默认展示 Top 20 清单;如果需要保留更完整的明细,建议下载 CSV 结果文件。
三组典型配置供参考。
- 快速单词统计。保持默认配置,只统计单个词,词组最低频次保持 2。适合初次使用,先看文本里最常出现的词。
- 固定词组盘点。勾选单个词、两个词组合、三个词组合和四个词组合,词组最低频次设为 2。适合政策文本和通稿分析,能看到更多固定词组。结果更多,需要人工筛选。
- 领域术语统计。上传自定义字典,保持精确模式,勾选单个词和两个词以上组合;如果常规分词明显切不开新词,再开启智能词汇识别。适合财报、研报、行业材料等领域词较多的文本。智能词汇识别耗时较长,不建议默认开启。
统计对象勾选得越多,报告里的词项越丰富,噪声也会增加。词组最低频次设得越高,结果越稳定,但可能漏掉只出现一两次的重要搭配。词性过滤是排除所选词性,不是保留所选词性;通常更适合排除介词、连词、代词等不希望参与统计的词类。
案例分析
案例一:政策文本核心提法分析。
背景:某研究团队收集了 10 份地方政府工作报告,想了解哪些提法在多份文件中反复出现。
配置:勾选单个词、两个词组合、三个词组合和四个词组合,词组最低频次设为 2,分词模式保持精确模式,并上传政策领域常用词作为自定义字典。
结果:报告中的 Top 20 清单显示「高质量发展」「营商环境」「乡村振兴」等提法排在前列。跨文档对比表显示,这些词在多份文件中重复出现,属于共同关注点。单篇独有词方面,沿海城市的报告中「自贸区」「跨境电商」更突出,内陆城市的报告中「脱贫」「基础设施」更突出。「核心词 × 长组合」对比表进一步显示,「数字经济」相关组合经常与「转型」「政府」「乡村」等词一起出现。
结论:跨文档共有词反映政策共识,单篇独有词反映地方特色。固定词组和「核心词 × 长组合」对比表能帮助你从单个词频继续追到具体表达。
案例二:用户问卷开放题归纳。
背景:某产品团队收集了 200 条用户问卷的开放题回答(CSV 格式,每行一条),想快速归纳用户反复提到的主题。
配置:CSV 按行上传,勾选单个词、两个词组合和三个词组合,词组最低频次设为 3,上传自定义停用词表过滤「觉得」「一个」「比较」等口语化虚词。
结果:高频词清单显示「价格」「售后」「物流」「质量」「包装」排在前列,合计占可统计词频的比例较高。固定词组中,「发货速度」「客服态度」「性价比」反复出现。关键发现段落指出:用户关注点集中在购买体验的三个环节,也就是价格感知、物流时效和售后保障。
结论:关键发现段落把散乱的词频数据归纳成了可读的分析结论,但最终分类仍建议结合原始回答抽样复核。
类似功能对比
高频词提取和关键词抽取、词性标注都跟"词"有关,但做的事情不一样。
| 对比维度 | 高频词提取 | 关键词抽取 | 词性标注 |
|---|---|---|---|
| 做什么 | 按出现次数统计最常见的词和词组 | 提取更能代表文本主题的词 | 给每个词标语法类别 |
| 关注点 | 词的出现频率和固定搭配 | 词的重要程度和代表性 | 语法结构和词性分布 |
| 考虑上下文 | 否(主要按出现频次统计) | 是(综合词的代表性和共现关系) | 否(只关注词性) |
| 词组支持 | 是(可勾选 2-gram 到 4-gram) | 以关键词为主,具体以工具页面配置为准 | 否 |
| 输出 | 词频表 + 词组表 + 关键发现 + 核心词 × 长组合对比 | 关键词列表 + 权重排序 | 词性分布 + 转移矩阵 |
| 典型场景 | 词频统计、语料概览、提法盘点 | 主题分析、标签生成、SEO | 语法研究、风格分析 |
高频词提取主要看出现次数,「的」「了」「是」这类虚词如果没过滤掉,可能会排在很靠前的位置。关键词抽取会综合代表性和共现关系,结果更接近文本主题。两者可以配合使用:先用高频词提取做初步摸底,再用关键词抽取做深度分析。
