高频词提取工具使用教程：统计词频和固定词组，找出文本中反复强调的核心提法

高频词提取做的事情是：按频次统计文本中最常出现的词；当你勾选两个词以上的组合时，也会统计相邻词组成的固定词组。

处理过程大致分四步。

先做分词。TXT 或 CSV 中的文本会先被切成词。中文默认使用精确模式，也可以切换为全模式或搜索引擎模式；领域词容易被切散时，可以上传自定义字典辅助分词。停用词会在统计前被过滤。
然后统计勾选的对象。默认只统计单个词。如果勾选两个词、三个词、四个词组合，系统会继续统计相邻词组成的词组。词组最低频次只对两个词及以上的组合生效，单个词不受这个门槛影响。
接着做可选过滤和识别。词性过滤会把选中的词性类型排除在后续分析之外，且只支持中文。智能词汇识别会尝试发现语料中的新词，但这些新词只是作为补充分词词典参与处理，不一定会在最终结果里单独出现。
最后生成报告。包含关键发现段落、词云、面积图、Top 20 高频词清单和「核心词 × 长组合」对比表，多文件时还会展示跨文档共有词和单篇独有词的分布。

关键发现是系统根据统计结果自动生成的一段分析文字，用来概括主导词、稳定搭配和表达集中度。它可以帮助你快速阅读结果，但重要结论仍建议回到原文或 KWIC 上下文中复核。

适用文档

高频词提取对文档内容有一定要求，下面从文本长度、文本质量、语言和行业、是否需要预处理、输入格式五个方面说明。
文本长度方面，建议单篇至少 300 字以上。低于这个长度，词频统计的样本量不够，排名靠前的词往往只是偶然多出现了一两次，参考价值有限。单篇 1,000 到 10,000 字是比较理想的区间——足够长让高频词浮现，又不至于长到处理太慢。政策文件、财报研报、学术论文通常都在这个范围内；问卷开放题单条可能只有几十字，但按行上传 CSV 后每行独立统计，200 条以上的量也能得到有意义的结果。单个文件大小上限 10MB，多文件一次最多上传 10 个。
文本质量方面，工具假设输入文本已经过基本整理。如果文本里混着大量 HTML 标签、URL、emoji、乱码或重复段落，这些噪声会被当成「词」参与统计，拉低有效高频词的排名。从网页抓下来的文本通常需要先用「文本清洗」工具去掉 HTML 和噪声，再做高频词提取。访谈转录稿可能需要去掉说话人标记和语气词。如果文本有明显的繁简混用或标点不统一，建议先用「中文文本规范化」统一写法，避免同一个词因为繁简不同被统计成两个。问卷开放题回答一般比较干净，可以直接用。如果不确定文本质量，可以先直接跑一次看结果，如果发现排名靠前的都是「的」「了」「是」或者乱码片段，再回去做预处理。
语言和行业方面，中文和英文都支持，中英混排也可以处理。分词模式（精确、全模式、搜索引擎模式）和词性过滤主要面向中文文本；英文走默认分词策略，词性过滤不生效。行业不限——政策文件、问卷回答、财报研报、新闻通稿、学术论文、访谈转录稿、竞品文案都可以，工具本身不做行业判断。如果领域术语较多（比如医学、法律、金融），建议上传自定义字典，帮助分词器把专业词组切对。
预处理建议因文本来源而异。政策文件和新闻通稿一般格式规整，可以直接用。网页抓取数据需要先清洗标签和噪声。访谈转录稿建议去掉说话人标记。问卷回答如果包含大量口语化虚词（「觉得」「一个」「比较」），可以上传自定义停用词表过滤，也可以在参数里按词性排除介词、连词、代词等不希望参与统计的词类。多文件对比时，建议每份文件的文本长度和来源类型尽量接近，否则跨文档共有词的参考意义会打折扣。

使用步骤

第一步：上传文件。你可以上传一个或多个 TXT 或 CSV 文件，系统逐个处理。

第二步：配置参数。上传后页面显示参数配置区域。默认只统计单个词；如果要统计固定词组，需要勾选两个词、三个词或四个词组合。你还可以上传自定义字典、自定义停用词，调整分词模式，按词性排除不想参与统计的词类，或在必要时开启智能词汇识别。具体含义在下一节展开。

第三步：查看报告。提交后系统自动处理，完成后跳转到报告页。报告从上到下通常包括：关键发现段落、词云、面积图、Top 20 高频词清单和「核心词 × 长组合」对比表。

第四步：跨文档对比。如果上传了多个文件，报告会额外展示跨文档共有词和单篇独有词的分布，看出哪些提法贯穿所有材料、哪些只在某一篇里出现。

第五步：下载结果。点击下载拿到 CSV 结果文件，用于保留词项、词组、频次、占比等明细，方便后续复核或二次分析。

参数解析与对比示例

参数	说明	默认值
自定义字典	上传 TXT 词典，每行一个词，用于辅助分词识别领域词；最多 1 个文件，大小不超过 0.2MB	关闭，未上传
自定义停用词	上传 TXT 停用词表，每行一个停用词，统计前自动过滤；最多 1 个文件，大小不超过 0.2MB	关闭，未上传
智能词汇识别	自动发现语料中的新词，并作为补充分词词典参与处理；只处理前 20,000 字，耗时较长且会额外消耗算力，新词不一定在最终结果中单独呈现	关闭
分词模式	中文分词方式，可选精确模式、全模式、搜索引擎模式	精确模式
词性过滤	选中的词性类型会在分词阶段被过滤掉，不参与后续分析；仅支持中文	关闭
统计对象	选择要统计的高频类型，可勾选单个词、两个词组合、三个词组合、四个词组合	单个词
词组最低频次	词组至少出现几次才算高频，范围 1-20；只对两个词及以上的组合生效，单个词不受影响	2
完成后发送邮件通知	任务完成后通过邮件提醒，适合长文本或多文件任务	关闭

报告页默认展示 Top 20 清单；如果需要保留更完整的明细，建议下载 CSV 结果文件。

三组典型配置供参考。

快速单词统计。保持默认配置，只统计单个词，词组最低频次保持 2。适合初次使用，先看文本里最常出现的词。
固定词组盘点。勾选单个词、两个词组合、三个词组合和四个词组合，词组最低频次设为 2。适合政策文本和通稿分析，能看到更多固定词组。结果更多，需要人工筛选。
领域术语统计。上传自定义字典，保持精确模式，勾选单个词和两个词以上组合；如果常规分词明显切不开新词，再开启智能词汇识别。适合财报、研报、行业材料等领域词较多的文本。智能词汇识别耗时较长，不建议默认开启。

统计对象勾选得越多，报告里的词项越丰富，噪声也会增加。词组最低频次设得越高，结果越稳定，但可能漏掉只出现一两次的重要搭配。词性过滤是排除所选词性，不是保留所选词性；通常更适合排除介词、连词、代词等不希望参与统计的词类。

案例分析

案例一：政策文本核心提法分析。

背景：某研究团队收集了 10 份地方政府工作报告，想了解哪些提法在多份文件中反复出现。

配置：勾选单个词、两个词组合、三个词组合和四个词组合，词组最低频次设为 2，分词模式保持精确模式，并上传政策领域常用词作为自定义字典。

结果：报告中的 Top 20 清单显示「高质量发展」「营商环境」「乡村振兴」等提法排在前列。跨文档对比表显示，这些词在多份文件中重复出现，属于共同关注点。单篇独有词方面，沿海城市的报告中「自贸区」「跨境电商」更突出，内陆城市的报告中「脱贫」「基础设施」更突出。「核心词 × 长组合」对比表进一步显示，「数字经济」相关组合经常与「转型」「政府」「乡村」等词一起出现。

结论：跨文档共有词反映政策共识，单篇独有词反映地方特色。固定词组和「核心词 × 长组合」对比表能帮助你从单个词频继续追到具体表达。

案例二：用户问卷开放题归纳。

背景：某产品团队收集了 200 条用户问卷的开放题回答（CSV 格式，每行一条），想快速归纳用户反复提到的主题。

配置：CSV 按行上传，勾选单个词、两个词组合和三个词组合，词组最低频次设为 3，上传自定义停用词表过滤「觉得」「一个」「比较」等口语化虚词。

结果：高频词清单显示「价格」「售后」「物流」「质量」「包装」排在前列，合计占可统计词频的比例较高。固定词组中，「发货速度」「客服态度」「性价比」反复出现。关键发现段落指出：用户关注点集中在购买体验的三个环节，也就是价格感知、物流时效和售后保障。

结论：关键发现段落把散乱的词频数据归纳成了可读的分析结论，但最终分类仍建议结合原始回答抽样复核。

类似功能对比

高频词提取和关键词抽取、词性标注都跟"词"有关，但做的事情不一样。

对比维度	高频词提取	关键词抽取	词性标注
做什么	按出现次数统计最常见的词和词组	提取更能代表文本主题的词	给每个词标语法类别
关注点	词的出现频率和固定搭配	词的重要程度和代表性	语法结构和词性分布
考虑上下文	否（主要按出现频次统计）	是（综合词的代表性和共现关系）	否（只关注词性）
词组支持	是（可勾选 2-gram 到 4-gram）	以关键词为主，具体以工具页面配置为准	否
输出	词频表 + 词组表 + 关键发现 + 核心词 × 长组合对比	关键词列表 + 权重排序	词性分布 + 转移矩阵
典型场景	词频统计、语料概览、提法盘点	主题分析、标签生成、SEO	语法研究、风格分析

高频词提取主要看出现次数，「的」「了」「是」这类虚词如果没过滤掉，可能会排在很靠前的位置。关键词抽取会综合代表性和共现关系，结果更接近文本主题。两者可以配合使用：先用高频词提取做初步摸底，再用关键词抽取做深度分析。