关键词抽取做的事情是:从文本中自动找出最重要的词或短语,按权重排序。

系统同时跑两种算法,各有侧重。

  1. TF-IDF 看的是"稀有但重要"。一个词在当前文本里出现得多,在其他文本里出现得少,它的 TF-IDF 权重就高。简单说,这个词对你这篇文档特别有代表性。
  2. TextRank 看的是"上下文互相支撑"。它把文本里的词当作图里的节点,两个词经常一起出现就连一条边,最终通过图排序算出哪些词和更多词产生共现关系。和更多词关联紧密的词权重更高。

两种算法跑完后,系统自动做三件事:一是统计共有关键词和各自独有词,二是计算 Spearman 排名相关系数衡量两种方法的一致性,三是把差值最大的词标出来。相关系数高说明两种方法认同度高,结果可信;差值大的词值得重点关注,可能是某种算法捕捉到的独特信号。

报告页还包含词云、权重柱状图、跨文件对比表、噪声词过滤面板、密度诊断和主题聚类等多个分析模块,帮你从不同角度看关键词。


适用文档

目前支持两种输入格式。

  1. TXT 文件。按全文处理,一个文件算一个整体。编码建议用 UTF-8,其他编码出现乱码可以先转一下。
  2. CSV 文件。按行处理,每一行独立提取关键词。自动识别文本列,非文本列原样保留。需要带表头。

中文和英文都支持,系统会自动识别语言。中英混排也可以处理,中文部分和英文部分分别用对应的分词策略。


适用情景

  1. 竞品内容分析。把竞品文章批量上传,提取关键词后对比共享词和独有词,找到差异化关键词做内容策略。
  2. 学术文献综述。从论文摘要或全文中提取学科术语,用跨文件对比功能识别高频共现术语和各篇独有术语。
  3. 用户评论挖掘。从电商评论、问卷开放题中提取功能点和痛点关键词,密度诊断帮你判断哪些词被反复提及。
  4. 政策文本分析。从政策文件中提炼核心概念和关键表述,主题聚类会把语义相近的关键词自动分组。
  5. SEO 内容优化。提取目标页面的关键词权重分布,检查关键词密度是否在合理范围,避免堆砌或不足。


使用步骤

第一步:上传文件。你可以上传一个或多个 TXT 或 CSV 文件,系统逐个处理。


第二步:配置参数。上传后页面显示参数配置区域,默认提取 20 个关键词。你可以调整提取数量、上传自定义词典和停用词表、开启词性筛选等,具体含义在下一节展开。


第三步:查看报告。提交后系统自动处理,完成后跳转到报告页。报告从上到下依次是:数据解读卡片、TF-IDF 结果区、TextRank 结果区、两种方法的对比区。


第四步:筛选与导出。在噪声词过滤面板勾选要排除的词,词云和柱状图会实时更新。点击柱状图可以查看关键词在原文中的上下文片段。筛选完成后可以导出精简词表。



第五步:下载结果。点击下载拿到每种方法的 CSV 结果文件,包含关键词、权重和总分。


参数解析与对比示例

可配置参数如下。

参数说明默认值
提取数量每种方法提取的关键词数量,范围 5-10020
自定义词典上传词典文件,每行一个词,帮助分词工具识别专有名词和领域术语未上传
自定义停用词表上传停用词文件,每行一个词,提取前自动过滤这些词未上传
词性筛选开启后排除指定词性类别,默认保留名词、动词、形容词等实义词关闭
排除词性勾选要排除的词性类别(需先开启词性筛选)
语言文本主要语言,影响分词策略中文
智能新词发现自动发现语料中的新词,补充分词词典关闭


三组典型配置供参考。

  1. 快速提取。保持默认配置,提取数量 20,其他参数不动。适合初次使用,快速看结果。处理速度快。
  2. 术语强化提取。上传自定义词典,包含领域专业术语。适合医学、法律、IT 等专业文档,能减少术语被错误切分的情况。提取数量建议设为 30-50。
  3. 精细筛选提取。开启词性筛选,排除介词、连词、助词等功能词,同时上传自定义停用词表。适合需要纯净实义关键词的场景。结果更聚焦,但可能漏掉一些有分析价值的虚词搭配。

提取数量设得越多,覆盖越全但噪声也越多。一般来说 20-30 适合快速浏览,50 以上适合深度分析。


案例分析

案例一:竞品文章关键词对比。

背景:某内容团队收集了 5 篇竞品公众号文章,想找出差异化关键词做选题参考。
配置:提取数量 30,其他参数默认。
结果:5 篇文件共检出 87 个不重复关键词。TF-IDF 和 TextRank 共有关键词 23 个,排名相关系数处于中等一致性水平。跨文件对比表显示共享词 12 个(如"用户""内容""平台"),各篇独有词 5-8 个不等。团队重点关注 TextRank 独有的关键词,发现"留存""转化""裂变"这类运营词在 TextRank 中权重更高,说明它们在原文中和其他词的共现关系更紧密。

结论:两种方法的分歧关键词往往是价值所在。TF-IDF 捕捉稀有但有代表性的词,TextRank 捕捉上下文关联紧密的词,交叉参考后选题方向更全面。


案例二:用户评论痛点挖掘。

背景:某产品团队收集了 200 条用户评论(CSV 格式,每行一条评论),想了解用户最关心的功能点和痛点。

配置:提取数量 50,开启智能新词发现,自定义停用词表包含"一个""这个""那个"等口语化填充词。

结果:每行评论独立提取关键词后汇总。密度诊断显示"卡顿""闪退""加载"三个词的密度超过 5%,属于高频堆砌词,反映了用户最集中的痛点。主题聚类把关键词分成 5 组:性能相关(卡顿、加载、闪退)、功能相关(搜索、筛选、收藏)、界面相关(布局、字体、颜色)、价格相关(优惠、折扣、会员)、服务相关(客服、退款、投诉)。

结论:密度诊断帮你快速定位高频问题词,主题聚类帮你把散乱的关键词归类成可操作的问题域。



类似功能对比

关键词抽取和高频词提取、词性标注都跟"词"有关,但做的事情不一样。

对比维度关键词抽取高频词提取词性标注
做什么用算法提取最重要的词按出现次数统计最常见的词给每个词标语法类别
关注点词的重要程度和代表性词的出现频率语法结构和词性分布
考虑上下文是(TextRank 基于共现关系)否(纯频次统计)否(只关注词性)
输出关键词列表 + 权重排序词频表 + 频次排序词性分布 + 转移矩阵
典型场景主题分析、标签生成、SEO词频统计、语料概览语法研究、风格分析

高频词提取只看出现次数,"的""了""是"这类虚词如果没过滤掉会排在最前面。关键词抽取通过 TF-IDF 和 TextRank 算法过滤掉了这类常见词,结果更接近文本的核心主题。词性标注可以和关键词抽取组合使用:先标注词性,再按名词、动词等类别筛选后做关键词抽取,结果更聚焦。