关键词抽取
上传一份或多份文本文件,系统同时运行 TF-IDF 和 TextRank 两种算法提取关键词,按权重从高到低排序。TF-IDF 偏好在当前文本中频繁、在其他文本里少见的词;TextRank 基于图排序算法,与更多词语产生共现关系的词权重更高。两种算法自动计算 Spearman 排名相关系数,标注共有词、独有词和差值,让用户在交叉验证中找到最可靠的关键词。
可以指定提取 5 到 100 个关键词,支持自定义词典、停用词表和词性筛选。开启智能新词发现后系统会自动识别语料中的未登录词并补充分词词典。多文件时自动生成跨文档关键词对比表,标注共享词、部分共享词和独有词,支持按状态和权重排序筛选。
报告包含词云勾画主题轮廓、权重柱状图精确展示 Top 关键词(点击可查看原文上下文片段)、噪声词过滤面板(勾选排除、实时更新图表)、密度诊断(标注堆砌风险词和低频词)和主题聚类(基于关键词相似度自动分组,展示每个聚类的核心词和权重分布)。
适合从竞品文章中提取差异化关键词做内容策略,从论文摘要中提炼学科术语,从用户评论中挖掘功能点和痛点,或从政策文本中提炼核心概念。
加载文件上传组件中...
40
每 40,000 字 3 点
