高频词提取
用于看清一批文本反复在说什么——既包括最常出现的关键词,也包括「乡村振兴战略」「数字化转型」这类由几个词组成、靠单词识别不出来的固定提法。
在词频之外,可同时统计两到四个词的词组(n-gram),并设定出现次数门槛;还能按词性结构(名词+名词、形容词+名词等)过滤,去掉「在 路上」这类凑出来的组合,只留读起来像主题词的搭配。
报告自动给出一段关键发现——主导词是谁、是否形成稳定搭配、表达是否套路化,并配以词云、面积图、Top 20 清单和「核心词 × 长组合」对比表。多篇文档时另外呈现跨文档共有词与单篇独有词的分布。
适合通稿、政策与财报里检视提法集中度与口径变化,也适合问卷开放题与访谈归纳受访者反复提到的主题。
加载文件上传组件中...
2 次
只对"两个词及以上的词组"生效。单个词会全部统计,不受此限制。
上传多份文件时有用:可以看出"哪些词只在 1 篇里反复出现","哪些词在所有文件里都出现"。
每 40,000 字 2 点