简单文本聚类

用于从一批评论、问卷或访谈文本中自动分出若干主题组,看清材料里到底有哪些主要议题、哪些组之间界限清楚、哪些彼此重叠。

提供 KMeans(适合短文本)与 FastText(适合长文本)两种聚类方式;分类数可手动指定,也可以让系统按聚类质量自动选择最优 K 值,并支持去重和文档合并方式调整。

报告同时给出三类聚类质量指标(轮廓系数、戴维斯-布尔丁指数、卡林斯基-哈拉巴斯指数)及对应解读,并配以规模分布柱状图、二维散点图、相似度热力图、关键词词云、多维雷达图和平行坐标图;每个聚类还会列出关键词、示例句、代表性文档改进建议

适合问卷开放题归类与用户反馈分组,也适合评论、访谈与舆情语料中初步识别主题群组、为后续编码或主题模型挑选种子。

加载文件上传组件中...

字典帮助:可使用 搜狗细胞词库 下载你需要的字典 SCEL 文件,并使用辅助工具中的 「搜狗输入法词库 SCEL 转 TXT 字典工具」 转为 txt 上传到这里

每 20,000 字 2 点