简单文本聚类

用于从一批评论、问卷或访谈文本中自动分出若干主题组，看清材料里到底有哪些主要议题、哪些组之间界限清楚、哪些彼此重叠。

提供 KMeans（适合短文本）与 FastText（适合长文本）两种聚类方式；分类数可手动指定，也可以让系统按聚类质量自动选择最优 K 值，并支持去重和文档合并方式调整。

报告同时给出三类聚类质量指标（轮廓系数、戴维斯-布尔丁指数、卡林斯基-哈拉巴斯指数）及对应解读，并配以规模分布柱状图、二维散点图、相似度热力图、关键词词云、多维雷达图和平行坐标图；每个聚类还会列出关键词、示例句、代表性文档和改进建议。

适合问卷开放题归类与用户反馈分组，也适合评论、访谈与舆情语料中初步识别主题群组、为后续编码或主题模型挑选种子。

加载文件上传组件中...

自动选择分类数

选择分类数：5

文本聚类方式

合并 CSV 文档

移除完全相同的文本条目，确保每个文本只出现一次(减少数据偏斜，避免某些完全相同的文本条目对聚类结果产生过大影响)

使用自定义字典

字典帮助：可使用搜狗细胞词库下载你需要的字典 SCEL 文件，并使用辅助工具中的「搜狗输入法词库 SCEL 转 TXT 字典工具」转为 txt 上传到这里

使用自定义停用词

开启智能词汇识别

分词模式

使用词性过滤

每 20,000 字 2 点

完成后发送邮件通知