简单文本聚类
用于从一批评论、问卷或访谈文本中自动分出若干主题组,看清材料里到底有哪些主要议题、哪些组之间界限清楚、哪些彼此重叠。
提供 KMeans(适合短文本)与 FastText(适合长文本)两种聚类方式;分类数可手动指定,也可以让系统按聚类质量自动选择最优 K 值,并支持去重和文档合并方式调整。
报告同时给出三类聚类质量指标(轮廓系数、戴维斯-布尔丁指数、卡林斯基-哈拉巴斯指数)及对应解读,并配以规模分布柱状图、二维散点图、相似度热力图、关键词词云、多维雷达图和平行坐标图;每个聚类还会列出关键词、示例句、代表性文档和改进建议。
适合问卷开放题归类与用户反馈分组,也适合评论、访谈与舆情语料中初步识别主题群组、为后续编码或主题模型挑选种子。
加载文件上传组件中...
每 20,000 字 2 点