BERTopic 主题聚类

用于从大规模文本中识别潜在主题簇,分析议题的集中度、分离度、层级关系与文档归属,并判断不同主题之间是清晰分开、局部重叠还是存在上下位结构。主题标签、关键词权重、主题散点、文档分布、层次聚类树和相似度矩阵可用于构建主题地图、比较主次议题、识别核心主题与边缘主题,并定位哪些文本支撑某个主题判断;质量评估与代表性文本可用于复核结果,支持摘要撰写、汇报展示和论文写作。适用于论文综述,也适用于舆情、用户反馈和政策文本的主题分析。

使用前请读:必须使用未清洗的原始文本

本功能内置文本清洗、智能分段预处理,请直接使用 未经过清洗 的原始文本。

⚠️ 为确保 BERTopic 聚类准确,请删除目录、致谢、参考文献等非正文内容

加载文件上传组件中...

只有在文档原文中找不到任何绝对时间时,本基准才会作为兜底使用。

自动发现会先评估语料的主结构与细分结构,再按上方预设选择更稳妥或更细致的主题数。

自动发现 · 平衡
300

自定义参数

请先在上方选择「自定义参数」预设以启用此处的参数调整

产生平衡、自然的主题边界,适合大多数场景

创建更多细粒度主题,适合需要精细分类的场景

基于最突出特征分组,可能产生不均匀的主题大小

15
5
0.1
1
10
自动
0
1-2
1
推荐范围: 1-50 (数值越大主题越聚焦)
10000
推荐范围: 5,000-20,000
0.1

每 10,000 字 5 点