BERTopic 主题聚类

用于从大规模文本中识别潜在主题簇，分析议题的集中度、分离度、层级关系与文档归属，并判断不同主题之间是清晰分开、局部重叠还是存在上下位结构。主题标签、关键词权重、主题散点、文档分布、层次聚类树和相似度矩阵可用于构建主题地图、比较主次议题、识别核心主题与边缘主题，并定位哪些文本支撑某个主题判断；质量评估与代表性文本可用于复核结果，支持摘要撰写、汇报展示和论文写作。适用于论文综述，也适用于舆情、用户反馈和政策文本的主题分析。

使用前请读：必须使用未清洗的原始文本

本功能内置文本清洗、智能分段预处理，请直接使用 未经过清洗 的原始文本。

⚠️ 为确保 BERTopic 聚类准确，请删除目录、致谢、参考文献等非正文内容。

加载文件上传组件中...

文档主要语言

主题时间演化基准（可选）

只有在文档原文中找不到任何绝对时间时，本基准才会作为兜底使用。

使用自定义停用词

请选择所属行业

主题数量设置

自动发现会先评估语料的主结构与细分结构，再按上方预设选择更稳妥或更细致的主题数。

自动发现 · 平衡

文本分割窗口大小（字符数）

300

参数预设

在主结构与细分主题间折中

自定义参数

请先在上方选择「自定义参数」预设以启用此处的参数调整

距离度量设置

嵌入距离

UMAP距离

HDBSCAN距离

产生平衡、自然的主题边界，适合大多数场景

UMAP 降维参数

邻居数量 (n_neighbors)

降维维度 (n_components)

最小距离 (min_dist)

0.1

散布参数 (spread)

HDBSCAN 聚类参数

最小聚类大小 (min_cluster_size)

最小样本数 (min_samples)

自动

选择阈值 (cluster_selection_epsilon)

选择方法

文本向量化参数

向量化类型

N-gram 范围

1-2

最小文档频率 (min_df)

推荐范围: 1-50 (数值越大主题越聚焦)

最频繁词汇数量 (max_features)

10000

推荐范围: 5,000-20,000

其他设置

多样性参数 (diversity)

0.1

计算概率

每 10,000 字 5 点

完成后发送邮件通知