LDA困惑度计算

LDA前常要敲定主题数;不当会令主题过粗或过碎。本分析回答「这批文本更适配多少个主题」这一判断问题。

在设定的主题数区间内逐档拟合,同时对照预测难度、主题内一致性与主题间可分性,并结合信息准则衡量拟合与复杂度的折中,形成多条评价曲线

综合多种信号给出推荐主题数与解读说明,并汇总语料与词表规模;在样本偏弱时也会提示结论可靠度,便于你在完善语料后重新建模时更有依据。

适用于新闻与政策类批量短文,也适用于分章长教材或专著的局面归纳。

加载文件上传组件中...

支持同时上传多个文本文件。系统会将多个文件作为同一语料集合联合评估主题数。

2-5

每 10,000 字 2 点