LDA困惑度计算
做LDA前常要敲定主题数;不当会令主题过粗或过碎。本分析回答「这批文本更适配多少个主题」这一判断问题。
在设定的主题数区间内逐档拟合,同时对照预测难度、主题内一致性与主题间可分性,并结合信息准则衡量拟合与复杂度的折中,形成多条评价曲线。
综合多种信号给出推荐主题数与解读说明,并汇总语料与词表规模;在样本偏弱时也会提示结论可靠度,便于你在完善语料后重新建模时更有依据。
适用于新闻与政策类批量短文,也适用于分章长教材或专著的局面归纳。
加载文件上传组件中...
支持同时上传多个文本文件。系统会将多个文件作为同一语料集合联合评估主题数。
2-5
每 10,000 字 2 点