文档词项矩阵

用于在多篇文本之间逐文档统计词频,看清每篇文档各自在用哪些词、用得多不多,从而横向对比不同文档的词汇特征与差异。

系统会自动对每篇文档分词并构建「文档 × 词汇」矩阵,支持自定义分词粒度、停用词过滤和词性筛选;可选择按绝对频次或 TF-IDF 权重两种方式填入矩阵。

报告给出文档数量词汇表规模平均文档字数三项概览指标,再用热力图直观展示词在各文档中的分布差异,并附基于词频向量的余弦相似度矩阵,方便跨文档比较聚类前的特征准备

适合对比不同作者或不同来源文档的用词偏好,也适合为主题建模和文本聚类准备可下载的特征矩阵文件。

加载文件上传组件中...

字典帮助:可使用 搜狗细胞词库 下载你需要的字典 SCEL 文件,并使用辅助工具中的 「搜狗输入法词库 SCEL 转 TXT 字典工具」 转为 txt 上传到这里

系统会自动构建“文档 × 词汇”矩阵,X 轴为文档,Y 轴为词汇。可视化矩阵与下载文件均会基于该数量进行展示。

每 20,000 字 2 点