文档词项矩阵

用于在多篇文本之间逐文档统计词频，看清每篇文档各自在用哪些词、用得多不多，从而横向对比不同文档的词汇特征与差异。

系统会自动对每篇文档分词并构建「文档 × 词汇」矩阵，支持自定义分词粒度、停用词过滤和词性筛选；可选择按绝对频次或 TF-IDF 权重两种方式填入矩阵。

报告给出文档数量、词汇表规模与平均文档字数三项概览指标，再用热力图直观展示词在各文档中的分布差异，并附基于词频向量的余弦相似度矩阵，方便跨文档比较和聚类前的特征准备。

适合对比不同作者或不同来源文档的用词偏好，也适合为主题建模和文本聚类准备可下载的特征矩阵文件。

加载文件上传组件中...

使用自定义字典

字典帮助：可使用搜狗细胞词库下载你需要的字典 SCEL 文件，并使用辅助工具中的「搜狗输入法词库 SCEL 转 TXT 字典工具」转为 txt 上传到这里

使用自定义停用词

开启智能词汇识别

分词模式

使用词性过滤

选择在矩阵中展示的前 20 个词

系统会自动构建“文档 × 词汇”矩阵，X 轴为文档，Y 轴为词汇。可视化矩阵与下载文件均会基于该数量进行展示。

与「高频词」和「文本矩阵」的区别

高频词： 仅统计语料整体的词频排行榜，无法区分不同文档的差异。

文本矩阵： 以 TF-IDF 等权重构建词语的重要性矩阵，更关注词语权重而非绝对频次。

文档-词频矩阵： 针对每篇文档逐一统计词频，生成可下载的 Doc-Term Matrix，便于横向对比。

每 20,000 字 2 点

完成后发送邮件通知