文档词项矩阵
用于在多篇文本之间逐文档统计词频,看清每篇文档各自在用哪些词、用得多不多,从而横向对比不同文档的词汇特征与差异。
系统会自动对每篇文档分词并构建「文档 × 词汇」矩阵,支持自定义分词粒度、停用词过滤和词性筛选;可选择按绝对频次或 TF-IDF 权重两种方式填入矩阵。
报告给出文档数量、词汇表规模与平均文档字数三项概览指标,再用热力图直观展示词在各文档中的分布差异,并附基于词频向量的余弦相似度矩阵,方便跨文档比较和聚类前的特征准备。
适合对比不同作者或不同来源文档的用词偏好,也适合为主题建模和文本聚类准备可下载的特征矩阵文件。
加载文件上传组件中...
系统会自动构建“文档 × 词汇”矩阵,X 轴为文档,Y 轴为词汇。可视化矩阵与下载文件均会基于该数量进行展示。
与「高频词」和「文本矩阵」的区别
高频词: 仅统计语料整体的词频排行榜,无法区分不同文档的差异。
文本矩阵: 以 TF-IDF 等权重构建词语的重要性矩阵,更关注词语权重而非绝对频次。
文档-词频矩阵: 针对每篇文档逐一统计词频,生成可下载的 Doc-Term Matrix,便于横向对比。
每 20,000 字 2 点
