KWIC关键词命中矩阵

用于回答哪些主题在哪些文档里被密集讨论、不同分组之间的覆盖差异如何。与 KWIC 上下文索引互补——KWIC 按单个词查看左右上下文，回答「这个词怎么用」；本工具按概念组做命中统计，回答「哪些文档涉及哪些主题」，两者各司其职。

必须以「概念组」形式提交关键词——把多个同义、近义词归到一个组里（如把「暴雷 / 违约 / 爆雷」并入「风险」组），所有命中数会被汇总到组名下；统计粒度可选 整篇 / 段落 / 句子，并支持子串与整词匹配、是否区分英文大小写。

使用前提：本工具会把所有上传文件整合后按「段落」做横向对比，因此请务必把语料整理成清晰可分段的文本（例如每条评论 / 每段访谈 / 每条政策条款各占一段，段间用空行分隔）。如果通篇没有分段或没有把多份材料整合到一起，将无法得出有效结果。

报告同时提供文档、关键词、分组三个视角的命中表，文档 × 关键词矩阵热力图一眼看出哪些文档密集涉及哪些主题；段 / 句粒度时还会按文档列出命中最密集的热点段落或句子，每条命中都可在抽屉里查看上下文样例。

适合在政策文件中比对不同口径在各部门材料中的覆盖差异，也适合评论与新闻中横向对比「风险 / 正面 / 品牌」等多组概念在不同来源中的集中度。

这个工具和「KWIC 上下文索引」有什么不一样？

KWIC

按单个词逐次列出原文左 / 中 / 右上下文，回答「这个词怎么用」。单词检索请直接用 KWIC。

本工具

只做「概念组」命中统计：默认从上传文本里自动识别关键词，并按段落共现关系形成分组；需要控制统计口径时，也可以手动指定分组（例：风险 = 暴雷 / 违约 / 爆雷），每篇文件按空行 / 双换行切成段落，再画出 段落 × 关键词矩阵、分组 × 分组共现矩阵，看「哪些段在密集讨论哪些主题、哪些概念组爱一起出现」。

因为一份文件常常包含多份逻辑文档（一段一份发言、一段一条记录…），矩阵的"行"是段落而不是文件，单文件也能形成有意义的矩阵。

所以本工具默认不要求用户填写关键词；想看某个词的逐次上下文，请改用 KWIC。

加载文件上传组件中...

关键词来源

自动识别最多 36 个关键词 / 8 组

输入方式

推荐 · 从文本中找出关键词和概念分组

自动识别设置

系统会按词频、段落覆盖和共现关系自动选择关键词，并把经常出现在同一批段落里的词归为一组。

最多识别关键词数36 个

最多形成分组数8 组

热点单元粒度

矩阵始终按段落（空行 / 双换行）切分，本设置只影响报告底部「热点单元」清单的粒度。