KWIC关键词命中矩阵

用于回答哪些主题在哪些文档里被密集讨论、不同分组之间的覆盖差异如何与 KWIC 上下文索引互补——KWIC 按单个词查看左右上下文,回答「这个词怎么用」;本工具按概念组做命中统计,回答「哪些文档涉及哪些主题」,两者各司其职。

必须以「概念组」形式提交关键词——把多个同义、近义词归到一个组里(如把「暴雷 / 违约 / 爆雷」并入「风险」组),所有命中数会被汇总到组名下;统计粒度可选 整篇 / 段落 / 句子,并支持子串与整词匹配、是否区分英文大小写。

使用前提:本工具会把所有上传文件整合后按「段落」做横向对比,因此请务必把语料整理成清晰可分段的文本(例如每条评论 / 每段访谈 / 每条政策条款各占一段,段间用空行分隔)。如果通篇没有分段或没有把多份材料整合到一起,将无法得出有效结果

报告同时提供文档、关键词、分组三个视角的命中表,文档 × 关键词矩阵热力图一眼看出哪些文档密集涉及哪些主题;段 / 句粒度时还会按文档列出命中最密集的热点段落或句子,每条命中都可在抽屉里查看上下文样例

适合在政策文件中比对不同口径在各部门材料中的覆盖差异,也适合评论与新闻中横向对比「风险 / 正面 / 品牌」等多组概念在不同来源中的集中度。

这个工具和「KWIC 上下文索引」有什么不一样?

KWIC
单个词逐次列出原文左 / 中 / 右上下文,回答「这个词怎么用」。 单词检索请直接用 KWIC。

本工具
只做「概念组」命中统计:必须把多个同义 / 近义词归到一个组里 (例:风险 = 暴雷 / 违约 / 爆雷), 每篇文件按空行 / 双换行切成段落,再画出 段落 × 关键词矩阵分组 × 分组共现矩阵, 看「哪些段在密集讨论哪些主题、哪些概念组爱一起出现」。

因为一份文件常常包含多份逻辑文档(一段一份发言、一段一条记录…), 矩阵的"行"是段落而不是文件,单文件也能形成有意义的矩阵。

所以本工具不再支持「单个未分组关键词」——那是 KWIC 的职责,避免功能重叠。

加载文件上传组件中...
0 个有效分组 / 共 0 个关键词
示例(点上方「填入示例」可一键导入)

风险 = 暴雷、违约、爆雷、跑路、踩雷

正面 = 突破、领先、增长、超预期

政策口径 = 乡村振兴、高质量发展、共同富裕

品牌 = 苹果、华为、小米、OPPO、vivo

每个分组里所有关键词的命中数会被汇总到组名下;想检索"单个词的上下文"请改用 KWIC 工具。

#10 个关键词

矩阵始终按段落(空行 / 双换行)切分,本设置只影响报告底部 「热点单元」清单的粒度。

关闭时英文关键词忽略大小写差异(如「China」也会命中「china」)。

开启后,结果页可在抽屉中查看每个关键词 / 单元格的命中原句;关闭则只返回纯统计数据,速度更快。

30 字

值越大上下文越完整;越小越紧凑。

5 条

完整命中明细会写入导出的 CSV,这里仅控制结果页可直接展示的样例数量。

每 20,000 字 2 点

TAT logoText analysis tools
© 2026 tatools.cn 京ICP备2020042889号-2 渝公网安备50010302505500号