KWIC关键词命中矩阵
用于回答哪些主题在哪些文档里被密集讨论、不同分组之间的覆盖差异如何。与 KWIC 上下文索引互补——KWIC 按单个词查看左右上下文,回答「这个词怎么用」;本工具按概念组做命中统计,回答「哪些文档涉及哪些主题」,两者各司其职。
必须以「概念组」形式提交关键词——把多个同义、近义词归到一个组里(如把「暴雷 / 违约 / 爆雷」并入「风险」组),所有命中数会被汇总到组名下;统计粒度可选 整篇 / 段落 / 句子,并支持子串与整词匹配、是否区分英文大小写。
使用前提:本工具会把所有上传文件整合后按「段落」做横向对比,因此请务必把语料整理成清晰可分段的文本(例如每条评论 / 每段访谈 / 每条政策条款各占一段,段间用空行分隔)。如果通篇没有分段或没有把多份材料整合到一起,将无法得出有效结果。
报告同时提供文档、关键词、分组三个视角的命中表,文档 × 关键词矩阵热力图一眼看出哪些文档密集涉及哪些主题;段 / 句粒度时还会按文档列出命中最密集的热点段落或句子,每条命中都可在抽屉里查看上下文样例。
适合在政策文件中比对不同口径在各部门材料中的覆盖差异,也适合评论与新闻中横向对比「风险 / 正面 / 品牌」等多组概念在不同来源中的集中度。
因为一份文件常常包含多份逻辑文档(一段一份发言、一段一条记录…), 矩阵的"行"是段落而不是文件,单文件也能形成有意义的矩阵。
所以本工具不再支持「单个未分组关键词」——那是 KWIC 的职责,避免功能重叠。
风险 = 暴雷、违约、爆雷、跑路、踩雷
正面 = 突破、领先、增长、超预期
政策口径 = 乡村振兴、高质量发展、共同富裕
品牌 = 苹果、华为、小米、OPPO、vivo
每个分组里所有关键词的命中数会被汇总到组名下;想检索"单个词的上下文"请改用 KWIC 工具。
矩阵始终按段落(空行 / 双换行)切分,本设置只影响报告底部 「热点单元」清单的粒度。
关闭时英文关键词忽略大小写差异(如「China」也会命中「china」)。
开启后,结果页可在抽屉中查看每个关键词 / 单元格的命中原句;关闭则只返回纯统计数据,速度更快。
值越大上下文越完整;越小越紧凑。
完整命中明细会写入导出的 CSV,这里仅控制结果页可直接展示的样例数量。
每 20,000 字 2 点