语料检索

用于在文档里，按相关度找出对某个问题或概念最贴题的段落、句子或整篇文档，并直接在原文里高亮命中位置。

提供BM25关键词检索与在 BM25 候选基础上叠加语义匹配的深度模式两种算法，字面关键词命中与意思相近但用词不同的内容都能被找出来；可批量提交多条查询，每条独立给出 Top-K 结果与相关度分布。

报告自动汇总命中率、资料覆盖率、最贴题的查询与最高产的文件，并按查询逐条展示 Top-K 片段；既能用于综述论点的原文定位，也能用于访谈材料里相同话题的集合归拢。

适合在政策文件、报告与会议纪要里检索某个议题的支撑原文，也适合从大量客户访谈里把谈到同一话题的所有发言聚拢对比。

先理解这件事：找「最相关的内容」 ≠ 找「字面出现的关键词」

上传一批文档当作资料库，再写下你想问的问题或想查的概念（每行一条），工具会从这堆资料里，按相关性把最贴题的 段落 / 句子 / 整篇文档翻出来排成 Top-K 列表，命中位置直接高亮。

适合这些场景：在大量访谈 / 政策文件 / 报告 / 会议纪要里 快速找出"最像在讲这件事"的段落；做综述前 定位每个论点最有支撑的原文；客户访谈材料里 把所有谈到某个主题的话翻出来对比；或在自己的资料库里做类似"问答检索"的查证。

和「KWIC关键词命中矩阵」「KWIC关键词上下文索引」的差别：那两个看的是 关键词在不在；本工具不要求字面出现，说法不同、用词换了一种表达，也能被找出来。

语料库文件

支持一篇或多篇 txt 文本文件。

加载文件上传组件中...

查询

默认手动输入查询；开启自动查询关键词后，会用语料里的高频词前 10 名自动检索。

自动查询关键词开启后无需填写查询词

已识别 0 条查询。

使用系统停用词

使用自定义停用词

停用词会从自动查询关键词、召回分词和结果高亮中排除。

开启智能词汇识别

分词模式

使用词性过滤

检索粒度

默认；按文档长度和段落结构选择整篇、段落或句子，也可手动指定

检索方式

固定使用 Reranker 深度语义检索：先召回候选片段，再通过语义重排找出最贴题内容。

每条查询返回多少条结果10

建议 5–20 条；放太多会混进相关度较低的边缘片段。

原文片段预览长度（字）60

命中位置左右各保留多少字作为带高亮的预览。

语义权重0.60

往左偏：保留更多候选召回的排序影响；往右偏：更看重意思接近。常用 0.5–0.7。

候选放大倍数×5

先快速捞出 Top-K × N 个候选，再做语义精排。倍数越大越不容易漏，但稍慢。

文本语言

在结果中显示带高亮的原文片段

每 20,000 字 2 点

完成后发送邮件通知