语料检索

用于在文档里,按相关度找出对某个问题或概念最贴题的段落、句子或整篇文档,并直接在原文里高亮命中位置。

提供BM25关键词检索与在 BM25 候选基础上叠加语义匹配的深度模式两种算法,字面关键词命中意思相近但用词不同的内容都能被找出来;可批量提交多条查询,每条独立给出 Top-K 结果与相关度分布。

报告自动汇总命中率、资料覆盖率、最贴题的查询与最高产的文件,并按查询逐条展示 Top-K 片段;既能用于综述论点的原文定位,也能用于访谈材料里相同话题的集合归拢。

适合在政策文件、报告与会议纪要里检索某个议题的支撑原文,也适合从大量客户访谈里把谈到同一话题的所有发言聚拢对比。

先理解这件事:找「最相关的内容」 ≠ 找「字面出现的关键词」

上传一批文档当作资料库,再写下你想问的问题或想查的概念(每行一条), 工具会从这堆资料里,按相关性把最贴题的 段落 / 句子 / 整篇文档翻出来排成 Top-K 列表,命中位置直接高亮。

适合这些场景:在大量访谈 / 政策文件 / 报告 / 会议纪要里 快速找出"最像在讲这件事"的段落;做综述前 定位每个论点最有支撑的原文;客户访谈材料里 把所有谈到某个主题的话翻出来对比; 或在自己的资料库里做类似"问答检索"的查证

和「KWIC关键词命中矩阵」「KWIC关键词上下文索引」的差别:那两个看的是 关键词在不在;本工具不要求字面出现, 说法不同、用词换了一种表达,也能被找出来。

支持一篇或多篇 txt 文本文件。

加载文件上传组件中...

默认手动输入查询;开启自动查询关键词后,会用语料里的高频词前 10 名自动检索。

开启后无需填写查询词

已识别 0 条查询。

停用词会从自动查询关键词、召回分词和结果高亮中排除。

自动分段会按文档长度和段落结构选择整篇、段落或句子;也可以手动指定。

固定使用 Reranker 深度语义检索:先召回候选片段,再通过语义重排找出最贴题内容。

10

建议 5–20 条;放太多会混进相关度较低的边缘片段。

60

命中位置左右各保留多少字作为带高亮的预览。

0.60

往左偏:保留更多候选召回的排序影响;往右偏:更看重意思接近。常用 0.5–0.7。

×5

先快速捞出 Top-K × N 个候选,再做语义精排。倍数越大越不容易漏,但稍慢。

每 20,000 字 2 点