文本相似度去重雷达

文本相似度去重雷达用语义向量判断句子或段落是否「意思重复」,不是简单查重;可调相似度与聚类粒度,多份材料可一起对照。报告含概览、重复模式雷达、聚类与跨文件统计、高相似文本对和热力矩阵,适合问卷开放题、客服记录、多版稿件等场景快速摸底重复表述。 上传论文、报告等正式文档前,请务必手动删除标题、副标题、摘要、关键词、参考文献、注释、页眉页脚、图题表题等结构性内容,再进行分析。这类文本在语义层面本就高度相似,会被模型大量识别为「重复对」,占据结果中的热力矩阵与高相似列表,掩盖你真正关心的正文内容重复情况。本工具适合分析正文段落与句子之间的语义冗余,清理结构元素后结果才准确。

两种模式共用同一套语义向量与场景预设;仅筛选区间与列表解读不同,计费一致。

找高度相似、适合去重合并的句子对;阈值通常 0.8+。

在语义仍接近的前提下,找用词差异大、适合人工抽查「洗稿」的句子对;阈值宜 0.55–0.80。

加载文件上传组件中...

根据文本来源选择预设,系统会自动调整分词、停用词和相似度置信区间。

适用于问卷开放题、用户评价,强化短句语义聚合能力。

保持专业术语,偏向格式统一的长文本分句去重。

自动识别账号、手机号等敏感信息并参与匹配。

适配错别字与口语化表达,召回更多弱相似文本。

82%

推荐:调研反馈 0.8,政策/公文 0.85。

3条

控制去重雷达中的最小聚类粒度,建议≥3以获得稳定的模式。

默认推荐,中文/多语言兼顾,适合混合语料。

跨领域语义检索模型,召回能力强,适用于去重优先场景。

英文或双语材料优选,支持更高维度的语义对齐。

仅保留≥阈值+0.05的重复结果,保证结论高度一致。

兼顾召回与准确度,自动调节不同文档长度的影响。

尽可能捕捉表达不同但诉求一致的文本,适合用户洞察。

输入多个关键词用顿号或逗号分隔,将在雷达图中单独标注。

每 10,000 字 5 点