文本相似度去重雷达
文本相似度去重雷达用语义向量判断句子或段落是否「意思重复」,不是简单查重;可调相似度与聚类粒度,多份材料可一起对照。报告含概览、重复模式雷达、聚类与跨文件统计、高相似文本对和热力矩阵,适合问卷开放题、客服记录、多版稿件等场景快速摸底重复表述。 上传论文、报告等正式文档前,请务必手动删除标题、副标题、摘要、关键词、参考文献、注释、页眉页脚、图题表题等结构性内容,再进行分析。这类文本在语义层面本就高度相似,会被模型大量识别为「重复对」,占据结果中的热力矩阵与高相似列表,掩盖你真正关心的正文内容重复情况。本工具适合分析正文段落与句子之间的语义冗余,清理结构元素后结果才准确。
与「文本相似度计算」的区别
文本相似度计算侧重两两数值与排序,适合已知要对比哪些段落。本工具面向批量行级扫描:先聚类再列出成对句子。若选「同义改写嫌疑」,会在意思仍接近的前提下专门找措辞改动大的成对句子,并给出词级左右对照;若选「近似复制与合并」,则找高度同质、适合去重的句子。
两种模式共用同一套语义向量与场景预设;仅筛选区间与列表解读不同,计费一致。
找高度相似、适合去重合并的句子对;阈值通常 0.8+。
在语义仍接近的前提下,找用词差异大、适合人工抽查「洗稿」的句子对;阈值宜 0.55–0.80。
加载文件上传组件中...
数据准备建议
每一行视为一个独立样本,系统会自动计算语义相似度并构建去重雷达图。建议先使用“文本清洗”“按语意分句”等工具,避免换行符或乱码影响效果。
根据文本来源选择预设,系统会自动调整分词、停用词和相似度置信区间。
适用于问卷开放题、用户评价,强化短句语义聚合能力。
保持专业术语,偏向格式统一的长文本分句去重。
自动识别账号、手机号等敏感信息并参与匹配。
适配错别字与口语化表达,召回更多弱相似文本。
82%
推荐:调研反馈 0.8,政策/公文 0.85。
3条
控制去重雷达中的最小聚类粒度,建议≥3以获得稳定的模式。
默认推荐,中文/多语言兼顾,适合混合语料。
跨领域语义检索模型,召回能力强,适用于去重优先场景。
英文或双语材料优选,支持更高维度的语义对齐。
仅保留≥阈值+0.05的重复结果,保证结论高度一致。
兼顾召回与准确度,自动调节不同文档长度的影响。
尽可能捕捉表达不同但诉求一致的文本,适合用户洞察。
输入多个关键词用顿号或逗号分隔,将在雷达图中单独标注。
每 10,000 字 5 点