文本相似度去重雷达

文本相似度去重雷达用语义向量判断句子或段落是否「意思重复」，不是简单查重；可调相似度与聚类粒度，多份材料可一起对照。报告含概览、重复模式雷达、聚类与跨文件统计、高相似文本对和热力矩阵，适合问卷开放题、客服记录、多版稿件等场景快速摸底重复表述。上传论文、报告等正式文档前，请务必手动删除标题、副标题、摘要、关键词、参考文献、注释、页眉页脚、图题表题等结构性内容，再进行分析。这类文本在语义层面本就高度相似，会被模型大量识别为「重复对」，占据结果中的热力矩阵与高相似列表，掩盖你真正关心的正文内容重复情况。本工具适合分析正文段落与句子之间的语义冗余，清理结构元素后结果才准确。

与「文本相似度计算」的区别：文本相似度计算侧重两两数值与排序，适合已知要对比哪些段落。本工具面向批量行级扫描：先聚类再列出成对句子。若选「同义改写嫌疑」，会在意思仍接近的前提下专门找措辞改动大的成对句子，并给出词级左右对照；若选「近似复制与合并」，则找高度同质、适合去重的句子。

数据准备建议：每一行视为一个独立样本；如果整篇文本没有分成至少两条有效内容，系统会按下方窗口自动切成句段。建议先使用「文本清洗」等工具，避免乱码影响效果。

分析模式

两种模式共用同一套语义向量与场景预设；仅筛选区间与列表解读不同，计费一致。

找高度相似、适合去重合并的句子对；阈值通常 0.8+。

加载文件上传组件中...

自动分段窗口

180 字

仅在上传内容缺少有效分行或分段时触发；窗口越小，切出的句段越短。

分析场景

根据文本来源选择预设，系统会自动调整分词、停用词和相似度置信区间。

适用于问卷开放题、用户评价，强化短句语义聚合能力。

相似度阈值

82%

推荐：调研反馈 0.8，政策/公文 0.85。

重复聚类最小样本数

3条

控制去重雷达中的最小聚类粒度，建议≥3以获得稳定的模式。

语义向量模型

中文和双语材料通用，适合批量相似句段查找与重复合并。

去重策略

兼顾召回与准确度，自动调节不同文档长度的影响。

希望重点跟踪的主题（可选）

输入多个关键词用顿号或逗号分隔，将在雷达图中单独标注。

每 10,000 字 5 点

完成后发送邮件通知