文本相似度去重雷达
传统文本相似度工具通常只比较两段文本或一对文本列表,输出单一的相似度分值;“相似度与去重雷达”则面向成批文档,通过语义聚类与雷达图展示每个聚类的强度、覆盖与风险,并结合热力矩阵、去重建议,强调“批量去重+模式洞察”而不仅仅是“单对比得分”,因此更适合海量反馈、问卷或政策资料的去重与汇总分析。
加载文件上传组件中...
数据准备建议
每一行视为一个独立样本,系统会自动计算语义相似度并构建去重雷达图。建议先使用“文本清洗”“按语意分句”等工具,避免换行符或乱码影响效果。
根据文本来源选择预设,系统会自动调整分词、停用词和相似度置信区间。
适用于问卷开放题、用户评价,强化短句语义聚合能力。
保持专业术语,偏向格式统一的长文本分句去重。
自动识别账号、手机号等敏感信息并参与匹配。
适配错别字与口语化表达,召回更多弱相似文本。
82%
推荐:调研反馈 0.8,政策/公文 0.85。
3条
控制去重雷达中的最小聚类粒度,建议≥3以获得稳定的模式。
默认推荐,中文/多语言兼顾,适合混合语料。
跨领域语义检索模型,召回能力强,适用于去重优先场景。
英文或双语材料优选,支持更高维度的语义对齐。
仅保留≥阈值+0.05的重复结果,保证结论高度一致。
兼顾召回与准确度,自动调节不同文档长度的影响。
尽可能捕捉表达不同但诉求一致的文本,适合用户洞察。
输入多个关键词用顿号或逗号分隔,将在雷达图中单独标注。