标点纠正
用于修复中文文本中缺失或错误的标点符号,包括中英文标点统一、重复标点去重、引号括号配对修复等,让断句恢复正常后再做后续分析。
系统通过上下文分析自动修正标点错误,保持原有断句结构不变,只纠正已有标点,不会给无标点文本增加标点;长文档可按段落、窗口或逐行三种方式分段处理。
报告给出逐句对照(原文 vs 纠正后)和改动统计,高亮标注每处标点变化,方便你核对纠正质量。
适合处理 OCR 输出、语音转写稿或标点混乱的旧文档,纠正后的文本更适合交给情感分析、词频统计和文本清洗等工具继续处理。
使用说明
保持原有断句结构不变,通过上下文分析自动修正标点错误,包括中英文标点统一、重复标点去重、引号括号配对修复、补全缺失句末标点等。
注意:本功能适合已有标点的文档,用于纠正已有标点错误;如需给无标点文本增加标点,请使用 文本结构还原器。
加载文件上传组件中...
长文档会按所选单位拆分后纠正,再合并为同一份结果。
适合论文、报告、访谈稿等已有空行分段的材料。
适合没有明显段落的长文档,按固定字数窗口切分。
适合一行一句、列表文本或转写稿逐行处理。
500 字
选择「按窗口纠正」时直接生效;选择「按段落」或「按行」时,仅用于继续拆分超长片段。建议保持默认 500 字以获得最佳纠正效果。
字典帮助:可使用 搜狗细胞词库 下载你需要的字典 SCEL 文件,并使用辅助工具中的 「搜狗输入法词库 SCEL 转 TXT 字典工具」 转为 txt 上传到这里
推荐下一步
标点纠正后的文本更适合交给下列工具做深度分析。
每 20,000 字 2 点
