中文文本规范化
用于把繁简、引号、全/半角、省略号、破折号等写法不一的中文文本统一成出版级规范样式,并可整篇转写为拼音。与「文本清洗」互补——本工具做无损统一(一字不丢、人能读),文本清洗做降噪减字(给下游模型用),建议先规范化、再清洗。
繁简转换支持 t2s / s2t / s2tw / s2hk / s2twp 等模式,按词典级判断上下文,而不是单字一一替换,可正确处理「头发 / 髮」「干 / 乾」等多义字与「一简对多繁」;标点规范化覆盖全/半角数字字母互转、直引号转中文弯引号、引号配对校验、多空白折叠、省略号与破折号统一;拼音提供声调符号、声调数字、无声调三种形式,并可按词切分以避开多音字误读。
报告给出规范化总览(繁简变更、标点修改、拼音覆盖字数)、标点子项分布条形图、每份文件的修改统计,以及原文 / 改后并排的修改样例与无法自动判定的人工复核警告清单;规范化主文件与拼音 CSV 可整批下载。
适合字幕、教材、播报稿、港台稿件出海等发布前的最后一道格式统一,也常作为分词、词频、关键词与聚类等下游分析的预处理步骤。
繁简转换 ≠ 字符替换:底层用词典级转换
本工具底层使用词典级转换,按词上下文判断而不是单字一一对应,能正确处理 头发 ↔ 頭髮、干活 ↔ 幹活、乾隆 等多义字 /「一简对多繁」场景,不会把「头发(毛发)」错写成「头發(出发)」。
选不准时按这个直觉走:简→繁内地稿件出海用 s2twp 或 s2hk; 繁→简归档统一用 t2s。
和「文本清洗」是两件事,建议先规范化、再清洗
做无损统一:繁简、全 / 半角、引号方向、省略号 / 破折号、拼音注音。 原文信息一字不丢,输出仍是「人能读的正常文本」,可直接给读者 / 编辑看。
做降噪 / 减字:去停用词、删标点、去 HTML / JSON 残渣等。 输出主要给下游模型吃(分词、词频、聚类、LDA…),可读性会明显下降。
推荐串联顺序(对最终效果影响很大)
- 先用本工具跑「繁简 + 标点规范化」:把 " 都变成 「」、繁体并入简体、... 变 ……。 这样后续分词器和情感词典命中率会显著提高(jieba / 词典都按简体收词)。
- 把规范化后的 txt 下载下来,喂给文本清洗做停用词 / 标点剔除, 得到「干净 token 流」给 LDA、词频、聚类、关键词提取等下游工具用。
- ⚠️ 反过来做(先清洗再规范化)会丢字符且引号 / 破折号已被清掉,规范化几乎无事可做,效果会打折。
如果你只是想做「繁体录入 → 简体存档」「字幕标点统一」「教材注音」这种发布前的最后一道工序, 那只用本工具就够了,不需要再走文本清洗。
每 20,000 字 2 点