中文文本规范化

用来解决中文文本里繁简混用、引号不统一、全半角混杂等格式问题——统一成出版级规范样式，并可整篇转写为拼音。与文本清洗互补：本工具做无损统一（一字不丢、人能读），文本清洗做降噪减字（给下游模型用），建议先规范化、再清洗。

繁简转换支持 9 种模式（繁↔简、繁↔台湾、繁↔港澳、自动检测），按专业自建词典判断上下文，而不是单字一一替换，可正确处理「头发 / 髮」「干 / 乾」等多义字；标点规范化覆盖 7 项独立规则（全角数字字母转半角、直引号转中文弯引号并配对校验、错配引号修正、省略号统一、破折号统一、多余空白折叠），每项独立计数；数字转正文用大模型智能判断「数字+中文」组合是否为词（地名、线路、楼号等），将数字转为中文写法避免被清洗误删；拼音提供声调符号、声调数字、无声调三种形式，并可按词切分以避开多音字误读。

报告给出规范化总览（繁简变更数、标点修改数、数字转正文数、拼音覆盖字数）、标点子项分布条形图、每份文件的修改统计（原字数、改后字数、各项变更数），以及数字转正文记录表、原文与改后并排的修改样例与无法自动判定的人工复核警告清单；规范化主文件与拼音 CSV 可整批下载。

典型场景：字幕、教材、播报稿、港台稿件出海等发布前的最后一道格式统一；政策文件数字规范化；分词、词频、关键词与聚类等下游分析的预处理步骤。

使用前请读：繁简模式选择 & 与「文本清洗」如何配合

繁简转换 ≠ 字符替换：底层用词典级转换

本工具底层使用词典级转换，按词上下文判断而不是单字一一对应，能正确处理头发 ↔ 頭髮、干活 ↔ 幹活、乾隆等多义字 /「一简对多繁」场景，不会把「头发（毛发）」错写成「头發（出发）」。

auto

自动检测（默认推荐，检测文本繁简体后统一为简体，纯简体文本不会被修改）

t2s

繁体 → 简体（最常用，把港台 / 古籍录入文本统一为简体）

s2t

简体 → 繁体（通用繁体，不区分地区习惯）

s2tw / tw2s

简体 ↔ 台湾正体（仅切换字形 / 用字习惯，不替换词汇）

s2hk / hk2s

简体 ↔ 香港繁体（遵循港式标准字体「常用字字形表」）

s2twp / tw2sp

含台湾词汇差异（如软体 ↔ 軟體、网路 ↔ 網路、数据 ↔ 資料、视频 ↔ 影片），做跨地区出版 / 字幕本地化时建议用这一档，否则只换字形不换说法会显得「半台不台」。

默认自动检测即可；如需指定地区，简→繁内地稿件出海用 s2twp 或 s2hk； 繁→简归档统一用 t2s。

和「文本清洗」是两件事，建议先规范化、再清洗

本工具 · 中文规范化

做无损统一：繁简、全 / 半角、引号方向、省略号 / 破折号、拼音注音。 原文信息一字不丢，输出仍是「人能读的正常文本」，可直接给读者 / 编辑看。

文本清洗

做降噪 / 减字：去停用词、删标点、去 HTML / JSON 残渣等。输出主要给下游模型吃（分词、词频、聚类、LDA…），可读性会明显下降。

推荐串联顺序（对最终效果影响很大）

先用本工具跑「繁简 + 标点规范化」：把 " 都变成「」、繁体并入简体、... 变 ……。这样后续分词器和情感词典命中率会显著提高（jieba / 词典都按简体收词）。
把规范化后的 txt 下载下来，喂给文本清洗做停用词 / 标点剔除，得到「干净 token 流」给 LDA、词频、聚类、关键词提取等下游工具用。
⚠️ 反过来做（先清洗再规范化）会丢字符且引号 / 破折号已被清掉，规范化几乎无事可做，效果会打折。

如果你只是想做「繁体录入 → 简体存档」「字幕标点统一」「教材注音」这种发布前的最后一道工序，那只用本工具就够了，不需要再走文本清洗。

加载文件上传组件中...

繁简转换

转换模式

标点规范化

规则子项

生成拼音标注

声调形式

zhōng wén

按词切分后注音

开启时按 jieba 切词保证多音字正确读音，拼音拼回整行输出；关闭时整段逐字注音。

数字转正文

每 20,000 字 2 点

完成后发送邮件通知