规范化做的事情可以拆成四块。

  1. 繁简转换。基于专业词典做上下文判断,不是简单的一对一替换。比如"乾燥"会正确转成"干燥",不会变成"干躁"。支持 9 种模式,包括繁转简、简转繁、台湾繁体、港澳繁体等,也有自动检测模式——系统判断文本主体是繁是简,然后统一为目标体。碰到繁简混排的情况会给出警告,方便你抽查。
  2. 标点规范化。7 项独立规则,每项可以单独开关。包括全角数字和字母转半角、直引号转弯引号并校验配对、折叠多余空白、省略号和破折号统一写法。
  3. 数字转正文。把"3号线""2024年"这类数字+中文组合转成"三号线""二〇二四年"。系统会用大模型判断哪些组合是词、哪些该转,不是一刀切全转。
  4. 拼音转写。给中文字符标注拼音,支持声调符号、声调数字、无声调三种形式。开启按词切分后,基于分词结果标注,多音字的准确率会高不少。处理完会生成一份拼音 CSV,可以直接拿去排版或做语音合成。

报告页从上到下展示:规范化总览(整体统计加各模块说明)、标点子项修改分布条形图、每份文件的修改统计表、数字转正文记录表、原文和改后的并排对照。


适用文档

支持 TXT 和 CSV 两种格式。

  1. TXT 文件。按全文处理。编码建议用 UTF-8,乱码文件需要先转码。
  2. CSV 文件。自动识别文本列进行规范化,非文本列原样保留。

繁简转换对纯中文文本效果最好。中英文混排的文本,中文部分正常转换,英文不受影响。拼音转写也只覆盖中文字符,英文、数字和标点不参与标注。


适用情景

  1. 港台稿件出海。内容团队收到台湾或香港繁体稿件,需要统一成简体发布。用自动检测模式,系统判断主体为繁体后自动转简,两岸三地的用语差异基本能正确处理。
  2. 政策文件数字规范化。政策文件里"3号线""12号楼"这些数字+中文组合,如果直接做文本清洗,数字可能被当噪声删掉。先开数字转正文把它们变成中文写法,后续清洗就不会误删了。
  3. 教材拼音标注。出版社需要给语文教材整篇标拼音。选声调符号模式,开按词切分,系统自动处理大部分多音字,处理不了的会标复核警告供人工抽查。拼音 CSV 可以直接交付排版。
  4. 繁简混排语料预处理。从不同来源收集的文本繁简混用,直接做分词或词频统计,同一个概念会被拆成两个词条。先统一文字形态再分析,统计结果会准确很多。


使用步骤

第一步:上传文件。上传一个或多个 TXT 或 CSV 文件,系统逐文件独立处理。



第二步:查看报告。提交后系统自动处理,完成后跳转到报告页。从上到下:规范化总览、标点子项分布条形图、文件修改统计表、数字转正文记录表、原文和改后的并排对照。


第三步:下载结果。点击下载拿到规范化后的主文件和拼音 CSV。建议先抽查对照预览,确认没误改再用于后续发布或分析。

参数解析与对比示例

繁简转换有 2 个参数。

参数说明默认值
启用繁简转换开启或关闭开启
转换模式auto(自动检测)、t2s(繁→简)、s2t(简→繁)、s2tw/tw2s(台湾)、s2hk/hk2s(港澳)、s2twp/tw2sp(混合)auto

标点规范化有 7 项,每项独立开关。

参数说明默认值
全角数字→半角全角123转为半角123开启
全角字母→半角全角ABC转为半角ABC开启
直引号→弯引号ASCII 直引号按栈匹配转为中文弯引号开启
修正错配引号对已是中文引号的文本做栈式校验开启
折叠多余空白连续空格、全角空格、多余空行折叠开启
省略号统一...、⋯⋯等统一为 ……开启
破折号统一--、——等统一为 ——开启

其他参数有 4 个。

参数说明默认值
数字转正文大模型判断数字+中文组合是否为词,转为中文写法关闭
拼音转写开启或关闭拼音标注开启
声调形式声调符号(mā)、声调数字(ma1)、无声调(ma)声调符号
按词切分基于分词结果标注拼音,多音字准确率更高开启

三组典型配置供参考。

  1. 繁简统一。繁简转换设自动检测 + 全部标点规范化 + 拼音关闭。适合港台稿件出海,处理速度快。
  2. 拼音标注。繁简转换关闭 + 标点规范化 + 拼音转写(声调符号 + 按词切分)。适合教材拼音标注,输出规范化文本加拼音 CSV。
  3. 完整规范化。繁简转换设繁转简 + 全部标点规范化 + 数字转正文 + 拼音转写。适合政策文件或需要全面规范化的场景,处理时间会长一些。

案例分析

案例一:港台稿件出海统一。
背景:某内容团队收到 30 篇台湾繁体公众号稿件。
配置:繁简转换(自动检测)+ 全部标点规范化。
结果:系统识别主体为繁体并统一为简体。"軟體→软件""光碟→光盘""滑鼠→鼠标"等台湾用语正确转换,"乾燥→干燥"等多义字也处理对了。标点方面直引号转弯引号并校验配对,省略号和破折号统一。报告里繁简变更 1,247 处、标点修改 856 处、复核警告 23 处(都是繁简混排提示),编辑抽查警告项后即可发布。


案例二:政策文件数字规范化。
背景:某研究机构处理 50 份政策文件。
配置:数字转正文开启。
结果:系统提取所有"数字+中文"组合,用大模型判断哪些是词。"3号线→三号线""12号楼→十二号楼""2024年→二〇二四年"等共转换 342 处。报告展示数字转正文记录表,每处显示原文和转换后结果。这些文件后续做文本清洗时,已转为中文的数字不会被误删。



类似功能对比

中文文本规范化和文本清洗容易搞混,其实做的事情不一样。

对比维度中文文本规范化文本清洗
做什么统一文字形态,修正不规范写法删掉噪声,减少无关字符
怎么做繁简转换、标点规范化、数字转正文、拼音转写删除标点、停用词、HTML、emoji
对原文影响无损替换,一字不丢删除字符,原文缩减
典型场景繁体资料整理、拼音标注、发布前格式统一爬虫去噪、建模前预处理
输出规范文本 + 替换明细 + 拼音 CSV干净文本 + 删除统计

两者可以串联:先规范化统一文字形态,再清洗去噪声。繁简混排语料走这个流程比较合适。