敏感信息脱敏

用于在文档对外分享、训练语料脱敏、客服与用户反馈归档等场景下,批量识别并替换文本里的结构化个人信息(PII)本工具只识别"有规律的格式化串"——身份证、手机号、银行卡、车牌等;自由人名、自由地址描述等需要命名实体识别才能找到的目标,请改用「实体识别」工具,避免功能误用。

内置 11 种类型:身份证、手机号、邮箱、银行卡、统一社会信用代码、车牌、IP、QQ、微信号、生日、地址前缀,并叠加身份证 GB 11643、银行卡 Luhn、社会信用代码 GB 32100 等校验位以显著压低误报;脱敏方式可在占位符([PHONE_1] 形式的可逆映射)/ 保留前后若干位的中段掩码 / 整段删除三者中切换,并支持追加自定义正则覆盖工号、合同号、订单号等业务字段。

报告给出整体风险等级(高 / 中 / 低 / 无)、命中类型分布柱状图、文件 × 类型命中热力图、每文件命中统计与掩码样本预览,以及可按文件 / 类型筛选并分页的命中明细表;脱敏后的主文件、命中明细 CSV、占位符映射表均可整批下载。

适合公文、客服记录、用户反馈等对外发布前的合规脱敏,也适合 LLM 训练语料、运营报表与数据治理流程中的个人信息清洗与留痕。

使用前请读:脱敏 = 正则匹配 + 校验位,不是「真名识别」

本工具只能识别「有规律的格式化串」:身份证 / 手机号 / 邮箱 / 银行卡 / 车牌 / 统一社会信用代码 / IP / QQ / 微信号 / 生日 / 地址前缀。无法识别人名、自由地址描述、护照号等需要 NER 才能找到的实体——这些请用「实体识别」。

身份证 18 位会做校验位验证(GB 11643),银行卡走 Luhn 算法,统一社会信用代码走 GB 32100 的 31 字符表 + 加权校验,能显著降低误报。

⚠️ 命中明细 CSV 中会包含原值,属于敏感数据,下载后请立即按贵单位的合规要求妥善保管 / 销毁; 报告页内的"原值"默认掩码预览,不会直接打印明文。

加载文件上传组件中...

至少勾选一种;空表示「全部启用」。所有类型的检测都在本地正则 + 校验位完成,零联网。

18 位 + GB 11643 校验位

13–19 位 + Luhn 校验

18 位 + GB 32100 校验

中国大陆 11 位 / 1[3-9] 开头

user@example.com

汉字 + 字母 + 5–6 位(含新能源 8 位)

YYYY-MM-DD / YYYY 年 MM 月 DD 日

IPv4,含范围校验

QQ: 12345678 / QQ 号:xxx

微信:xxx / 字母开头 6–20 位

省 / 市 / 区 / 街道 + 后续字

替换为 [PHONE_1] 之类的可逆映射占位,附映射表 CSV

保留前后若干位、中间打 *,仍能人眼粗略复核

直接删除命中片段,不可还原,最干净

导出每条命中:所属文件 / 类型 / 原值 / 占位符 / 起止位置。原值会以明文写入 CSV,请确认下载后安全处置。

用于追加内置类型未覆盖的格式(如内部工号、合同号、订单号)。命中会以 [CUSTOM_别名_N] 占位。

暂未添加自定义正则。

每 20,000 字 2 点

TAT logoText analysis tools
© 2026 tatools.cn 京ICP备2020042889号-2 渝公网安备50010302505500号