敏感信息脱敏

用于在文档对外分享、训练语料脱敏、客服与用户反馈归档等场景下，批量识别并替换文本里的结构化个人信息（PII）。本工具只识别"有规律的格式化串"——身份证、手机号、银行卡、车牌等；自由人名、自由地址描述等需要命名实体识别才能找到的目标，请改用「实体识别」工具，避免功能误用。

内置 11 种类型：身份证、手机号、邮箱、银行卡、统一社会信用代码、车牌、IP、QQ、微信号、生日、地址前缀，并叠加身份证 GB 11643、银行卡 Luhn、社会信用代码 GB 32100 等校验位以显著压低误报；脱敏方式可在占位符（[PHONE_1] 形式的可逆映射）/ 保留前后若干位的中段掩码 / 整段删除三者中切换，并支持追加自定义正则覆盖工号、合同号、订单号等业务字段。

报告给出整体风险等级（高 / 中 / 低 / 无）、命中类型分布柱状图、文件 × 类型命中热力图、每文件命中统计与掩码样本预览，以及可按文件 / 类型筛选并分页的命中明细表；脱敏后的主文件、命中明细 CSV、占位符映射表均可整批下载。

适合公文、客服记录、用户反馈等对外发布前的合规脱敏，也适合 LLM 训练语料、运营报表与数据治理流程中的个人信息清洗与留痕。

使用前请读：脱敏 = 正则匹配 + 校验位，不是「真名识别」

本工具只能识别「有规律的格式化串」：身份证 / 手机号 / 邮箱 / 银行卡 / 车牌 / 统一社会信用代码 / IP / QQ / 微信号 / 生日 / 地址前缀。无法识别人名、自由地址描述、护照号等需要 NER 才能找到的实体——这些请用「实体识别」。

身份证 18 位会做校验位验证（GB 11643），银行卡走 Luhn 算法，统一社会信用代码走 GB 32100 的 31 字符表 + 加权校验，能显著降低误报。

⚠️ 命中明细 CSV 中会包含原值，属于敏感数据，下载后请立即按贵单位的合规要求妥善保管 / 销毁；报告页内的"原值"默认掩码预览，不会直接打印明文。

加载文件上传组件中...

启用的敏感信息类型

至少勾选一种；空表示「全部启用」。所有类型的检测都在本地正则 + 校验位完成，零联网。

脱敏方式

替换为 [PHONE_1] 之类的可逆映射占位，附映射表 CSV

导出每条命中：所属文件 / 类型 / 原值 / 占位符 / 起止位置。原值会以明文写入 CSV，请确认下载后安全处置。

自定义正则补充（可选）

用于追加内置类型未覆盖的格式（如内部工号、合同号、订单号）。命中会以 [CUSTOM_别名_N] 占位。

暂未添加自定义正则。

每 20,000 字 2 点

完成后发送邮件通知