文本清洗图标文本清洗

从网上抓下来的文本、访谈转录稿、混排文档,往往夹杂着 HTML 标签、多余标点、emoji、零宽字符和各种噪声。这些杂质不影响人眼阅读,但会严重干扰词频统计、主题建模、情感分析等下游任务的准确性。文本清洗工具解决的就是这个问题:把脏文本变成干净的、可直接喂给分析工具的标准输入。

标点处理支持按类别精细控制:句末标点、停顿标点、括号引号、连接符可以分别勾选保留或删除,全半角自动统一,连续重复标点自动合并。开启强力清理后自动剥离 HTML 标签并仅保留中文内容,一步到位处理爬虫数据。停用词支持内置词表和自定义词表两种方式。

长文本可按 20~500 字的滑动窗口自动切分为等长片段,解决 LDA、BERTopic 等主题模型对输入段落长度敏感的问题。可设置过短行阈值,过滤掉不足指定字数的碎片行。支持 TXT 和 CSV 两种输入格式,CSV 自动识别文本列进行处理。

结果页展示三个维度的清洗效果:处理概览(文件数、行数、空行数、分割片段数)、字符统计(原始字符、清理后字符、删除比率)、原文与清洗后对照预览(被删除内容红色高亮标注),一眼判断清洗是否到位。所有结果可打包下载。

加载文件上传组件中...

每 40,000 字 1 点