文本结构还原器图标文本结构还原器

面向句界不清、标点缺失的中文语料:词与词挤在一起难以通读,也会打乱后续按句统计、按句打标签时的边界。

不增删词、不调换词序的前提下,依据语义与语法关系判定停顿位置并补上常用句读;长文按语段切段处理后再合并,只补标点与断句,不改变原有用词

结果侧提供总句数与平均句长短中长句占比逐条编号、带字数的句子列表,便于判断语料偏口语碎片还是书面长句,并抽样核对停顿是否贴合原意。

常见于抓取正文、日志拼接与转写稿的结构修复;也适合在正式建模或编码前,先统一句读以降低下游统计噪声。

加载文件上传组件中...

字典帮助:可使用 搜狗细胞词库 下载你需要的字典 SCEL 文件,并使用辅助工具中的 「搜狗输入法词库 SCEL 转 TXT 字典工具」 转为 txt 上传到这里

滑动调整期望的最短句与最长句,模型会据此做滑动窗口切分(非严格限制)。

5 字
100 字

每 100 行 10 点