文体风格指纹(文档相似度)
当你需要判断几篇材料在写作风格上更相近还是更不同,并把「感觉像 / 不像同一类写法」拆成可对读的数字时,会从句长、句型、词性分布、标点与人称代词等习惯信号入手做风格对比。
系统分段后依句尾标点与结构线索粗判句型及被动、否定倾向,汇总词长、虚实词比、词类占比与标点密度,拼成统一尺度下的多维风格向量,再据此衡量文本之间的远近与相近程度。
雷达图与相似度矩阵集中呈现多篇之间的风格相近关系;逐特征表中的原始值及对批次均值的偏离则说明相似或相异主要体现在哪些写作习惯维度。
适用于多来源稿件的风格一致性核对,也适用于改稿、润色或翻译前后检查写法是否发生偏移。
把每篇文本压成一组多维风格特征向量——句长方差、句型分布、被动 / 否定句比例、 虚词 / 实词比、词性分布、标点密度、人称代词使用率等,输出可比对的风格画像。
常见用法:作者风格归属研究、新闻 / 文案风格统一、改稿前后对照、写作辅导、翻译质量评估。 上传 ≥ 2 篇文件即可启用多文件对比(雷达图 + 余弦相似度矩阵)。
⚠️ 本工具不下结论:不会告诉你"这是 AI 写的"或"这是张三写的", 只把统计特征摆在你面前,最终判断由你自己做出。
至少勾选 1 组;勾的组越多,雷达 / 相似度计算的维度越完整,但解读也越复杂。
句长均值/方差/极值、陈述/疑问/感叹比例、被动 / 否定启发式判断。
平均词长、虚词与实词比、连词密度。
名 / 动 / 形 / 副 / 介 / 连 / 助 / 代 / 数 / 量 等粗粒度词性占比。
逗号 / 句号 / 问号 / 感叹 / 分号 / 引号 / 括号 / 破折 / 省略号密度。
第一 / 第二 / 第三人称代词使用率(每 100 词)。
关掉则雷达图直接用原始数值;多文件场景下不同量纲会让某些维度淹没其他维度,建议保持开启。
每 20,000 字 2 点