使用教程登录 / 注册

依存句法模式挖掘

研究一批文本时，常见疑问是句法骨架是否高度重复：主谓宾与修饰关系是通篇共性还是局部习惯。

系统先为每句得到依存结构，再按模式模板在全语料上归类累加，用出现次数滤掉偶发组合，并按关系类型、词性序列或修饰对等不同视角分别累计。

结果给出各模式的频次与结构占比，并标明涉及的句数与跨文件覆盖；高亮相邻片段的原句便于把统计落回措辞；前列条形显示强弱层次；按文件汇总解析成败则帮助判断宏观结论是否建立在足够稳定的句子上。

适用于政策动员类话语的套语摸底，也适用于期刊论文或评论里不同作者的句式结构对照。

使用前请读：跨语料挖掘的不是单句句法树，而是高频句法模式

这个工具回答的是「整片语料里反复出现的句法关系是什么」，不是「这一句怎么解析」。后者请用「依存句法分析」（dependency）。

底层以本站的依存句法分析为基础，先逐句解析得到句法树，再在整片语料上聚合统计高频模式，无需选择解析器。

四种模式类型各管一类问题：
依存三元组：所有 head → dep [关系]，最直接的句法关系；
词性序列：句法骨架（n+v+n / a+n+n …），看"作者偏爱的句式";
动词论元框架：每个动词带的 nsubj / dobj / iobj 排列（比如「推动 + 什么宾语」）；
修饰对：amod / nn / advmod 等修饰关系下"什么 + 什么"高频搭配。

填节点词聚焦某些词的高频模式（如"推动""加快"的论元）；不填则全语料挖掘。

⚠️ 仅推荐中文文本（含正确标点），英文也能跑但精度有限。每句不超过 200 字，超长句会被跳过。

加载文件上传组件中...

挖掘哪种句法模式

依存三元组（dep_triple）head-rel-dep，最常用：所有句法关系的全景统计

词性序列（pos_seq）n+v+n、a+n+n 等连续词性骨架，看作者句式偏好

动词论元框架（verb_frame）动词 + 其下挂的 nsubj/dobj/iobj 等论元，分析句型

修饰对（mod_pair）amod/nn/advmod 修饰关系，看高频「修饰 + 被修饰」搭配

节点词

留空 = 全语料挖掘

自动使用 Top 10 高频词作为节点词

填写节点词后，工具只输出与这些词相关的高频句法模式。开启自动节点词后，会先从整批语料中选出 Top 10 高频词再挖掘。

最小模式频次5 次

出现次数低于此值的模式不入选。语料越大可调越高（10-20）以滤噪。

输出前 N 个高频模式100 个

报告内显示的模式数；CSV 也只导出 Top-N。

文本语言

自动检测

中文

英文

统一基于本站的依存句法分析能力，无需选择解析器。

自动检查并分段不合格文档

开启后会先检查上传文本是否缺少句末标点、段落边界或存在超长行；不适合直接解析时自动切成较短片段，并在结果中说明处理原因。

停用词与词性过滤

强烈建议开启：否则「的、是、和、了、the、of、a」这类高频功能词会大量进入模式排行，把真正有意义的句法搭配淹没。命中节点词的模式不受过滤影响（节点词永远保留）。

使用系统停用词

使用自定义停用词

系统停用词与自定义停用词会取并集；关闭自定义停用词时会自动清空已上传文件。

使用词性过滤

每 20,000 字 2 点

完成后发送邮件通知