依存句法模式挖掘
研究一批文本时,常见疑问是句法骨架是否高度重复:主谓宾与修饰关系是通篇共性还是局部习惯。
系统先为每句得到依存结构,再按模式模板在全语料上归类累加,用出现次数滤掉偶发组合,并按关系类型、词性序列或修饰对等不同视角分别累计。
结果给出各模式的频次与结构占比,并标明涉及的句数与跨文件覆盖;高亮相邻片段的原句便于把统计落回措辞;前列条形显示强弱层次;按文件汇总解析成败则帮助判断宏观结论是否建立在足够稳定的句子上。
适用于政策动员类话语的套语摸底,也适用于期刊论文或评论里不同作者的句式结构对照。
这个工具回答的是「整片语料里反复出现的句法关系是什么」, 不是「这一句怎么解析」。后者请用「依存句法分析」(dependency)。
底层以本站的依存句法分析为基础, 先逐句解析得到句法树,再在整片语料上聚合统计高频模式,无需选择解析器。
四种模式类型各管一类问题:
依存三元组:所有 head → dep [关系],最直接的句法关系;
词性序列:句法骨架(n+v+n / a+n+n …),看"作者偏爱的句式";
动词论元框架:每个动词带的 nsubj / dobj / iobj 排列(比如「推动 + 什么宾语」);
修饰对:amod / nn / advmod 等修饰关系下"什么 + 什么"高频搭配。
填节点词聚焦某些词的高频模式(如"推动""加快"的论元); 不填则全语料挖掘。
⚠️ 仅推荐中文文本(含正确标点),英文也能跑但精度有限。 每句不超过 200 字,超长句会被跳过。
上传语料
支持一篇或多篇 txt / csv,按句切分后逐句做依存句法解析。 每文件最多解析 1000 句,超长句子(>200 字)会跳过。
填写节点词后,工具只输出与这些词相关的高频句法模式。 适合「想看某动词带什么宾语 / 某名词被怎么修饰」这类聚焦研究。
出现次数低于此值的模式不入选。语料越大可调越高(10-20)以滤噪。
报告内显示的模式数;CSV 也只导出 Top-N。
统一基于本站的依存句法分析能力,无需选择解析器。
强烈建议开启:否则「的、是、和、了、the、of、a」这类高频功能词会大量进入模式排行, 把真正有意义的句法搭配淹没。命中节点词的模式不受过滤影响(节点词永远保留)。
每 20,000 字 2 点