词性标注
文本里名词占多少、动词占多少、形容词和副词怎么搭配,决定了它读起来像学术论文还是口语对话。词性标注工具解决的就是这个问题:给每个词标上语法类别,再从整体上统计分布、计算相邻词性转移概率、与参考语料横向对比,帮你量化文本的语法结构特征。
中文文本同时跑两套标注引擎:分词路径覆盖 60 多种细词性,句法路径覆盖 200 多种细词性,两套结果可以相互参照,帮助发现分词路径和语法角色判断上的差异。英文走句法级路径,标签集更贴近跨语言语法体系。60 多种细词性自动归并为 14 个粗类(名词、动词、形容词、副词、代词、数词、量词、介词、连词、助词、语气词、叹词、方位词、其他),降低分析门槛。
报告包含词性分布柱状图(分词路径和句法路径可切换)、跨文件热力图(多文件时自动对比各文件的词性分布差异)、转移概率矩阵(计算相邻词性的条件转移概率,揭示「名词→动词」「形容词→名词」等搭配模式)、基准语料对比(与学术、新闻、口语、社媒、电商评论、文学作品 6 类参考语料横向对比,计算偏差值,判断文本风格偏向),以及每个词性类别下的高频例词标签。
支持按词性筛选导出 CSV 词表和 TXT 实词词典,可直接作为自定义词典、关键词核对表或后续词频统计、共现分析的输入。支持自定义字典、停用词、分词模式和智能词汇识别。
加载文件上传组件中...
每 40,000 字 2 点
