领域术语抽取
用于在一批同领域的文档(论文、政策、合同、教材、产品手册等)里,自动挑出反复出现的"多字专业说法"——那些两个字以上、组合固定、领域内才常用的词组,比如"支持向量机""卷积神经网络""违约责任条款"。
不是简单按出现次数排序:系统会判断一个词组是不是真的能独立成词,如果它只是某个更长词组里的一部分(比如"机器学习"老和"机器学习算法"一起出现),就不会被反复推到榜单前列,免得几个核心字眼霸占整个清单。
结果包含按可信度排好的术语清单(每个术语带出现次数、字数、典型构词模式)、谁是谁的"上位词"的嵌套关系,以及每个术语在原文里的真实用例方便人工核对;勾选若干条还可导出成可直接复用的术语词典。
常用于研究者整理本学科的专业术语清单、律师梳理合同条款、产品 / 知识团队建领域词库,也常作为后续主题分析、知识图谱、文档检索的"专业词典"基础。
术语抽取找的是多词、稳固、领域专有的术语单位 —— 「乡村振兴战略」「全面深化改革」「支持向量机」「量子纠缠态」。 算法走语言学界标准的 C-value / NC-value(Frantzi & Ananiadou), 基于词性序列模板 + 频次 + 嵌套惩罚,与 TF-IDF / TextRank 完全不同。
与现有工具的关系: 关键词抽取(extract-keywords)输出的是单词级关键词; 新词发现(find-new-words)走互信息 + 左右熵,找字符序列; 本工具基于 jieba 词性序列挖掘多词术语, 更适合论文 / 政策 / 行业语料。
上传语料
支持一篇或多篇 txt / csv。建议输入同一领域的语料,规模越大越能筛出真术语。
C-value:log₂(|a|) × (f(a) − 嵌套惩罚);NC-value:0.8·C + 0.2·上下文加成。 长语料 + 想要更稳定术语 → 用 NC-value;快速过一遍 → 用 C-value。
基于 jieba 粗颗粒词性:n=名词、a=形容词、v=动词、d=副词。 英文走启发式词性,模板基本不影响结果。
多词术语长度通常 2 ~ 5 词;最低出现次数推荐 ≥ 3 抗噪,长语料可提到 5 ~ 10。
候选术语首尾不能是「的 / 了 / 和 / 但 / the / a / of …」等停用词。
含有这些词的候选会被直接丢弃;用于剔除领域里特别想忽略的"假术语"。
每 20,000 字 2 点