使用教程登录 / 注册

领域术语抽取

用于在一批同领域的文档（论文、政策、合同、教材、产品手册等）里，自动挑出反复出现的"多字专业说法"——那些两个字以上、组合固定、领域内才常用的词组，比如"支持向量机""卷积神经网络""违约责任条款"。

不是简单按出现次数排序：系统会判断一个词组是不是真的能独立成词，如果它只是某个更长词组里的一部分（比如"机器学习"老和"机器学习算法"一起出现），就不会被反复推到榜单前列，免得几个核心字眼霸占整个清单。

结果包含按可信度排好的术语清单（每个术语带出现次数、字数、典型构词模式）、谁是谁的"上位词"的嵌套关系，以及每个术语在原文里的真实用例方便人工核对；勾选若干条还可导出成可直接复用的术语词典。

常用于研究者整理本学科的专业术语清单、律师梳理合同条款、产品 / 知识团队建领域词库，也常作为后续主题分析、知识图谱、文档检索的"专业词典"基础。

使用前请读：术语抽取 ≠ 关键词抽取 ≠ 新词发现

术语抽取找的是多词、稳固、领域专有的术语单位 —— 「乡村振兴战略」「全面深化改革」「支持向量机」「量子纠缠态」。算法走语言学界标准的 C-value / NC-value（Frantzi & Ananiadou），基于词性序列模板 + 频次 + 嵌套惩罚，与 TF-IDF / TextRank 完全不同。

与现有工具的关系： 关键词抽取（extract-keywords）输出的是单词级关键词； 新词发现（find-new-words）走互信息 + 左右熵，找字符序列；本工具基于 jieba 词性序列挖掘多词术语，更适合论文 / 政策 / 行业语料。

上传语料

支持一篇或多篇 txt / csv。建议输入同一领域的语料，规模越大越能筛出真术语。

加载文件上传组件中...

使用自定义停用词

排序算法

C-value：log₂(|a|) × (f(a) − 嵌套惩罚)；NC-value：0.8·C + 0.2·上下文加成。长语料 + 想要更稳定术语 → 用 NC-value；快速过一遍 → 用 C-value。

词性序列模板

仅对中文有效

基于 jieba 粗颗粒词性：n=名词、a=形容词、v=动词、d=副词。英文走启发式词性，模板基本不影响结果。

最短词数2

最长词数5

最低出现次数3 次

多词术语长度通常 2 ~ 5 词；最低出现次数推荐 ≥ 3 抗噪，长语料可提到 5 ~ 10。

输出术语数 (Top N)200 个

文本语言

候选首尾停用词过滤

开启（推荐）

候选术语首尾不能是停用词；上方通用停用词设置会一起生效。

每 20,000 字 2 点

完成后发送邮件通知