智能发现新词
用于从中文语料里找出常规分词不易识别的组合词,回答哪些术语、机构名、地名、人名或流行表达被切碎了。得到的新词数量与词目列表,可用于补充领域词典、统一研究口径、复核分词边界,并为后续词频、主题或实体分析减少噪声。适用于访谈和问卷中的本地简称整理,也适用于行业评论与社交内容中的新词补充。
使用前请读:适用范围与限制
本工具发现的新词不包含可以被 jieba、harvest、hanlp 等分词工具识别的词语。
⚠️ 仅支持中文,文档长度必须在 10000 字以内,超出部分会被忽略。
如果其他分词工具可以很好处理您的语料库,没有必要使用本工具。
加载文件上传组件中...
每 5,000 字 10 点