命名实体识别工具使用教程：从文本中提取人名、地名、机构和时间线索

命名实体识别做的是对象抽取。系统先读取上传的 TXT 或 CSV 文本，把正文拆成句子，再在句子中识别人名、地名、机构名、时间等实体。每条实体都会保留原句、类型和位置，因此你看到的不只是一个词表，而是一张可以回到上下文的明细表。

报告采用两种识别口径。规则识别偏稳定，适合快速获得常见中文专名线索；语义识别会结合句意判断人物、地理位置、组织机构和时间，边界或数量可能与规则识别不同。两种结果并排显示时，差异不是错误提示，而是提醒你对重要句子做人工复核。

处理时可以上传自定义字典，让领域词或机构简称更容易被完整切分；也可以上传停用词表，过滤不希望进入结果的噪声词。分词模式和词性过滤会影响规则识别结果，尤其是中文文本中专名被切开的情况。长文档为了保证页面可读性，报告页可能只显示前段预览，完整逐条明细仍在下载 CSV 中。

适用文档

文本长度方面，命名实体识别更适合信息密度较高的材料。单篇几百字以上通常更容易出现稳定线索；如果只有一句口号或几个编号，报告可能几乎没有结果。新闻报道、政策文件、访谈记录、舆情评论和研究语料都适合先做实体整理。长文档可以处理，但页面明细会压缩展示，完整结果需要下载 CSV 查看。

文本质量方面，输入应当是可读正文。报告页面明确提示，文件建议使用 UTF-8 编码的 .txt 或 .csv。如果文件为空、编码异常、几乎只有编号，或经停用词过滤后没有可读内容，就可能没有可展示结果。网页抓取文本里如果混入大量导航、页脚、乱码或重复模板，建议先做文本清洗；繁简混用、全半角混乱时，可以先做中文文本规范化。

语言和行业方面，这个工具主要面向包含中文专名的文本。政策文本可以用来整理部门、地区和时间线索；新闻报道可以用来梳理人物、机构和地点；访谈材料可以用来盘点受访者反复提到的对象。领域术语较多时，建议上传自定义字典。例如医院简称、社区名称、项目代号如果经常被切散，自定义字典能帮助规则识别保留更完整的词形。

输入格式方面，工具页面支持 TXT 和 CSV，单文件大小按页面限制执行。TXT 按正文处理；CSV 会读取文本列并进入分析流程。自定义字典和自定义停用词使用 TXT 文件，每行一个词。

使用步骤

第一步：上传文件。进入命名实体识别页面后，上传 TXT 或 CSV 文件。如果是 CSV，通常应选择包含正文的列，避免把编号列、空列或无关字段混入正文。

第二步：配置参数。常规材料可以先保持默认；如果材料里有机构简称、项目名或地名缩写，上传自定义字典；如果有模板词、口头禅或明显无意义词，上传自定义停用词。分词模式、词性过滤和智能词汇识别的细节在下一节说明。

第三步：查看顶部解读。报告完成后，先看顶部结果卡片。这里会概括工具在做什么，并给出实体总量、实体类型数、含实体句占比、规则识别数量和语义识别数量等信息。

第四步：查看高频实体和对照明细。高频实体卡片分别展示规则识别和语义识别中更集中的实体。实体对照明细按句展示，表格列包括序号、句子、规则识别、语义识别。你可以搜索句子或实体，也可以翻页抽查边界。

第五步：下载结果。下载 CSV 后可以得到实体明细和统计表。实体明细包含原句、词、类型、开始位置、结束位置；统计表包含实体类型数量、总句子数、包含实体的句子数和平均每句实体数等信息。

参数解析与对比示例

可配置参数如下。

参数	说明	默认值
自定义字典	上传 TXT 词典，每行一个词，用于辅助领域词、机构简称、地名缩写等内容切分	关闭，未上传
自定义停用词	上传 TXT 停用词表，每行一个词，用于过滤模板词、口头禅或无意义词	关闭，未上传
智能词汇识别	尝试从语料中发现新词，并作为补充分词词典参与处理；耗时较长，新词不保证单独出现在最终结果里	关闭
分词模式	中文分词方式，可选精确模式、全模式、搜索引擎模式；一般先用精确模式	精确模式
词性过滤	选中的词性类型会在分词阶段被排除，不参与后续处理；仅适合中文文本	关闭
完成后发送邮件通知	任务完成后发送邮件提醒，不影响识别结果	关闭

三组典型配置供参考。

快速新闻梳理。保持默认配置，直接上传新闻报道 TXT 或 CSV。适合先看人物、机构、地点和时间是否集中，再用搜索框核对重点实体。
领域材料识别。上传自定义字典，保持精确模式，不开启过多词性过滤。适合政策、医疗、金融、学校或社区材料中存在大量简称和专有名称的情况。
访谈或问卷整理。上传停用词表，过滤「这个」「然后」「感觉」等不需要进入结果的词。词性过滤要谨慎使用，不建议把人名、地名、机构团体名等类别排除，否则会影响实体召回。

分词模式会改变规则识别的边界。全模式和搜索引擎模式可能产生更多候选词，也可能带来重复或噪声；如果目标是稳定整理对象清单，建议先用精确模式跑一次，再根据结果决定是否调整。

案例分析

案例一：新闻事件报道梳理。

背景：研究人员收集了 20 篇同一事件的新闻报道，想先整理涉事人物、机构、地点和时间，再做事件线索分析。

配置：保持精确模式，上传包含常见机构简称的自定义字典，不使用词性过滤。

结果：报告顶部先显示实体总量、实体类型数和含实体句占比。高频实体卡片帮助研究人员锁定反复出现的人物和机构。随后在对照明细里搜索 6 个重点机构名，逐句核对规则识别和语义识别的差异。下载的实体明细 CSV 被用于整理人物、机构和地点清单。

结论：命名实体识别把对象整理提前完成，后续再做事件时间线或词语共现时，不需要从原文里反复人工查找同一批名称。

案例二：访谈材料对象盘点。

背景：调研团队整理 60 段访谈文本，受访者反复提到社区、学校、医院和若干具体地点。团队希望先知道哪些对象最常被提到，再进入主题分析。

配置：上传访谈文本 CSV，选择正文列；上传停用词表过滤常见口语词；保持精确模式，不排除人名、地名和机构团体名。

结果：报告中的含实体句占比用于判断材料里对象线索是否足够。团队在实体对照明细中搜索学校和医院名称，查看这些实体出现在哪些句子中。长文档页面只保留前段预览时，团队下载完整 CSV 做后续归类。

结论：先做实体识别有助于把「谁」「哪里」「哪个机构」从主题里拆出来。主题分析负责看议题，实体识别负责整理对象，两者分工更清楚。

类似功能对比

命名实体识别、高频词提取、关键词抽取都能从文本中提取词项，但关注点不同。

对比维度	命名实体识别	高频词提取	关键词抽取
做什么	提取人名、地名、机构名、时间等对象线索	统计出现次数较高的词或词组	提取更能代表主题的词
关注点	对象、类型、原句位置	频次和固定搭配	代表性和主题相关性
报告重点	顶部解读、高频实体、实体对照明细	词频结果和词组结果	关键词列表和权重
适合问题	文本里有哪些人物、地点、机构和时间	哪些词被反复提到	哪些词概括主题
后续用途	事件梳理、对象清单、共现分析	语料概览、提法盘点	主题标签、摘要辅助

如果你关心的是「材料里有哪些对象」，先用命名实体识别。如果你关心的是「什么词出现得最多」，用高频词提取。如果你关心的是「哪些词最能代表主题」，用关键词抽取。三者可以连续使用，但不要把高频词直接当成实体，也不要把实体数量当成主题重要性。