目的 面向生物医学领域基于文献的知识学习及应用需求, 为解决实体识别中存在的词语歧义问题, 提出一种基于上下文特征的实体消歧算法。方法 实体消歧通常分为候选生成和实体消歧两部分。在候选生成阶段, 本文采用基于知识库的方法对实体指称生成候选, 并根据实体在知识库中的先验概率对候选实体进行筛选, 这样保证了目标实体的召回率并有效减少消歧阶段的计算复杂度和噪声。在实体消歧阶段, 本文提出一种基于上下文特征的实体消歧方法, 构建概率模型计算实体上下文和实体指称上下文之间的相似度, 选取相似度最大的实体作为目标实体。对从文献中识别出的命名指称做实体消歧实验, 通过领域专家判断实体消歧结果的正确性, 比较在不同算法下实体消歧的准确率。结果本文提出的方法在所选择的数据集中获得了83%的实体消歧准确率, 高于其他算法。结论 基于上下文特征的实体消歧算法在本领域的实体消歧工作中效果最佳。
|