课程主页:https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/

视频地址:https://www.bilibili.com/video/av46216519?from=search&seid=13229282510647565239

这里回顾CS224N Lecture 16的课程内容,这一讲主要介绍了Coreference Resolution。

备注:图片均来自课程课件。

What is Coreference Resolution?

识别所有提及同一现实世界实体的信息。

考虑如下文本,蓝色标注部分表示实体:

红色部分均指Obama:

橙色部分均指Hillary:

应用

  • 全文理解
    • 信息提取,问题解答,总结…
    • “He was born in 1961” (Who?)
  • 机器翻译
    • 语言具有不同的性别,数量,代名词等特征。
  • 对话系统
    • “Book tickets to see James Bond”
    • “Spectre is playing near you at 2:00 and 3:00 today. How many tickets would you like?”
    • “Two tickets for the showing at three”

Coreference Resolution in Two Steps

Mention Detection

  • Mention:涉及某个实体的文本范围
  • 三种Mention:
    • 1.代词
      • I, your, it, she, him, etc.
      • 使用词性标记器
    • 2.命名实体
      • People, places, etc.
      • 使用NER系统
    • 3.名词短语
      • “a dog,” “the big fluffy cat stuck in the tree”
      • 使用解析器

Coreference and anaphora

  • coreference是指两个提及指向世界上的同一实体
  • 一个相关的语言概念是anaphora:当一个术语(anaphora)指另一个术语(antecedent)时
    • anaphora的解释在某种程度上取决于antecedent的解释

Four Kinds of Coreference Models

  • 基于规则(代词照应度解析)
  • Mention Pair
  • Mention Ranking
  • 聚类
基于规则(代词照应度解析)Hobbs算法

课件28到29页。

Mention Pair
  • 训练一个二元分类器,该分类器计算每对单词为coreferent的概率$p\left(m_{i}, m_{j}\right)$
  • 希望正样本概率接近$1$,负样本概率接近$0$

损失函数为

测试时,选择阈值,当概率大于阈值时为coreferent。

Mention Ranking
  • 根据模型为每个mention分配得分最高的候选对象
  • NA mention允许模型拒绝将当前提及链接到任何内容

在上述模型下,我们希望最大化如下概率

损失函数定义为

End-to-end Model

计算$i,j$为mention的依据为

其中

聚类
  • Coreference是一项聚类任务,让我们使用聚类算法!
    • 特别是,我们将使用聚集聚类
  • 将每个mention视为一个cluster
  • 在每个步骤中合并一对集群
    • 使用模型来评估哪些聚类合并是好的

评估

Precision和Recall的加权平均: