CS224N Natural Language Processing with Deep Learning Lecture 16

课程主页：https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/

视频地址：https://www.bilibili.com/video/av46216519?from=search&seid=13229282510647565239

这里回顾CS224N Lecture 16的课程内容，这一讲主要介绍了Coreference Resolution。

备注：图片均来自课程课件。

What is Coreference Resolution?

识别所有提及同一现实世界实体的信息。

考虑如下文本，蓝色标注部分表示实体：

红色部分均指Obama：

橙色部分均指Hillary：

应用

全文理解
- 信息提取，问题解答，总结…
- “He was born in 1961” (Who?)
机器翻译
- 语言具有不同的性别，数量，代名词等特征。
对话系统
- “Book tickets to see James Bond”
- “Spectre is playing near you at 2:00 and 3:00 today. How many tickets would you like?”
- “Two tickets for the showing at three”

Coreference Resolution in Two Steps

Mention Detection

Mention：涉及某个实体的文本范围
三种Mention：
- 1.代词
  - I, your, it, she, him, etc.
  - 使用词性标记器
- 2.命名实体
  - People, places, etc.
  - 使用NER系统
- 3.名词短语
  - “a dog,” “the big fluffy cat stuck in the tree”
  - 使用解析器

Coreference and anaphora

coreference是指两个提及指向世界上的同一实体
一个相关的语言概念是anaphora：当一个术语（anaphora）指另一个术语（antecedent）时
- anaphora的解释在某种程度上取决于antecedent的解释

Four Kinds of Coreference Models

基于规则（代词照应度解析）
Mention Pair
Mention Ranking
聚类

基于规则（代词照应度解析）Hobbs算法

课件28到29页。

Mention Pair

训练一个二元分类器，该分类器计算每对单词为coreferent的概率$p\left(m_{i}, m_{j}\right)$
希望正样本概率接近$1$，负样本概率接近$0$

损失函数为

$J=-\sum_{i=2}^{N} \sum_{j=1}^{i} y_{i j} \log p\left(m_{j}, m_{i}\right)$

测试时，选择阈值，当概率大于阈值时为coreferent。

Mention Ranking

根据模型为每个mention分配得分最高的候选对象
NA mention允许模型拒绝将当前提及链接到任何内容

在上述模型下，我们希望最大化如下概率

$\sum_{j=1}^{i-1} \mathbb{1}\left(y_{i j}=1\right) p\left(m_{j}, m_{i}\right)$

损失函数定义为

$J=\sum_{i=2}^{N}-\log \left(\sum_{j=1}^{i-1} \mathbb{1}\left(y_{i j}=1\right) p\left(m_{j}, m_{i}\right)\right)$

End-to-end Model

计算$i,j$为mention的依据为

$s(i, j)=s_{\mathrm{m}}(i)+s_{\mathrm{m}}(j)+s_{\mathrm{a}}(i, j)$

其中

$\begin{aligned} s_{\mathrm{m}}(i) &=\boldsymbol{w}_{\mathrm{m}} \cdot \mathrm{FFNN}_{\mathrm{m}}\left(\boldsymbol{g}_{i}\right) \\ s_{\mathrm{a}}(i, j) &=\boldsymbol{w}_{\mathrm{a}} \cdot \mathrm{FFNN}_{\mathrm{a}}\left(\left[\boldsymbol{g}_{i}, \boldsymbol{g}_{j}, \boldsymbol{g}_{i} \circ \boldsymbol{g}_{j}, \phi(i, j)\right]\right) \end{aligned}$

聚类

Coreference是一项聚类任务，让我们使用聚类算法！
- 特别是，我们将使用聚集聚类
将每个mention视为一个cluster
在每个步骤中合并一对集群
- 使用模型来评估哪些聚类合并是好的

评估

Precision和Recall的加权平均：