Michael Collins NLP Lecture 14
课程主页:http://www.cs.columbia.edu/~cs4705/
课程网盘地址:
链接:https://pan.baidu.com/s/1r0f7I2j6rtlK31VplwHa1Q提取码:pw02
这一讲介绍了用全局线性模型解决标注问题。
回顾标注问题:
在全局线性模型下,标注模型的元素如下:
输入$x$是句子$w_{[1:n]}= \{w_1…w_n\}$
定义$\mathcal T$为标注的集合
$\text{GEN}(w_{[1:n]}) =\mathcal T^n$,即所有长度为$n$的标注序列。
注意此时$\text{GEN}$和句子长度呈指数关系。接下来的问题是如何定义$f$?
我们首先回顾历史的概念:
历史是$4$元组$\langle t_{-2}, t_{-1}, w_{[1:n]},i \rangle$
$t_{-2},t_{-1}$是之前两个标注
$ w_{[1:n]}$是输入句子的$n$个单词
$i$是正在被标注的单词的索引
来看个具体例子:
局部特征向量表示给定历史/标注对$(h,t)$,$g_s(h,t), s=1,…,d$是 ...
Michael Collins NLP Lecture 13
课程主页:http://www.cs.columbia.edu/~cs4705/
课程网盘地址:
链接:https://pan.baidu.com/s/1KijgO7yjL_MVCC9zKZ7Jdg提取码:t1i3
这一讲介绍了全局线性模型(Global Linear Models)。
简要回顾基于历史的方法我们之前介绍的内容形式基本为推断从集合$\mathcal X$到集合$\mathcal Y$的映射$F$,例如:
问题
$x\in \mathcal X$
$y\in \mathcal Y$
解析
句子
解析树
机器翻译
法语句子
英语句子
词性标注
句子
标注序列
并且上述内容均为监督式学习:即我们有训练集$(x_i, y_i),i=1…m$。
之前大多数模型都是基于历史的模型:
我们将结构分解为衍生物(derivation)或决策序列。
每个决策都有一个相关的条件概率。
结构的概率是决策概率的之积。
使用最大似然估计的估计参数值。
函数$F:\mathcal X \to \mathcal Y$定义为
F(x)= \arg\max_ ...
Michael Collins NLP Lecture 12
课程主页:http://www.cs.columbia.edu/~cs4705/
课程网盘地址:
链接:https://pan.baidu.com/s/1KijgO7yjL_MVCC9zKZ7Jdg提取码:t1i3
这一讲介绍了Brown聚类算法。
Brown聚类算法简介首先看下算法的输入输出:
输入:大量单词的语料库。
输出1:将单词划分为单词类。
输出2(1的一般化):分层单词聚类。
来看下聚类结果:
第二张图的含义是给同一类的单词相似的编码,可以利用树做到这点。
Brown聚类模型算法的直觉很简单,即相似的单词的前后单词的分布相似,根据这个思路,构建如下模型:
$\mathcal V是语料库w_1,w_2,…,w_n$中的所有单词。
$C:\mathcal V \to \{1,2,…,k\}$是将词汇划分为$k$类的映射。
对每个$v\in \mathcal V,c\in \{1…k\}$,定义参数$e(v|c)$。
对每个$c\in \{1…k\},c’\in \{1…k\}$,定义参数$q(c’|c)$。
模型如下:
p(w_1,w_2,...,w_n ...
Michael Collins NLP Lecture 11
课程主页:http://www.cs.columbia.edu/~cs4705/
课程网盘地址:
链接:https://pan.baidu.com/s/1KijgO7yjL_MVCC9zKZ7Jdg提取码:t1i3
这一讲介绍基于历史的解析的对数线性模型(Log-Linear Models for History-Based Parsing)。
这一讲将应用对数线性模型解决解析问题,现在第一个问题是,我们如何定义$P(T|S)$?其中$T$是一颗解析树,这里
S=w_{[1:n]}处理该问题的方法为四步:
步骤1:用决策序列$d_1…d_m$表示一棵树
T= \langle d_1,d_2,...,d_m \rangle$m$不一定是句子的长度。
步骤2:树的概率为
p(T|S)=\prod_{i=1}^m p(d_i|d_1...d_{i-1},S)步骤3:使用对数线性模型估计
p(d_i|d_1...d_{i-1},S)步骤4:搜索。
下面分别介绍这几个步骤。
步骤1步骤1利用了Ratnaparkhi的解析:三层结构:
词性标签(Part-of-speech tag ...
CS231 作业1
课程视频地址:https://study.163.com/courses-search?keyword=CS231
课程主页:http://cs231n.stanford.edu/2017/
参考资料:https://github.com/zhyh2010/cs231n/tree/master/assignment1
我的代码地址:https://github.com/Doraemonzzz/CS231n
这一部分回顾作业1的重点。
1.k-最近邻分类器这题的难点是向量化k-nn的计算过程,将问题描述如下,假设
X = \left[
\begin{matrix}
— (x^{(1)})^T— \\
— (x^{(2)})^T— \\
\vdots\\
— (x^{(m)})^T—
\end{matrix}
\right] \in \mathbb R^{m \times d}, Y = \left[
\begin{matrix}
— (y^{(1)})^T— \\
— (y^{(2)})^T— \\
\vdots\\
— (y^{(n)})^T—
\en ...
CS229 老版作业2
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
作业地址:https://github.com/Doraemonzzz/CS229
参考资料:https://github.com/zyxue/stanford-cs229
这部分回顾老版作业2。
1.Kernel ridge regression(a)记
X= \left[
\begin{matrix}
(x^{(1)})^T \\
(x^{(2)})^T \\
...\\
(x^{(m)})^T
\end{matrix}
\right],
\vec y =\left[
\begin{matrix}
y^{(1)} \\
y^{(2)} \\
...\\
y^{(m)}
\end{matrix}
\right]所以
\begin{aligned ...
Michael Collins NLP Lecture 10
课程主页:http://www.cs.columbia.edu/~cs4705/
课程网盘地址:
链接:https://pan.baidu.com/s/1KijgO7yjL_MVCC9zKZ7Jdg提取码:t1i3
这一讲介绍了对数线性标注模型(MEMMs)。
Chapter 8 MEMMs(对数线性标注模型)8.1 介绍在本章中,我们将回到标注问题。 我们之前描述了用于标注问题的隐马尔可夫模型(HMM)。本章将描述HMM的强大替代方案,即对数线性标注模型,它直接构建在对数线性模型的思想上。 对数线性标注模型的一个关键优势是它们允许高度灵活的表示,允许将特征轻松集成到模型中。
对数线性标注模型有时被称为“最大熵马尔可夫模型(MEMMs)”。本章将交替使用术语“MEMM”和“对数线性标注模型”。 MEMM这个名字最初由McCallum等人介绍。
对数线性标注模型是条件标注模型。 回想一下,生成标注模型定义了句子$x_1…x_n$与标注序列$y_1…y_n$的联合分布$p(x_1…x_n,y_1…y_n)$。 相反,条件标注模型定义条件分布
p(y_1...y_n ...
Michael Collins NLP Lecture 9
课程主页:http://www.cs.columbia.edu/~cs4705/
课程网盘地址:
链接:https://pan.baidu.com/s/1KijgO7yjL_MVCC9zKZ7Jdg提取码:t1i3
这一讲介绍了对数线性模型。
Chapter 6 对数线性模型(Log-Linear Models)1. 介绍本文将描述对数线性模型,它在自然语言处理中得到了广泛的应用。对数线性模型的一个关键优势是它们的灵活性:正如我们将看到的,它们允许在模型中使用非常丰富的特征集,远比我们之前在课程中看到的简单估计技术更丰富(例如,我们最初为语言建模引入的平滑方法,后来应用于其他模型,如用于标注的HMM和用于解析的PCFG)。在本文中,我们将给出对数线性模型的动机,给出基本定义,并描述如何在这些模型中估计参数。在后续课程中,我们将看到这些模型如何应用于许多自然语言处理问题。
2. 动机作为一个激励性的例子,再次考虑语言建模问题,其任务是对任意单词序列$w_1…w_{i}$,导出条件概率的估计
P(W_i = w_i|W_1 = w_1 ...W_{i-1} = w_{i-1}) = ...
Michael Collins NLP Lecture 8
课程主页:http://www.cs.columbia.edu/~cs4705/
课程网盘地址:
链接:https://pan.baidu.com/s/1KijgO7yjL_MVCC9zKZ7Jdg提取码:t1i3
这一讲主要介绍了基于短语的翻译模型。
Chapter 6 基于短语的翻译模型1.介绍在之前的讲座中,我们已经看到了IBM翻译模型1和2。在本讲义中,我们将描述基于短语的翻译模型。 基于短语的翻译模型在IBM模型上提供了大大改进的翻译,并为许多语言对提供了最先进的翻译。 至关重要的是,基于短语的翻译模型允许在源语言或目标语言方面具有多个单词的词汇项:例如,我们可能有词汇项
\text{(le chien, the dog)}该词汇项指定法语中的字符串$\text{le chien}$可以用英语翻译为$\text{ the dog}$。在源语言或目标语言方面使用多单词表达的选项与IBM模型1和2有很大不同,后者基本上是单词到单词的翻译模型(即,它们假设每个法语单词都是由单个英文单词生成)。 多单词表达在翻译中非常有用;这是基于短语的翻译模型所带来改进的主要原因。
更 ...
Michael Collins NLP Lecture 7
课程主页:http://www.cs.columbia.edu/~cs4705/
课程网盘地址:
链接:https://pan.baidu.com/s/1KijgO7yjL_MVCC9zKZ7Jdg提取码:t1i3
这一讲主要介绍了机器翻译。
Chapter 5 统计机器翻译:IBM模型1和21.介绍接下来的几个课程讲座将侧重于机器翻译,特别是统计机器翻译(SMT)系统。 在本讲义中,我们将重点介绍IBM翻译模型,这些模型可以追溯到20世纪80年代末/90年代初期。 这些模型是开创性的,是当今使用的许多SMT模型的基础。
遵循惯例,我们将在整个讲义中假设任务是将法语(““源”语言)翻译成英语(“目标”语言)。 一般来说,我们用$f$来表示法语句子:$f$是单词序列$f_1,f_2…f_m$,其中$m$是句子的长度,$f_j$表示句子中的第$j$个单词($j\in \{1…m\}$)。我们用$e$来表示英文句子:$e$等于$e_1, e_2 …e_l$,其中$l$是英语句子的长度。
在SMT系统中,我们假设我们有一组样本翻译,$(f^{(k)},e^{(k)})$ ...
CS229 老版作业1
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
作业地址:https://github.com/Doraemonzzz/CS229
参考资料:https://github.com/zyxue/stanford-cs229
这部分回顾老版作业1。
1. Newton’s method for computing least squares(a)因为
\frac {\partial J(\theta)}{\partial \theta_j} = \sum_{i=1}^m (\theta^T x^{(i)}-y^{(i)}) x^{(i)}_j \\
\nabla J(\theta)= \sum_{i=1}^m (\theta^T x^{(i)}-y^{(i)}) x^{(i)}所以
\frac {\partial^2 J(\theta)} ...
CS229 2017版作业1
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
作业地址:https://github.com/Doraemonzzz/CS229
参考资料:https://github.com/zyxue/stanford-cs229
这部分回顾2017版作业1。
1.Logistic regression(a)首先回顾$J(\theta)$的定义
J(\theta) =-\frac 1 m \sum_{i=1}^m \log (h_{\theta}(y^{(i)}x^{(i)}))\\
y(i) ∈\{−1, 1\}, h_θ(x) = g(θ^T x) ,g(z) = 1/(1 + e^{−z})注意$g^{‘}(z) = g(z)(1-g(z))$,利用这点来求$\frac{\partial h_θ(x) }{\partial \theta_k}$ ...