Michael Collins NLP Lecture 11
课程主页:http://www.cs.columbia.edu/~cs4705/
课程网盘地址:
链接:https://pan.baidu.com/s/1KijgO7yjL_MVCC9zKZ7Jdg提取码:t1i3
这一讲介绍基于历史的解析的对数线性模型(Log-Linear Models for History-Based Parsing)。
这一讲将应用对数线性模型解决解析问题,现在第一个问题是,我们如何定义$P(T|S)$?其中$T$是一颗解析树,这里
S=w_{[1:n]}处理该问题的方法为四步:
步骤1:用决策序列$d_1…d_m$表示一棵树
T= \langle d_1,d_2,...,d_m \rangle$m$不一定是句子的长度。
步骤2:树的概率为
p(T|S)=\prod_{i=1}^m p(d_i|d_1...d_{i-1},S)步骤3:使用对数线性模型估计
p(d_i|d_1...d_{i-1},S)步骤4:搜索。
下面分别介绍这几个步骤。
步骤1步骤1利用了Ratnaparkhi的解析:三层结构:
词性标签(Part-of-speech tag ...
CS231 作业1
课程视频地址:https://study.163.com/courses-search?keyword=CS231
课程主页:http://cs231n.stanford.edu/2017/
参考资料:https://github.com/zhyh2010/cs231n/tree/master/assignment1
我的代码地址:https://github.com/Doraemonzzz/CS231n
这一部分回顾作业1的重点。
1.k-最近邻分类器这题的难点是向量化k-nn的计算过程,将问题描述如下,假设
X = \left[
\begin{matrix}
— (x^{(1)})^T— \\
— (x^{(2)})^T— \\
\vdots\\
— (x^{(m)})^T—
\end{matrix}
\right] \in \mathbb R^{m \times d}, Y = \left[
\begin{matrix}
— (y^{(1)})^T— \\
— (y^{(2)})^T— \\
\vdots\\
— (y^{(n)})^T—
\en ...
CS229 老版作业2
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
作业地址:https://github.com/Doraemonzzz/CS229
参考资料:https://github.com/zyxue/stanford-cs229
这部分回顾老版作业2。
1.Kernel ridge regression(a)记
X= \left[
\begin{matrix}
(x^{(1)})^T \\
(x^{(2)})^T \\
...\\
(x^{(m)})^T
\end{matrix}
\right],
\vec y =\left[
\begin{matrix}
y^{(1)} \\
y^{(2)} \\
...\\
y^{(m)}
\end{matrix}
\right]所以
\begin{aligned ...
Michael Collins NLP Lecture 10
课程主页:http://www.cs.columbia.edu/~cs4705/
课程网盘地址:
链接:https://pan.baidu.com/s/1KijgO7yjL_MVCC9zKZ7Jdg提取码:t1i3
这一讲介绍了对数线性标注模型(MEMMs)。
Chapter 8 MEMMs(对数线性标注模型)8.1 介绍在本章中,我们将回到标注问题。 我们之前描述了用于标注问题的隐马尔可夫模型(HMM)。本章将描述HMM的强大替代方案,即对数线性标注模型,它直接构建在对数线性模型的思想上。 对数线性标注模型的一个关键优势是它们允许高度灵活的表示,允许将特征轻松集成到模型中。
对数线性标注模型有时被称为“最大熵马尔可夫模型(MEMMs)”。本章将交替使用术语“MEMM”和“对数线性标注模型”。 MEMM这个名字最初由McCallum等人介绍。
对数线性标注模型是条件标注模型。 回想一下,生成标注模型定义了句子$x_1…x_n$与标注序列$y_1…y_n$的联合分布$p(x_1…x_n,y_1…y_n)$。 相反,条件标注模型定义条件分布
p(y_1...y_n ...
Michael Collins NLP Lecture 9
课程主页:http://www.cs.columbia.edu/~cs4705/
课程网盘地址:
链接:https://pan.baidu.com/s/1KijgO7yjL_MVCC9zKZ7Jdg提取码:t1i3
这一讲介绍了对数线性模型。
Chapter 6 对数线性模型(Log-Linear Models)1. 介绍本文将描述对数线性模型,它在自然语言处理中得到了广泛的应用。对数线性模型的一个关键优势是它们的灵活性:正如我们将看到的,它们允许在模型中使用非常丰富的特征集,远比我们之前在课程中看到的简单估计技术更丰富(例如,我们最初为语言建模引入的平滑方法,后来应用于其他模型,如用于标注的HMM和用于解析的PCFG)。在本文中,我们将给出对数线性模型的动机,给出基本定义,并描述如何在这些模型中估计参数。在后续课程中,我们将看到这些模型如何应用于许多自然语言处理问题。
2. 动机作为一个激励性的例子,再次考虑语言建模问题,其任务是对任意单词序列$w_1…w_{i}$,导出条件概率的估计
P(W_i = w_i|W_1 = w_1 ...W_{i-1} = w_{i-1}) = ...
Michael Collins NLP Lecture 8
课程主页:http://www.cs.columbia.edu/~cs4705/
课程网盘地址:
链接:https://pan.baidu.com/s/1KijgO7yjL_MVCC9zKZ7Jdg提取码:t1i3
这一讲主要介绍了基于短语的翻译模型。
Chapter 6 基于短语的翻译模型1.介绍在之前的讲座中,我们已经看到了IBM翻译模型1和2。在本讲义中,我们将描述基于短语的翻译模型。 基于短语的翻译模型在IBM模型上提供了大大改进的翻译,并为许多语言对提供了最先进的翻译。 至关重要的是,基于短语的翻译模型允许在源语言或目标语言方面具有多个单词的词汇项:例如,我们可能有词汇项
\text{(le chien, the dog)}该词汇项指定法语中的字符串$\text{le chien}$可以用英语翻译为$\text{ the dog}$。在源语言或目标语言方面使用多单词表达的选项与IBM模型1和2有很大不同,后者基本上是单词到单词的翻译模型(即,它们假设每个法语单词都是由单个英文单词生成)。 多单词表达在翻译中非常有用;这是基于短语的翻译模型所带来改进的主要原因。
更 ...
Michael Collins NLP Lecture 7
课程主页:http://www.cs.columbia.edu/~cs4705/
课程网盘地址:
链接:https://pan.baidu.com/s/1KijgO7yjL_MVCC9zKZ7Jdg提取码:t1i3
这一讲主要介绍了机器翻译。
Chapter 5 统计机器翻译:IBM模型1和21.介绍接下来的几个课程讲座将侧重于机器翻译,特别是统计机器翻译(SMT)系统。 在本讲义中,我们将重点介绍IBM翻译模型,这些模型可以追溯到20世纪80年代末/90年代初期。 这些模型是开创性的,是当今使用的许多SMT模型的基础。
遵循惯例,我们将在整个讲义中假设任务是将法语(““源”语言)翻译成英语(“目标”语言)。 一般来说,我们用$f$来表示法语句子:$f$是单词序列$f_1,f_2…f_m$,其中$m$是句子的长度,$f_j$表示句子中的第$j$个单词($j\in \{1…m\}$)。我们用$e$来表示英文句子:$e$等于$e_1, e_2 …e_l$,其中$l$是英语句子的长度。
在SMT系统中,我们假设我们有一组样本翻译,$(f^{(k)},e^{(k)})$ ...
CS229 老版作业1
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
作业地址:https://github.com/Doraemonzzz/CS229
参考资料:https://github.com/zyxue/stanford-cs229
这部分回顾老版作业1。
1. Newton’s method for computing least squares(a)因为
\frac {\partial J(\theta)}{\partial \theta_j} = \sum_{i=1}^m (\theta^T x^{(i)}-y^{(i)}) x^{(i)}_j \\
\nabla J(\theta)= \sum_{i=1}^m (\theta^T x^{(i)}-y^{(i)}) x^{(i)}所以
\frac {\partial^2 J(\theta)} ...
CS229 2017版作业1
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
作业地址:https://github.com/Doraemonzzz/CS229
参考资料:https://github.com/zyxue/stanford-cs229
这部分回顾2017版作业1。
1.Logistic regression(a)首先回顾$J(\theta)$的定义
J(\theta) =-\frac 1 m \sum_{i=1}^m \log (h_{\theta}(y^{(i)}x^{(i)}))\\
y(i) ∈\{−1, 1\}, h_θ(x) = g(θ^T x) ,g(z) = 1/(1 + e^{−z})注意$g^{‘}(z) = g(z)(1-g(z))$,利用这点来求$\frac{\partial h_θ(x) }{\partial \theta_k}$ ...
CS229 2017版作业0
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
作业地址:https://github.com/Doraemonzzz/CS229
参考资料:https://github.com/zyxue/stanford-cs229
从今天开始整理CS229的作业,一共做了两个版本,分别是2017版和老版本,虽说一部分有官方解答了,但还是想根据自己的理解做一遍,解答的pdf版本在我的github上。
这次的作业是回顾线性代数。
1.Gradients and Hessians(a)首先计算$f(x) =\frac 1 2 x^T Ax +b^Tx$
\begin{aligned}
f(x) &=\frac 1 2 x^T Ax +b^Tx\\
&=\frac 1 2 \sum_{i=1}^n \sum_{j=1}^n x_iA_{ij}x_j + \s ...
CS229 笔记总结
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
简单总结CS229系列笔记。
历时两个半月,总算将CS229的笔记完成,做笔记的过程中少数内容参考了中文翻译版:
https://github.com/Kivy-CN/Stanford-CS-229-CN
但绝大多数内容都是在谷歌翻译的基础上修改而成,在这份笔记中,我补充了省略的证明以及最后几节强化学习的内容,发现了一些小问题(暂时还不确定是谁的错误),总之在这个过程中还是挺有收获的,下一阶段会把习题完成,到时候还会继续更新在博客以及github上。
CS229 Lesson 8 顺序最小优化算法
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲介绍了核方法以及SMO算法。
7.核方法回到我们对线性回归的讨论中,我们遇到了一个问题,其中输入$x$是房子的生活区域,我们考虑使用特征$x$,$x^2$和$x^3$进行回归以获得三次函数。 为了区分这两组变量,我们将“原始”输入值称为问题的输入属性(在本例中为$x$,生活区域)。当它被映射到一组新的量然后传递给学习算法时,我们将这些新的量称为输入特征。(不幸的是,不同的作者使用不同的术语来描述这两件事,但是我们将尝试在这份讲义中一致地使用这个术语。)我们还将$\phi$表示特征映射,它将属性映射到特征。 例如,在我们的例子中,我们有
\phi(x) =\left[
...