Information Theory, Inference and Learning Algorithms Lecture 4
课程主页:http://www.inference.org.uk/mackay/itprnn/,http://www.inference.org.uk/itprnn_lectures/
课程视频:https://www.bilibili.com/video/BV14b411G7wn?from=search&seid=1786094286746981315,https://www.youtube.com/watch?v=BCiZc0n6COY&list=PLruBu5BI5n4aFpG32iMbdWoRVAA-Vcso6
课程书籍:https://book.douban.com/subject/1893050/
这次回顾第四讲,第四讲介绍了符号码。
备注:笔记参考了中文书籍。
符号码定义总体 $X$ 的(二进制) 符号码 $C$ 是从 $x$ 的取值范围 $\mathscr{H}_{x}=\left\{a_{1}, a_{2}, \cdots, a_{I}\right\}$到$\{0,1\}^{+}$的一个映射。$c(x)$ 表示相对于 $x$ 的码字 $, l(x)$ ...
Information Theory, Inference and Learning Algorithms Lecture 3
课程主页:http://www.inference.org.uk/mackay/itprnn/,http://www.inference.org.uk/itprnn_lectures/
课程视频:https://www.bilibili.com/video/BV14b411G7wn?from=search&seid=1786094286746981315,https://www.youtube.com/watch?v=BCiZc0n6COY&list=PLruBu5BI5n4aFpG32iMbdWoRVAA-Vcso6
课程书籍:https://book.douban.com/subject/1893050/
这次回顾第三讲,第三讲介绍了信源编码定理。
备注:笔记参考了中文书籍。
如何度量随机变量的信息量结果为$x$的香农信息量定义为
h(x)=\log _{2} \frac{1}{P(x)}总体$X$的熵定义为香农信息量的期望
H(X) \equiv \sum_{x \in \mathscr{G}_{X}} P(x) \log \frac{1}{P(x)}下面给 ...
Digital Signal Processing 1 Basic Concepts and Algorithms Week3
课程主页:https://www.coursera.org/learn/dsp1
这一讲介绍了Fourier Analysis: the Basics。
通过改变基向量进行探索数学设置
让我们从有限长度的信号开始(即$ \mathbb {C} ^ {N} $中的向量)
傅立叶分析是对基向量的简单变换
基向量的改变会改观点
改变观点可以揭示事物(如果基向量选的好)
$\mathbb C^N$中的傅里叶基向量$\left\{\mathbf{w}^{(k)}\right\}_{k=0,1}, \ldots, N-1$是$\mathbb C^N$中正交基,其中$\mathbf w_{n}^{(k)}=e^{j \frac{2 \pi}{N} n k}$,也记作$\mathbf w_k[n]$。
证明:
\begin{aligned}
\begin{aligned}
\left\langle\mathbf{w}^{(k)}, \mathbf{w}^{(h)}\right\rangle &=\sum_{n=0}^{N-1}\left(e^{j \frac{2 \pi}{N} n k}\rig ...
CS224N Natural Language Processing with Deep Learning Lecture 18
课程主页:https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/
视频地址:https://www.bilibili.com/video/av46216519?from=search&seid=13229282510647565239
这里回顾CS224N Lecture 18的课程内容,这一讲主要介绍了Tree Recursive Neural Networks以及constituency parsing。
备注:图片均来自课程课件。
语言的语义解释–不只是词向量人们通过较小元素的语义组成来解释较大文本单元(实体,描述性术语,事实,论据,故事)的含义。
语言是递归的吗
在认知上有些争议(会产生长度无限的语言)
但是:递归对于描述语言是很自然的
[The person standing next to [the man from [the company that purchased [the firm that you used to work at]]]]
这是语言结构非常强大的先决条件
例如解析树 ...
CMU 15-213 Intro to Computer Systems Lecture 9
课程主页:http://www.cs.cmu.edu/afs/cs/academic/class/15213-f15/www/schedule.html
课程资料:https://github.com/EugeneLiu/translationCSAPP
课程视频:https://www.bilibili.com/video/av31289365/
这一讲介绍了机器级编程5:高级主题。
内存布局x86-64 Linux内存布局
堆栈
运行时的堆栈(限制为8MB)
例如,局部变量
堆
根据需要动态分配
调用malloc(), calloc(), new()时使用
数据
静态分配的数据
例如,全局变量,静态变量,字符串常量
文本/共享库
可执行机器指令
只读
缓存区溢出回忆:内存引用错误示例typedef struct {
int a[2];
double d;
} struct_t;
double fun(int i) {
volatile struct_t s;
s.d = 3.14;
s.a[i] = 1073 ...
Digital Signal Processing 1 Basic Concepts and Algorithms Week2
课程主页:https://www.coursera.org/learn/dsp1
这一讲介绍了Signal Processing Meets Vector Space。
希尔伯特空间希尔伯特空间的三要素
向量空间:$H(V, \mathbb{C})$
$\forall x,y,z\in V,\alpha, \beta \in \mathbb C$,如下事实成立
\begin{array}{l}
x+y=y+x \\
(x+y)+z=x+(y+z) \\
\alpha(x+y)=\alpha y+\alpha x \\
(\alpha+\beta) x=\alpha x+\beta x \\
\alpha(\beta x)=(\alpha \beta) x \\
\exists 0 \in V \quad | x+0=0+x=x \\
\forall x \in V, \exists(-x) \quad | \quad x+(-x)=0
\end{array}
内积:$\langle\cdot, \cdot\rangle: V \times V \rightarrow \math ...
CMU 15-213 Lab2 Bomb Lab
课程主页:http://www.cs.cmu.edu/afs/cs/academic/class/15213-f15/www/schedule.html
课程资料:https://github.com/EugeneLiu/translationCSAPP
课程视频:https://www.bilibili.com/video/av31289365/
这一部分回顾CSAPP的Bomb Lab。
x86-64参考资料:
https://web.stanford.edu/class/archive/cs/cs107/cs107.1166/guide_x86-64.html
https://cs.brown.edu/courses/cs033/docs/guides/x64_cheatsheet.pdf
首先进行利用反汇编命令得到方便阅读的代码:
objdump -d bomb
phase_10000000000400ee0 <phase_1>:
400ee0: 48 83 ec 08 sub $0x8,%rsp
400ee4: be 00 24 ...
CMU 15-213 Intro to Computer Systems Lecture 8
课程主页:http://www.cs.cmu.edu/afs/cs/academic/class/15213-f15/www/schedule.html
课程资料:https://github.com/EugeneLiu/translationCSAPP
课程视频:https://www.bilibili.com/video/av31289365/
这一讲介绍了机器级编程4:数据。
数组
基本原则
T A [L];
上述声明表示数据类型为T,长度为L的数组
内存中是L*sizeof(T)个字节的连续分配区域
数组读取的例子#define ZLEN 5
typedef int zip_dig[ZLEN];
zip_dig cmu = { 1, 5, 2, 1, 3 };
zip_dig mit = { 0, 2, 1, 3, 9 };
zip_dig ucb = { 9, 4, 7, 2, 0 };
int get_digit(zip_dig z, int digit)
{
return z[digit] ...
CMU 15-213 Intro to Computer Systems Lecture 7
课程主页:http://www.cs.cmu.edu/afs/cs/academic/class/15213-f15/www/schedule.html
课程资料:https://github.com/EugeneLiu/translationCSAPP
课程视频:https://www.bilibili.com/video/av31289365/
这一讲介绍了机器级编程3:过程。
栈结构x86-64栈
通过栈规范管理内存区域
栈顶在低地址
寄存器%rsp为最小的堆栈地址
即“顶部”元素的地址
Push
pushq Src
将%rsp减少8
在给定的地址%rsp处写入操作数
Pop
popq Dest
在%rsp指定的地址处读取值
将%rsp增加8
将值存储在Dest(必须是寄存器)
调用约定传递控制例子考虑如下代码
void multstore
(long x, long y, long *dest) {
long t = mult2(x, y);
*dest = t;
}
0000000000400540 <multst ...
Information Theory, Inference and Learning Algorithms Lecture 2
课程主页:http://www.inference.org.uk/mackay/itprnn/,http://www.inference.org.uk/itprnn_lectures/
课程视频:https://www.bilibili.com/video/BV14b411G7wn?from=search&seid=1786094286746981315,https://www.youtube.com/watch?v=BCiZc0n6COY&list=PLruBu5BI5n4aFpG32iMbdWoRVAA-Vcso6
课程书籍:https://book.douban.com/subject/1893050/
这次回顾第二讲,第二讲介绍了熵的概念。
备注:笔记参考了中文书籍。
熵和相关函数的定义结果为$x$的香农信息量定义为
h(x)=\log _{2} \frac{1}{P(x)}总体$X$的熵定义为香农信息量的期望
H(X) \equiv \sum_{x \in \mathscr{G}_{X}} P(x) \log \frac{1}{P(x)}方便起见,也将$ ...
Information Theory, Inference and Learning Algorithms Lecture 1
课程主页:http://www.inference.org.uk/mackay/itprnn/,http://www.inference.org.uk/itprnn_lectures/
课程视频:https://www.bilibili.com/video/BV14b411G7wn?from=search&seid=1786094286746981315,https://www.youtube.com/watch?v=BCiZc0n6COY&list=PLruBu5BI5n4aFpG32iMbdWoRVAA-Vcso6
课程书籍:https://book.douban.com/subject/1893050/
最近开始补充信息论的知识,选择了David J.C. MacKay老师的课程以及书籍。
这次回顾第一讲,第一讲介绍了信息论导论。
备注:笔记参考了中文书籍。
如何在非理想的噪声信道上实现理想的通信信息专递在信道上发送数据(比特串),有一定概率接受到的消息不同于被发送的消息,考虑二进制对称信道:
解决方法为了解决上述问题,可以设计一个系统,该系统中涉及编码解码: ...
CS224N Natural Language Processing with Deep Learning Lecture 17
课程主页:https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/
视频地址:https://www.bilibili.com/video/av46216519?from=search&seid=13229282510647565239
这里回顾CS224N Lecture 17的课程内容,这一讲主要介绍了Multitask Learning。
备注:图片均来自课程课件。
The Limits of Single-task Learning
当前的NLP模型都是针对单任务的,即对于特点的任务有特定的网络结构。
借助{数据集,任务,模型,指标},近年来的性能有了很大的提高。
只要数据集数量够多,就可以产生局部最优的效果。
对于更通用的AI,我们需要在单个模型中进行持续学习。
模型通常从随机模型开始或仅经过部分预训练。
Why a unified multi-task model for NLP?为什么要让NLP使用统一的多任务模型?
多任务学习是常规NLP系统的障碍
统一的模型可以决定如何转移知识(领域适应, ...