Doraemonzzz

18.065 Lecture 4

发表于2019-05-27|更新于2021-02-21|数学|Matrix Methods in Data Analysis Signal Processing and Machine Learning|字数总计: 1k|阅读时长: 5分钟| 条评论

课程主页：https://ocw.mit.edu/courses/mathematics/18-065-matrix-methods-in-data-analysis-signal-processing-and-machine-learning-spring-2018/index.htm 这一讲的主题是Eigenvalues and Eigenvectors。假设$A\in \mathbb R^{n\times n}$，后续讨论中都假设$A$有$n$个线性无关的特征向量。基本内容矩阵的特征值满足 Ax_i =\lambda_i x_i ,i=1,\ldots, n那么不难得到 \begin{aligned} A^kx_i & =\lambda_i^k x_i\\ A^{-1} x& =\frac 1 \lambda_i x_i &&如果A可逆 \end{aligned}对于一般的向量$v$，$v$可以表示为 v=\sum_{i=1}^n c_i x_i那么 A^{k}v = \sum_{i=1}^n c_i \lambda_i^k x_i如果记 v_k = \sum_ ...

18.065 Lecture 2

发表于2019-05-27|更新于2021-02-21|数学|Matrix Methods in Data Analysis Signal Processing and Machine Learning|字数总计: 424|阅读时长: 2分钟| 条评论

课程主页：https://ocw.mit.edu/courses/mathematics/18-065-matrix-methods-in-data-analysis-signal-processing-and-machine-learning-spring-2018/index.htm 这一讲的主题是Multiplying and Factoring Matrices 。矩阵分解考虑如下几种矩阵分解： $A: LU\to $高斯消元法 $A:QR\to$Gram-Schmidt 对称矩阵$S:Q\Lambda Q^T=\left[ \begin{matrix} q_1 &\ldots & q_n \end{matrix} \right] \left[ \begin{matrix} \lambda_1 & & \\ & \ddots & \\ && \lambda_n \end{matrix} \right] \left[ \begin{matrix} q_1^T\\ \vdots \\ q_ ...

18.065 Lecture 3

发表于2019-05-27|更新于2021-02-21|数学|Matrix Methods in Data Analysis Signal Processing and Machine Learning|字数总计: 711|阅读时长: 3分钟| 条评论

课程主页：https://ocw.mit.edu/courses/mathematics/18-065-matrix-methods-in-data-analysis-signal-processing-and-machine-learning-spring-2018/index.htm 这一讲的主题是Orthonormal Columns in $Q$ Give $Q^TQ=I$。正交我们称向量组$Q= \left[ \begin{matrix}q_1 &\ldots & q_n \end{matrix} \right] $正交，如果 Q^TQ=I如果$Q$是方阵，那么同样有 QQ^T=I这时候称$Q$是正交矩阵，上述等式的矩阵形式如下： \left[ \begin{matrix} q_1^T\\ \vdots \\ q_n^T\\ \end{matrix} \right]\left[ \begin{matrix} q_1 &\ldots & q_n \end{matrix} \right] = \left[ \b ...

18.065 Lecture 1

发表于2019-05-27|更新于2021-02-21|数学|Matrix Methods in Data Analysis Signal Processing and Machine Learning|字数总计: 964|阅读时长: 4分钟| 条评论

课程主页：https://ocw.mit.edu/courses/mathematics/18-065-matrix-methods-in-data-analysis-signal-processing-and-machine-learning-spring-2018/index.htm 之前在Gilbert Strang教授的主页上注意到新课Matrix Methods in Data Analysis, Signal Processing, and Machine Learning，上周终于上线了，最近计划暑假前把这门课刷完，记录一些笔记和习题解析。这一讲的主题是The Column Space of $A$ Contains All Vectors $Ax$。例1首先回顾$Ax$的解释，其中$A$是矩阵，$x$是向量，考虑如下例子： Ax = \left[ \begin{matrix} 2 & 1 &3 \\ 3 & 1 & 4 \\ 5 & 7 & 12 \end{matrix} \right]\left[ \begin{matrix} x_1\\ x_2\ ...

EE263 Homework 3

发表于2019-05-26|更新于2019-05-26|数学|EE263|字数总计: 2.6k|阅读时长: 14分钟| 条评论

课程主页：https://see.stanford.edu/Course/EE263 这次回顾EE263作业3。 2.17(a)因为 f(x)=\sum_{i=1}^n a_i x_i +b所以 \frac{\partial f}{\partial x_k} =a_k因此 \begin{aligned} \nabla f(x)&=\left[ \begin{matrix}{\frac{\partial f}{\partial x_{1}}} \\ {\vdots} \\ {\frac{\partial f}{\partial x_{n}}}\end{matrix}\right]\\ &=\left[ \begin{matrix} a_1 \\ {\vdots} \\ a_n \end{matrix}\right]\\ &=a \end{aligned}(b)因为 f(x)=\sum_{i=1}^n\sum_{j=1}^n x_i a_{ij} x_j所以 \frac{\partial f}{\partial x_k}=\sum_{j=1}^n a_{kj} x_j + ...

EE263 Lecture 6 Least-squares applications

发表于2019-05-26|更新于2019-05-29|数学|EE263|字数总计: 1.2k|阅读时长: 5分钟| 条评论

课程主页：https://see.stanford.edu/Course/EE263 这次回顾第六讲，这一讲介绍最小二乘法以及其应用。几何解释$A x_{\text{ls}}$是$\mathcal{R}(A)$中最接近$y$的点（$A x_{\text{ls}}$是$y$在$\mathcal{R}(A)$上的投影）：最小二乘（近似）求解假设$A$是满秩，瘦矩阵为了找到$x_{\text{ls}}$，我们将最小化残差的平方， \|r\|^{2}=x^{T} A^{T} A x-2 y^{T} A x+y^{T} y 令关于$x$的梯度为$0$得到： \nabla_{x}\|r\|^{2}=2 A^{T} A x-2 A^{T} y=0 这产生正规方程： A^{T} A x=A^{T} y 假设$A^TA$可逆，那么我们有 x_{\text{ls}}=\left(A^{T} A\right)^{-1} A^{T} y 从上式不难看出$x_{\text{ls}}$是$y$的线性函数如果$A$是方阵并且可逆，那么 x_{\text{ls}}=\left( ...

一道有趣的期望题

发表于2019-05-23|更新于2020-09-06|数学|有趣的算法和数学|字数总计: 295|阅读时长: 1分钟| 条评论

记录一道有趣的期望题，是一道构造性的问题，题目来自Mit公开课Session 33。问题$R$是取正整数的随机变量，如果$\mathbb E[R]=2$，那么$\text{Var}[R]$最多能多少？这题我的第一反应是正无穷，但是一开始没构造出来，后来查阅资料也没有相关例子，最后思考了一个多小时才构造出例子，这里记录下思路。构造如下： \begin{aligned} \mathbb P[R=i] &=\frac 4 {i(i+1)(i+2)} ,i \in \mathbb N \end{aligned}下面分别验证条件： \begin{aligned} \sum_{i=1}^\infty \mathbb P[R=i] &=\sum_{i=1}^\infty \frac 4 {i(i+1)(i+2)}\\ &= 2\sum_{i=1}^\infty \left(\frac{1}{i(i+1)} - \frac {1}{(i+1)(i+2)}\right) \\ &=2 \sum_{i=1}^\infty \left(\frac{1}{i(i+1)} - \frac {1}{( ...

EE263 Lecture 5 Least-squares

发表于2019-05-23|更新于2019-05-24|数学|EE263|字数总计: 2.8k|阅读时长: 13分钟| 条评论

课程主页：https://see.stanford.edu/Course/EE263 这次回顾第五讲，这一讲介绍了正交以及最小二乘法。几何性质假设$U=\left[ \begin{array}{lll}{u_{1}} & {\cdots} & {u_{k}}\end{array}\right]$正交，如果$w=Uz$，那么$|w|=|z|$，这说明乘以$U$不改变范数 $w=Uz$是保距的：保持距离不变性质的证明： \|w\|^{2}=\|U z\|^{2}=(U z)^{T}(U z)=z^{T} U^{T} U z=z^{T} z=\|z\|^{2} 内积同样保持不变：$\langle U z, U \tilde{z}\rangle=\langle z, \tilde{z}\rangle$ 如果$w=Uz,\tilde{w}=U \tilde{z}$，那么 \langle w, \tilde{w}\rangle=\langle U z, U \tilde{z}\rangle=(U z)^{T}(U \tilde{z})=z^{T} U^{T} ...

From Nand to Tetris week 6

发表于2019-05-23|更新于2019-09-29|计算机原理|From Nand to Tetris|字数总计: 1.1k|阅读时长: 6分钟| 条评论

这次回顾第六章的内容，这一章介绍了如何编写汇编编译器。课程官网： https://www.nand2tetris.org/ 视频地址： https://www.coursera.org/learn/build-a-computer Part 1：课程回顾这部分从略，主题内容在Project部分。 Part 2：项目该项目我使用的语言是Python，只要按照提示实现每个接口即可。 CodeCode将C指令翻译为2进制字符，接口如下：根据课件29叶的对应关系进行替换即可： class Code(): def __init__(self): pass def dest(self, mnemonic): res = "" if mnemonic == "M": res = "001" elif mnemonic == "D": res = "010" elif mnemonic == "MD": res = " ...

EE263 Homework 2

发表于2019-05-23|更新于2019-05-23|数学|EE263|字数总计: 2.2k|阅读时长: 11分钟| 条评论

课程主页：https://see.stanford.edu/Course/EE263 这次回顾EE263作业2。 3.2(a)令 A=\left[ \begin{array}{lllll}{l_{1}} & {l_{2}} & {l_{3}} & {\cdots} & {l_{20}} \\ {m_{1}} & {m_{2}} & {m_{3}} & {\cdots} & {m_{20}} \\ {s_{1}} & {s_{2}} & {s_{3}} & {\cdots} & {s_{20}}\end{array}\right]如果$p,\tilde p$无法识别，那么 \begin{aligned} Ap &=A\tilde p\\ A(p-\tilde p) & =0 \end{aligned}即$p-\tilde p \in \mathcal N(A)$。 (b)题目的含义是问，是否存在非负系数$a_1,a_2,a_3$，使得 Ap_{\text{test}} = A p_{\text{match}}=A\left[ \begin{array}{lll}{u} & { ...

EE263 Lecture 4 Orthonormal sets of vectors and QR factorization

发表于2019-05-20|更新于2019-05-22|数学|EE263|字数总计: 2.2k|阅读时长: 9分钟| 条评论

课程主页：https://see.stanford.edu/Course/EE263 这次回顾第四讲，这一讲继续复习线性代数，然后介绍了正交的概念。矩阵的零空间$A\in \mathbb R^{m\times n}$的零空间定义为 \mathcal{N}(A)=\left\{x \in \mathbb{R}^{n} | A x=0\right\} $\mathcal N(A)$是通过$y=Ax$映射到零向量的向量 $\mathcal N(A) $是和$A$的所有行向量都正交的向量的集合如果$y=Ax,z\in \mathcal N(A)$，那么$y=A(x+z)$ 相反，如果$y=Ax, y=\tilde A x$，那么存在某个$z\in \mathcal N(A)$，使得$\tilde x = x+z$ zero零空间$A$称为一对一如果$\mathcal N(A) = \{0\}$，这等价于： $x$可以由$y=Ax$唯一决定（即，线性变换$y=Ax$不损失信息。）从$x$到$Ax$的映射是一对一的：不同的$x$映射到不同的$y$ $A$的列向量线性无关 $A$存在 ...

一道有趣的概率题

发表于2019-05-20|更新于2021-07-08|数学|有趣的算法和数学|字数总计: 423|阅读时长: 2分钟| 条评论

记录一道有趣的概率题，题目来自Mit公开课Session 29。问题假设投一枚均匀的硬币，用H表示正面，T表示反面。现在不停地投硬币直至看到HTT或HHT，问先看到HHT的概率？这题乍一看还是挺难的，后来查阅了网上的资料才有思路，主要是运用条件概率，还有很多类似的问题也可以同样处理。参考资料： https://dicedcoins.wordpress.com/2012/07/19/flip-hhh-before-htt/ 定义HHT出现在HTT之前的事件为$A$，那么 \begin{aligned} \mathbb P[A] &=\mathbb P[A|H]\mathbb P[H]+ \mathbb P[A|T]\mathbb P[T]\\ &=\frac 1 2 \mathbb P[A|H] +\frac 1 2 \mathbb P[A] \end{aligned}所以 \mathbb P[A] =\mathbb P[A|H]另一方面 \begin{aligned} \mathbb P[A|H] &=\mathbb P[A|HH] \mathbb P[H]+\math ...