Deep Learning for Human Language Processing Part 6(P12 to P13)
课程主页:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html
视频地址:https://www.bilibili.com/video/BV1RE411g7rQ?p=1
参考资料:https://blog.csdn.net/qq_44574333/category_10304412_2.html
备注:图片均来自于课件。
这次回顾P12至P13,这部分介绍了语音分离问题。
语音分离(Speech Separation)例子:
鸡尾酒效应
鸡尾酒效应是指,在嘈杂的环境中,人类可以专注于单个语者发出的声音,语音分离的目标是让机器做到这点。
具体来说,语者分离问题可以分为两类:
语音增强:语音,非语音分离(降噪)。
语者分离:多人说话的场景。
这部分主要介绍语者分离。
语者分离这部分只讨论特殊语者分离问题:
假设输入和输出的长度相同。
专注于两位语者。
专注于单个麦克风。
语者独立:训练和测试的语者完全不同。
图示:
数据收集这部分成对的数据很容易收集,只要将两个语者的声音叠加即可:
评估方法这部分介绍语者分离问题的 ...
计算机程序的构造和解释(SICP) 第3章 习题解析 Part1
这次回顾第三章第一部分习题。
学习资料:
https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-001-structure-and-interpretation-of-computer-programs-spring-2005/index.htm
https://github.com/DeathKing/Learning-SICP
https://mitpress.mit.edu/sites/default/files/sicp/index.html
https://www.bilibili.com/video/BV1Xx41117tr?from=search&seid=14983483066585274454
参考资料:
https://sicp.readthedocs.io/en/latest
http://community.schemewiki.org/?SICP-Solutions
http://community.schemewiki.org/?sicp
3.1(p154 ...
Deep Learning for Human Language Processing Part 5(P10 to P11)
课程主页:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html
视频地址:https://www.bilibili.com/video/BV1RE411g7rQ?p=1
参考资料:https://blog.csdn.net/qq_44574333/category_10304412_2.html
备注:图片均来自于课件。
这次回顾P10至P11,这部分介绍了语音转换问题。
语音转换简介语音转换模式如下:
输入:语音
输出:语音
目标:
保留内容信息。
改变其他的信息。
说话者。
说话风格。
增加可理解性。
数据增强。
改变的信息说话者
不同的人说的同一句话有不同的效果。
Deep Fake:欺骗人/语音验证系统。
实现个性化TTS(语音合成系统,即转换成任何人的声音)的一种简单方法。
歌声转换。
说话风格
情感。
普通到Lombard。
Lombard的介绍可以参考视频。
悄悄话转换到正常声音。
歌唱技巧转换。
增加可理解性
改善语音清晰度。
口音转换。
非母语使用者的语音质量和母语使用者的发音模式。
...
计算机程序的构造和解释(SICP) 第2章 习题解析 Part7
这次回顾第二章第七部分习题,习题真的越来越难,确实有点力不从心,本章剩余的习题会慢慢更新,后续会先学习第三章。
学习资料:
https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-001-structure-and-interpretation-of-computer-programs-spring-2005/index.htm
https://github.com/DeathKing/Learning-SICP
https://mitpress.mit.edu/sites/default/files/sicp/index.html
https://www.bilibili.com/video/BV1Xx41117tr?from=search&seid=14983483066585274454
参考资料:
https://sicp.readthedocs.io/en/latest
http://community.schemewiki.org/?SICP-Solutions
http:/ ...
Deep Learning for Human Language Processing Part 4(P9)
课程主页:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html
视频地址:https://www.bilibili.com/video/BV1RE411g7rQ?p=1
参考资料:https://blog.csdn.net/qq_44574333/category_10304412_2.html
备注:图片均来自于课件。
这次回顾P9,这部分介绍了语音识别中的语言模型。
语音识别中的语言模型这部分介绍为什么要在语音识别中增加语言模型。
语言模型引子语言模型估计token序列$Y=y_1,y_2,\ldots, y_n$的概率$P\left(y_{1}, y_{2}, \ldots \ldots, y_{n}\right)$。
过去需要语言模型是因为HMM的解码过程为:
{Y}^{\star}=\arg \max _ P(X \mid {Y}) P({Y})现在Seq2Seq模型的解码过程为:
{Y}^{\star}=\arg \max _ P(Y \mid {X})但是实际中,一般使用如下方法:
{Y}^{\star} ...
Deep Learning for Human Language Processing Part 3(P6 to P8)
课程主页:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html
视频地址:https://www.bilibili.com/video/BV1RE411g7rQ?p=1
参考资料:https://blog.csdn.net/qq_44574333/category_10304412_2.html
备注:图片均来自于课件。
这次回顾P6至P8,这部分介绍了语音识别的传统方法,由此引出端到端方法的训练方式。
语音识别(Speech Recognition)这次紧接上次的内容,主要介绍语音识别的HMM视角。
引子过去是用基于统计的模型求解语音识别问题:
该过程称为Decode,具体如下:
\begin{aligned}
Y^{\star}&=\arg \max _{Y} P(Y | X)\\
&= \arg \max _{ {Y} } \frac{P(X | {Y}) P({Y})}{P(X)} \\
&=\arg \max _{ {Y} } P(X | {Y}) P({Y})
\end{aligned}该问题实际上是很困难的 ...
算法概论(DPV)第2章 分治算法 总结
书籍介绍:
https://book.douban.com/subject/3155710/
配套课程:
CS170(伯克利),CS161(斯坦福)
github仓库:
https://github.com/Doraemonzzz/Algorithm-DPV
备注:图片来自于电子书中。
之前只回顾了课程习题,后续也会回顾每章重点内容,部分已经整理过的部分会给出链接,这次回顾第2章——分治算法。
第2章——分治算法主定理如果
T(n) \le aT\left(\frac n b \right) + O(n^d)那么
T(n)=\begin{cases}
O(n^d), &ab^d
\end{cases}笔记:
https://doraemonzzz.com/2018/09/21/%E6%96%AF%E5%9D%A6%E7%A6%8F%E7%AE%97%E6%B3%95%E4%B8%93%E9%A1%B9%E8%AF%BE%E7%A8%8BCourse1%20week2%E5%86%85%E5%AE%B9%E5%9B%9E%E9%A1%BE/#toc-heading-5
乘法(Ka ...
深入理解计算机系统 第1章 笔记整理
这次回顾深入理解计算机系统第1章 ,这一章介绍了书籍主要内容。
电子书地址:
http://eol.bnuz.edu.cn/meol/common/script/preview/download_preview.jsp?fileid=2169600&resid=242120&lid=28605
参考资料:
https://baike.baidu.com/item/%E7%BA%BF%E7%A8%8B/103101?fr=aladdin
备注:图片均来自于电子书。
第1章 计算机系统漫游考虑hello.c程序:
#include <stdio.h>
int main()
{
printf("hello, world\n");
return 0;
}
本章解释了当该程序被执行时,系统发生了什么,并以此串起了本书的内容。
信息该程序由字符构成,计算机中利用ASCII码编码字符,实际上计算机中信息都是以二进制序列表示,但是同样的二进制序列,在不同的上下文中有不同的解释,例如相同的二进制序列可以被解释为整型数以及浮点数等等。
一些概念
文本文 ...
Deep Learning for Human Language Processing Part 2(P3 to P5)
课程主页:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html
视频地址:https://www.bilibili.com/video/BV1RE411g7rQ?p=1
参考资料:https://blog.csdn.net/qq_44574333/category_10304412_2.html
备注:图片均来自于课件。
由于工作的原因不得不重拾这门课,这次回顾P3至P5,这部分介绍了语音识别的基本概念,输入输出以和各种Seq2seq模型。
语音识别(Speech Recognition)语音识别是指将语音转换成文本的过程,其模式如下图所示:
输入:语音——向量序列(长度$T$,维度$d$)。
输出:文本——token序列(长度$N$,$V$个不同的token),通常$T> N$。
一些应用:
语音识别有两种视角,第一种视角是将语音识别看成Seq-to-seq问题,第二种是利用传统的HMM视角:
这部分将介绍Seq-to-seq视角的模型,首先介绍一些基本知识。
输入声学特征利用滑动窗口的思想,构建一定长度的 ...
具体数学习题解答——第1章 递归问题 Part1
书籍介绍:
https://book.douban.com/subject/21323941/
github仓库:
https://github.com/Doraemonzzz/Concrete-Mathematics
记录具体数学一书中的习题解答,题目又多又难,所以计划是分为几轮完成,第一轮完成热身题,作业题以及考试题,第二轮再解决其余部分的习题。
这次回顾第一章,递归问题。
第1章 递归问题热身题1错在base case,$n=2$时:
\begin{aligned}
1 : n -1&= 1:1\\
2: n&= 2 :2
\end{aligned}两个区间没有交集,所以无法使用上述证明。
2移动过程:
步骤
$A$
$B$
$C$
$0$
$[1,\ldots, n]$
空
空
$1$
$[n]$
$[1,\ldots, n-1]$
空
$2$
空
$[1,\ldots, n-1]$
$[n]$
$3$
$[1,\ldots, n-1]$
空
$[n]$
$4$
$[1,\ldots, n-1]$
$[n]$
空
$5$
空
$[1,\l ...
计算机程序的构造和解释(SICP) 第2章 习题解析 Part6
这次回顾第二章第六部分习题。
学习资料:
https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-001-structure-and-interpretation-of-computer-programs-spring-2005/index.htm
https://github.com/DeathKing/Learning-SICP
https://mitpress.mit.edu/sites/default/files/sicp/index.html
https://www.bilibili.com/video/BV1Xx41117tr?from=search&seid=14983483066585274454
参考资料:
https://sicp.readthedocs.io/en/latest
2.73(p125)(a)
判断是否是数字。
判断exp是否和var相同。
根据(operator exp)判断deriv的类型,然后调用对应的求导函数。
number?, variab ...
Hexo Matery问题汇总
这几天将next主题换成了matery主题,中间碰到不少问题,这里把解决方法和遗留问题分别记录下来。
参考资料:
https://www.jianshu.com/p/98ac1e253e6e
https://www.cnblogs.com/baby123/p/10753728.html
https://blog.tcs-y.com/2018/12/24/hexo-local-search-not-proper-utf-8/
https://blog.csdn.net/weixin_43958049/article/details/99742737
https://www.githang.com/2019/05/30/hexo-article-reading-statistics-based-on-leancloud/
http://crescentmoon.info/2014/12/11/popular-widget/
https://zhangjh.me/2016/04/12/hexo-visit-analytics-md/
https://github.com/blinkfox/ ...