CS224N Natural Language Processing with Deep Learning Lecture 14
课程主页:https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/
视频地址:https://www.bilibili.com/video/av46216519?from=search&seid=13229282510647565239
这里回顾CS224N Lecture 14的课程内容,这一讲主要介绍了attention和transformer。
备注:图片均来自课程课件。
Self-Similarity, Image and Music Generation
图像,音乐中有很多自相似性:
Image
Probabilistic Image Generation
- 模拟像素的联合分布,把它变成一个序列建模问题,通过概率可以衡量泛化性。
- RNN和CNN是概率图像生成的最新技术(PixelRNN,PixelCNN),包含门控的CNN现在在质量上与RNN相匹配,并且由于并行化,CNN更快
- 远程依赖关系对图像很重要(例如对称性),并且随着图像尺寸的增加,可能越来越重要。
- 使用CNN建模远程依赖关系需要多层结构,或者更大的kernel;前者可能会使训练更加困难,后者的参数/计算成本高。
The Image Transformer
Music
Raw representations in music and language
下面比较下注意力机制和卷积的区别:
Attention: a weighted average
Convolution: Different linear transformations by relative position.
Relative attention
Relative attention将卷积和注意力机制结合,既考虑全局信息也考虑相对位置信息:
利用一定的方法可以减少空间复杂度(参考资料):
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Doraemonzzz!
评论
ValineLivere