课程主页:https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/

视频地址:https://www.bilibili.com/video/av46216519?from=search&seid=13229282510647565239

这里回顾CS224N Lecture 14的课程内容,这一讲主要介绍了attention和transformer。

备注:图片均来自课程课件。

Self-Similarity, Image and Music Generation

图像,音乐中有很多自相似性:

Image

Probabilistic Image Generation

  • 模拟像素的联合分布,把它变成一个序列建模问题,通过概率可以衡量泛化性。
  • RNN和CNN是概率图像生成的最新技术(PixelRNN,PixelCNN),包含门控的CNN现在在质量上与RNN相匹配,并且由于并行化,CNN更快
  • 远程依赖关系对图像很重要(例如对称性),并且随着图像尺寸的增加,可能越来越重要。
  • 使用CNN建模远程依赖关系需要多层结构,或者更大的kernel;前者可能会使训练更加困难,后者的参数/计算成本高。

The Image Transformer

Music

Raw representations in music and language

下面比较下注意力机制和卷积的区别:

Attention: a weighted average

Convolution: Different linear transformations by relative position.

Relative attention

Relative attention将卷积和注意力机制结合,既考虑全局信息也考虑相对位置信息:

利用一定的方法可以减少空间复杂度(参考资料):