这一周主要介绍了Autoencoder,NLP以及GAN。

Autoencoder

Autoencoders主要是将高维数据压缩,分为encode以及decode两个部分,如下图所示:

比较常用的就是PCA。

Deep autoencoder

如果用更多层网络来训练的话,可以得到Deep autoencoder:

这里老师总结了需要autoencoder的原因:

  • 压缩数据
  • 降维
  • 学习一些特征
  • Unsupervised pretraining
  • 产生新数据

Natural language processing

这一部分介绍了自然语言处理的基本概念。

Primer

文本数据以下三部分组成:

  • Text:
    • A sequence of tokens(words).
  • Token/word:
    • A sequence of characters.
  • Character:
    • An atomic element of text. ¯_(ツ)_/¯

来看一个具体例子:

Bag of Words(BoW)

文本处理的关键是把word转化为向量,方法叫做Bag of words:

Text classification

文本分类的方法主要是比较word是否相同,使用Bow+linear的方法:

Word embeddings : word2vec

处理NLP的一个假设是类似的内容有类似的含义,结构如下:

来看下具体方法:

这一部分老师只是轻描淡写的总结了一下,没有具体介绍。

Generative Adversatial Networks(GAN)

生成模型产生的数据结果需要另一个模型来判别,这就引出了GAN:

来看下具体结构:

具体算法如下: