TensorFlow基本知识小结

在学习Coursera上MOOC时用到了TensorFlow,之前对这个内容不是很熟悉,这里稍微总结一些基本概念及其使用。

其实之前也看过TensorFlow,但是不是很理解其运作过程,直到MOOC中讲到计算图的时候总算是理解了,先看一个计算图:

我对TensorFlow的理解是TensorFlow先给出计算图的架构(tf.placeholder),将要计算的参数定义为变量(tf.get_variable),然后定义损失函数以及训练方法,注意这些步骤并没有涉及到实际运算,只是把上述计算图及一些相关量搭建好,等这个步骤完成之后,我们再喂入数据进行训练即可,具体流程如下:

来看一个例子,该例子来自于Coursera上Introduction to Deep Learning第二周的内容,这个例子是有关MNIST数据集手写数字识别,这里只给出部分重要的代码。

1
2
3
4
5
6
7
s = tf.InteractiveSession()
D = 784
### YOUR CODE HERE ### tf.placeholder(...) for flat X with shape[0] = None for any batch size
input_X = tf.placeholder(tf.float32, shape=(None, D))

### YOUR CODE HERE ### tf.placeholder(...) for one-hot encoded true labels
input_y = tf.placeholder(tf.float32, shape=(None, 10))

input_X是输入,input_y是输出,这部分使用的代码是tf.placeholder,shape参数给出了数据的维度,tf.float32给出了数据类型,这段代码相当于画出了计算图的输入和输出节点。

接着看参数部分:

1
2
3
4
### YOUR CODE HERE ### tf.get_variable(...) with shape[0] = 784
W = tf.get_variable("W", shape=(D, 10), dtype=tf.float32)
### YOUR CODE HERE ### tf.get_variable(...)
b = tf.get_variable("b", shape=(1, 10), dtype=tf.float32)

因为W,b是参数,所以这部分使用的代码是tf.get_variable,”W”,”b”表示参数的名字,shape表示参数的维度,dtype表示数据类型。

接下来看前向传播:

1
2
3
4
5
6
### YOUR CODE HERE ### logits for input_X, resulting shape should be [input_X.shape[0], 10]
logits = input_X @ W + b
### YOUR CODE HERE ### apply tf.nn.softmax to logits
probas = tf.nn.softmax(logits)
### YOUR CODE HERE ### apply tf.argmax to find a class index with highest probability
classes = tf.argmax(probas, axis = 1)

第一个代码是给出了计算式,给出了计算图中输入层和输出层的关系,我们对计算出的结果使用激活函数tf.nn.softmax得到概率,tf.argmax(probas, axis = 1)的意思是找到概率最大的分类。

最后看反向传播:

1
2
3
4
5
6
### YOUR CODE HERE ### cross-entropy loss
loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=input_y, logits=logits))

# Use a default tf.train.AdamOptimizer to get an SGD step
### YOUR CODE HERE ### optimizer step that minimizes the loss
step = tf.train.AdamOptimizer().minimize(loss)

这步定义了损失函数loss以及训练步骤step。

上述几步定义了整个计算图,最终训练数据使用的代码如下:

1
s.run([step, loss], {input_X: data1, input_y: data2})

上述例子是单层的,再来看个多层的例子,如果自己一层一层定义每层,那么容易出错,还好TensorFlow给出了tf.layers.dense函数,来看一下:

1
2
3
4
5
6
7
8
9
10
11
12
input_X = tf.placeholder(tf.float32, shape=(None, D))
input_y = tf.placeholder(tf.float32, shape=(None, 10))

hidden1 = tf.layers.dense(input_X, 256, activation=tf.nn.sigmoid)
hidden2 = tf.layers.dense(hidden1, 256, activation=tf.nn.sigmoid)
logits = tf.layers.dense(hidden2, 10, activation=None)

#结果
probas = tf.nn.softmax(logits)
classes = tf.argmax(probas, axis = 1)
loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=input_y, logits=logits))
step = tf.train.AdamOptimizer().minimize(loss)

tf.layers.dense(input_X, 256, activation=tf.nn.sigmoid)的第一个参数为为输入层,第二个参数为输出层的节点个数,第三个参数为激活函数,可以看到,用上述方式可以很方便地搭建出计算图进行计算。