3.1 ReLU Nonlinearity
使用relu作为激活函数要比sigmoid和tanh(双曲正切)函数收敛的快

3.3 局部响应归一化
对局部神经元的活动创建竞争机制,使响应大的变得更大,并抑制其他反馈较小的神经元,可以降低top1 top5的错误率

3.4 重叠池化
池化的边界相互重叠,可以降低过拟合的情况

4 减少过拟合的两种方法:Data Augmentation和Dropout
4.1 Data Aug
(1)使用卷积和抽取图片,可以增加处理图片的数量,获取更多特征
(2)改变训练图片RGB的通道强度,需要使用RGB像素值得协方差矩阵

4.2 Dropout
每一次输入会随机放弃隐藏层节点,使其输出为0,以减小网络,所以每一次输入后的网络结构都不同,所有结构共享权重矩阵

卷积层(Convolutional layer),卷积神经网路中每层卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算的目的是提取输入的不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网络能从低级特征中迭代提取更复杂的特征。

线性整流层(Rectified Linear Units layer, ReLU layer),这一层神经的活性化函数(Activation function)使用线性整流(Rectified Linear Units, ReLU)f(x)=max(0,x)f(x)=max(0,x)。

池化层(Pooling layer),通常在卷积层之后会得到维度很大的特征,将特征切成几个区域,取其最大值或平均值,得到新的、维度较小的特征。

全连接层( Fully-Connected layer), 把所有局部特征结合变成全局特征,用来计算最后每一类的得分。

Top-1 = (正确标记 与 模型输出的最佳标记不同的样本数)/ 总样本数;
Top-5 = (正确标记 不在 模型输出的前5个最佳标记中的样本数)/ 总样本数;