图像分类 & CNN¶

约 980 个字 8 张图片预计阅读时间 4 分钟

词袋法（Bag-of-word）¶

一个图像中的单词（word）被定义为一个图像块中的特征向量（如 SIFT 特征描述），图像的 BoW 模型即对图像中所有图像块的特征向量进行统计得到的直方图。

基本步骤：

老生常谈的内容了，这里就随便记点可能和考试有关的东西🥲

CNN，即卷积神经网络（Convolutional Neural Network），主要由卷积层、池化层、全连接层构成。

卷积层和池化层的作用是提取图像特征，全连接层的作用是进行分类。

使用 CNN 进行图像分类

设输入图像大小为 N×N，卷积核大小为 K×K，步长为 s，填充为 p，则输出特征图大小为： $$ M = \frac{N - K + 2p}{s} + 1 $$

每个神经元（卷积核）的参数数量为 $K^2+1$（还要加上一个 bias）
如果使用了 $C$ 个卷积核，那么输出图像的通道数为 $C$，参数总数为 $C \times (K^2 + 1)$。
如果输入图像有多个通道（例如 RGB 图像），每个卷积核会应用于所有的输入通道
- 每个输出通道都有一个独立的偏置项（bias）
- 总参数数量为 $ (C_{in} \times K^2 + 1) \times C_{out}$

单图池化：max pooling、average pooling

多图池化：全局最大池化（Global Max Pooling）

详细内容可参考 EECS498 的笔记

本质是基于复合求导，通过链式法则计算梯度，然后使用梯度下降法更新参数，用于求解局部最优的权重 W（未必能达到全局最优）

计算图：

反向传播计算图

常见方程的导数：

$y = ax + b$，则 $\dfrac{\partial y}{\partial x} = a$
$y = x^2$，则 $\dfrac{\partial y}{\partial x} = 2x$
$y = \max(x, z)$，则 $\dfrac{\partial y}{\partial x} = \begin{cases} 1 & x > z \\ 0 & x \leq z \end{cases}$
$y = sigmoid(x)$，则 $\dfrac{\partial y}{\partial x} = y(1 - y)$

LeNet-5

LeNet-5 是一个经典的卷积神经网络架构，主要用于手写数字识别。

它包含了两个卷积层、两个池化层和三个全连接层。