【从会用模型到理解CV4】现代 CV 框架到底在优化什么？从 CNN 到 Transformer，再到多尺度融合

在计算机视觉的快速发展中，我们看到了无数的模型结构创新。从最早的卷积神经网络（CNN），到更复杂的 ResNet、FPN，再到近年来掀起热潮的 Transformer，这些框架各自解决了不同的问题，并为视觉任务提供了新的思路。

但你有没有想过：

所有这些架构创新，背后的核心目标是什么？它们到底在优化什么？

这篇文章的核心目标是，帮助你从更本质的角度理解现今主流 CV 框架的设计方向。随着模型不断进化，最重要的事情并不是堆叠更多层，而是找到一种高效、稳定且能够处理复杂任务的方式去优化信息的传递和表达。

所以，我们的目标是通过“优化目标”来梳理模型设计的演变。

一、为什么传统 CNN 足够强？它在优化什么？

让我们从经典的 卷积神经网络（CNN） 说起。CNN 在视觉任务中的巨大成功并非偶然，它的出现解决了以下几个问题：

1. 局部模式提取

CNN 本质上是通过局部感知来提取图像中的模式。
相比全连接网络，卷积层的每个神经元只连接局部区域，这种方式在视觉任务中非常适合：

视觉特征（如边缘、角点、纹理）往往在局部邻域内反复出现。
通过卷积，我们能高效地从局部区域提取稳定的模式，进而通过堆叠多层卷积，逐步学习更高层次的表示。

2. 参数共享与计算效率

卷积的另一个优点是参数共享。每个卷积核的参数在整个图像上共享，这大大减少了模型的参数数量，同时也减轻了计算量。
如果用全连接层去替代卷积层，参数量会增加很多，尤其是图像处理任务，可能导致计算资源的过度消耗。

3. 平移不变性

卷积操作的一个固有特性就是平移不变性。
这意味着，当图像中的某个模式平移时，卷积网络仍然能有效地识别该目标。这是卷积网络在图像识别任务中非常有优势的地方。

卷积网络的“优化目标”

目标1：从局部区域提取并抽象视觉信息
目标2：通过参数共享来提高计算效率
目标3：通过平移不变性来确保目标识别的稳健性

因此，传统的卷积网络优化的目标主要是局部特征提取和计算效率，并且它依赖强大的归纳偏置来提取有效的视觉信息。

二、为什么深层网络难训练？ResNet 的目标是什么？

卷积网络一开始变强，很大程度上依赖“更深”。
因为更深意味着：

感受野更大
表达能力更强
可以逐层构造更复杂的特征

但问题很快就来了：

网络是不是越深越好？

理论上更深的网络可以表示更复杂的函数，听起来应该更强。
可实际训练时，事情没那么简单。

1. 深层网络最大的问题，不是“表达不够”，而是“优化困难”

很多人第一次学 ResNet，会以为它主要是在“增强表达能力”。
其实更准确地说，ResNet 首先是在解决优化问题。

因为网络一旦很深，就容易出现：

梯度消失
梯度爆炸
训练不稳定
前面层的信息越来越难保留
后面层即使参数更多，也不一定真学得更好

也就是说，深层网络不是不能强，而是经常训练不出来那个应有的强度。

这才是 ResNet 真正要解决的核心矛盾。

2. 为什么 ResNet 能解决这些问题？

ResNet（Residual Networks）通过引入残差连接来有效解决了这些问题。
残差连接本质上为每一层提供了一个快捷通道，使得每层的输出可以直接加到输入上，从而避免了梯度消失问题，同时保持了信息流动的稳定性。

ResNet 的“优化目标”

目标1：缓解深层网络中的梯度消失问题
目标2：保持信息流的稳定性，避免信息丢失
目标3：通过增量学习提升网络的训练效率

通过这些优化目标，ResNet 成功地让非常深的网络能够有效训练，并且在许多视觉任务中取得了卓越的表现。

三、为什么单纯的局部建模不够？Transformer 的目标是什么？

虽然卷积和 ResNet 解决了许多视觉任务的困难，但随着任务的复杂性提高，单纯的局部建模已经不够了。

1. 视觉任务中的全局关系

很多视觉任务，如目标检测、分割，尤其是场景理解，都不仅仅依赖于局部特征，还需要全局信息的交互。
比如：

在物体检测中，目标的位置和类别往往受周围环境的影响。
在语义分割中，像素间的上下文信息对于决定它们属于哪个类别至关重要。

CNN 和 ResNet 在这方面有一定的局限性。
它们通常只通过局部卷积或残差结构来处理信息，长距离依赖关系通常要靠多层堆叠才能逐渐建立。

2. Attention 为什么能有效？

Transformer 是一个革命性的架构，它通过**自注意力机制（Self-Attention）**来解决长距离依赖的问题。

在自注意力机制中，每个位置的表示会和图像中所有其他位置的信息进行交互，从而动态地分配权重。这让 Transformer 能够：

捕捉长距离依赖：模型可以直接建模图像中远距离区域之间的关系。
动态加权信息：模型可以根据输入的不同动态调整注意力权重，决定哪些区域更重要。

Transformer 的“优化目标”

目标1：更有效地建模全局依赖
目标2：动态分配信息权重，优化不同区域的表达
目标3：增强长距离交互，提供更强的上下文理解能力

通过这三个目标，Transformer 能够有效解决传统卷积神经网络面临的长距离关系建模问题，特别是在复杂视觉任务中表现出强大的能力。

四、为什么多尺度融合会成为视觉任务中的核心设计？

随着任务要求的提升，尤其是在目标检测和语义分割等任务中，多尺度融合成为一个关键点。

1. 多尺度问题

在目标检测和分割任务中，图像中的目标大小通常差异很大。
如果只使用单一尺度的特征，模型可能无法同时有效处理小目标和大目标。例如：

小目标：像素少，细节容易丢失。
大目标：需要捕捉全局信息，避免特征表达不完全。

传统的卷积和 ResNet 在这方面有所局限，尤其是在小目标的检测上，细节容易被忽略。

2. FPN 和多尺度融合

FPN（Feature Pyramid Networks） 是一种典型的多尺度融合策略，它通过从不同层次提取特征，并进行融合，从而让模型在不同尺度下都能获得有效的表达。
这种方法的优点在于：

它能增强对不同尺度目标的检测能力
它能同时保留低层的细节和高层的语义

多尺度融合的“优化目标”

目标1：同时处理小目标和大目标
目标2：保留低层细节并融合高层语义
目标3：提高小目标的检测能力
目标4：增强图像不同尺度信息的整合能力

通过多尺度融合，模型能够在多个尺度上获得有效信息，进而提高目标检测和分割的准确性。

五、现代 CV 框架的“优化目标”总结

通过分析卷积、ResNet、Transformer 和多尺度融合的演进，我们可以看到：

1. CNN

优化目标：高效提取局部特征，解决计算效率和平移不变性问题。

2. ResNet

优化目标：解决深层网络训练中的梯度消失问题，稳定信息流，使得网络变深而不失效。

3. Transformer

优化目标：捕捉长距离依赖，动态加权信息，解决“全局信息如何整合”的问题。

4. 多尺度融合

优化目标：同时处理不同尺度的目标，增强图像各尺度信息的整合能力，解决“如何同时处理小目标和大目标”的问题。

六、现代 CV 框架演进的本质：从局部到全局，再到信息整合

现代计算机视觉框架的演进，并不是单纯的增加网络深度，而是通过不断优化信息流的处理方式，来增强模型的表达能力。

从卷积网络到 ResNet，再到 Transformer，我们看到的是对局部信息提取能力、网络深度优化能力、长距离依赖建模能力和多尺度信息融合能力的持续优化。

今天的 CV 模型不仅仅局限于卷积层的局部感知，已经能够做到动态信息加权、全局上下文建模，并且在不同尺度下处理目标。

这些优化方向正是为什么现在的模型能在越来越复杂的任务中，取得越来越好的结果。

七、为什么“卷积 + 残差 + Attention” 是现代 CV 模型的核心？

现代 CV 模型最常见的组合是：

卷积：用来提取局部特征
ResNet：用来稳定训练，增强信息流
Attention：用来动态加权和整合全局信息

这三者组合的核心目标正是：

让网络既能高效提取局部信息，又能灵活建模全局关系，且能平衡多尺度信息

这一组合模式不仅能够提高训练效率，也能增强模型对复杂任务的适应性。

论文

#机器学习 #深度学习

【从会用模型到理解CV4】现代 CV 框架到底在优化什么？从 CNN 到 Transformer，再到多尺度融合

http://example.com/2026/03/17/从会用模型到理解CV4/

作者

Alaskaboo

发布于

2026年3月17日

更新于

2026年3月15日

许可协议

【从会用模型到理解CV3】为什么卷积、ResNet、Attention 会有效？下一篇