Alaskaboo's Blog

【从会用模型到理解CV4】现代 CV 框架到底在优化什么？从 CNN 到 Transformer，再到多尺度融合

【从会用模型到理解CV4】现代 CV 框架到底在优化什么？从 CNN 到 Transformer，再到多尺度融合

在计算机视觉的快速发展中，我们看到了无数的模型结构创新。从最早的卷积神经网络（CNN），到更复杂的 ResNet、FPN，再到近年来掀起热潮的 Transformer，这些框架各自解决了不同的问题，并为视觉任务提供了新的思路。但你有没有想过：所有这些架构创新，背后的核心目标是什么？它们到底在优化什么？这篇文章的核心目标是，帮助你从更本质的角度理解现今主流 CV 框架的设计方向。随着模型不

2026-03-17

论文

#机器学习 #深度学习

【从会用模型到理解CV3】为什么卷积、ResNet、Attention 会有效？

【从会用模型到理解CV3】为什么卷积、ResNet、Attention 会有效？

学 CV 的过程中，几乎没人绕得开这三个词：卷积（Convolution） ResNet Attention 它们太常见了。常见到很多时候，我们会默认自己“已经懂了”。比如：卷积就是提特征的 ResNet 就是加 shortcut 的 Attention 就是让模型关注重点这些说法当然不算错，但如果只停留在这里，其实还是太表面了。因为真正值得想清楚的问题不是“它们是什么”，而是：

2026-03-16

论文

#机器学习 #深度学习

【从会用模型到理解CV2】一张图进入CV模型后，信息是如何流动的？

【从会用模型到理解CV2】一张图进入CV模型后，信息是如何流动的？

上一篇我聊的是一个更底层的问题：深度学习的本质是什么。如果把那个问题再往前推一步，计算机视觉里其实还有一个更具体、也更值得反复想清楚的问题：一张图进入CV模型后，内部到底发生了什么？很多时候，我们看模型图会看到很多熟悉的词： backbone stage neck head skip connection FPN attention fusion 但如果不把这些词放回“图像信息是怎么被

2026-03-15

论文

#机器学习 #深度学习

【从会用模型到理解CV1】深度学习的本质到底是什么？不是“黑盒”，而是从数据中学习函数

【从会用模型到理解CV1】深度学习的本质到底是什么？不是“黑盒”，而是从数据中学习函数

很多人刚接触深度学习时，最容易形成两种印象。一种是把它看得很神秘，觉得它像某种“黑盒魔法”，数据一喂、模型一跑，结果就出来了。另一种是把它看得很工程化，觉得深度学习无非就是调包、堆网络、换模块、刷指标。但如果真的想往计算机视觉这条路继续走，无论是看论文、做实验，还是以后自己写文章、做研究，有一个问题都绕不过去：深度学习的本质，到底是什么？如果这个问题一直模糊，那么后面学 CNN、Res

2026-03-14

论文

#机器学习 #深度学习

对文献阅读的重新认识

对文献阅读的重新认识

今天向本科的一位师兄（已经博士毕业且高校任职）请教问题，他连续问题让我对cv产生了重新的认识，不仅仅是文献的阅读。下面这是对文献的一般的看法，但是这也仅仅只是为了读懂一篇文献所能做的。文献调研重点聚焦 2025目标检测论文，优先看 CCF-A 顶会（如 CVPR、ICCV、ECCV、NeurIPS、ICLR、AAAI），重点关注论文的创新点、贡献表达、实验设计和发表时间/会议口

2026-03-12

论文

#论文

RT-DETR and RT-DETRv2

RT-DETR and RT-DETRv2

📌 最近一直在忙于我的第一篇关于晶体检测的计算机论文，刚刚投递出去（不知道能不能中，其实心里也很忐忑）。目前再准备开始第二篇论文，准备用DETR相关的模型进行优化，这是对于RT-DETR的一些见解。论文的下载地址为：arxiv.org/pdf/2304.08069 一、模型剖析 RT-DETR由一个骨干网络、一个高效的混合编码器以及一个带有辅助预测头的Transformer解

2026-01-06

论文

#机器学习 #深度学习 #论文

晶体筛选

晶体筛选

思路： 1、先进行晶体的测试，挑选出合适的晶体样式，在进行针对性筛选，然后进行模型训练 2、制作软件前后端部署树莓派联动显微镜驱动进行，前端可进行颜色的调节更换模型。例如硫属性化合物是黄色透明，尽量挑选黄色透明化晶体等等。预计产出是专利、论文、软著。 3、后期进行机械化机械臂挑选进行、AI、AR等等联动识别。

2026-01-05

论文

#深度学习 #论文 #计算机视觉 #项目

DETR论文

DETR论文

现代检测器必须要通过一大组提议、锚框或窗口中心实现回归和分类问题，他们的性能显著受到后处理步骤，为了简化这些流程，我们提出了一种直接端到端的集合预测方法，即2020年5月发表的DETR（End-to-End Detection with Transformers）。论文我将从结构剖析、创新点分析、论文收获以及根据pytorch进行代码复现。一、模型剖析DETR模型训练的流程简述为以下四步：用

2025-12-29

论文

#机器学习 #深度学习 #论文

ResNet论文+复现

ResNet论文+复现

ResNet（Residual Network）由何恺明等人于2015年提出（论文《Deep Residual Learning for Image Recognition》），是深度学习领域里程碑式的论文。其核心思想是残差连接，解决了训练极深神经网络时遇到的退化问题。这是ResNet论文的地址：Deep Residual Learning for Image Recognition 一、论文核

2025-07-25

论文

#机器学习 #深度学习 #论文

YOLOv9论文

YOLOv9论文

YOLOv9 是 YOLO 系列目标检测模型的最新版本之一，由 YOLOv7的原班团队Chien-Yao Wang等人2024年2月提出，其设计旨在进一步提升检测性能与推理效率。一、论文地位阅读论文时我通常先查看摘要和结论，以快速把握其核心内容与研究方向。 1.1 核心技术创新：突破深度网络的信息瓶颈可编程梯度信息（PGI）为解决轻量级模型中从 I(X, X) 准确提取 I(Y, X) 的难

2025-07-17

论文

#深度学习 #论文 #计算机视觉