深度学习
  • 前言
  • 第一章:经典网络
    • ImageNet Classification with Deep Convolutional Neural Network
    • Very Deep Convolutional Networks for Large-Scale Image Recognition
    • Going Deeper with Convolutions
    • Deep Residual Learning for Image Recognition
    • PolyNet: A Pursuit of Structural Diversity in Very Deep Networks
    • Squeeze-and-Excitation Networks
    • Densely Connected Convolutional Networks
    • SQUEEZENET: ALEXNET-LEVEL ACCURACY WITH 50X FEWER PARAMETERS AND <0.5MB MODEL SIZE
    • MobileNet v1 and MobileNet v2
    • Xception: Deep Learning with Depthwise Separable Convolutions
    • Aggregated Residual Transformations for Deep Neural Networks
    • ShuffleNet v1 and ShuffleNet v2
    • CondenseNet: An Efficient DenseNet using Learned Group Convolution
    • Neural Architecture Search with Reinforecement Learning
    • Learning Transferable Architectures for Scalable Image Recognition
    • Progressive Neural Architecture Search
    • Regularized Evolution for Image Classifier Architecture Search
    • 实例解析:12306验证码破解
  • 第二章:自然语言处理
    • Recurrent Neural Network based Language Model
    • Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
    • Neural Machine Translation by Jointly Learning to Align and Translate
    • Hierarchical Attention Networks for Document Classification
    • Connectionist Temporal Classification : Labelling Unsegmented Sequence Data with Recurrent Neural Ne
    • About Long Short Term Memory
    • Attention Is All you Need
    • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
  • 第三章:语音识别
    • Speech Recognition with Deep Recurrent Neural Network
  • 第四章:物体检测
    • Rich feature hierarchies for accurate object detection and semantic segmentation
    • Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
    • Fast R-CNN
    • Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
    • R-FCN: Object Detection via Region-based Fully Convolutuional Networks
    • Mask R-CNN
    • You Only Look Once: Unified, Real-Time Object Detection
    • SSD: Single Shot MultiBox Detector
    • YOLO9000: Better, Faster, Stronger
    • Focal Loss for Dense Object Detection
    • YOLOv3: An Incremental Improvement
    • Learning to Segment Every Thing
    • SNIPER: Efficient Multi-Scale Training
  • 第五章:光学字符识别
    • 场景文字检测
      • DeepText: A Unified Framework for Text Proposal Generation and Text Detection in Natural Images
      • Detecting Text in Natural Image with Connectionist Text Proposal Network
      • Scene Text Detection via Holistic, Multi-Channel Prediction
      • Arbitrary-Oriented Scene Text Detection via Rotation Proposals
      • PixelLink: Detecting Scene Text via Instance Segmentation
    • 文字识别
      • Spatial Transform Networks
      • Robust Scene Text Recognition with Automatic Rectification
      • Bidirectional Scene Text Recognition with a Single Decoder
      • multi-task learning for text recognition with joint CTC-attention
    • 端到端文字检测与识别
      • Reading Text in the Wild with Convolutional Neural Networks
      • Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework
    • 实例解析:字符验证码破解
    • 二维信息识别
      • 基于Seq2Seq的公式识别引擎
      • Show and Tell: A Neural Image Caption Generator
      • Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
  • 第六章:语义分割
    • U-Net: Convolutional Networks for Biomedical Image Segmentation
  • 第七章:人脸识别
    • 人脸检测
      • DenseBox: Unifying Landmark Localization with End to End Object Detection
      • UnitBox: An Advanced Object Detection Network
  • 第八章:网络优化
    • Batch Normalization
    • Layer Normalization
    • Weight Normalization
    • Instance Normalization
    • Group Normalization
    • Switchable Normalization
  • 第九章:生成对抗网络
    • Generative Adversarial Nets
  • 其它应用
    • Holistically-Nested Edge Detection
    • Image Style Transfer Using Convolutional Nerual Networks
    • Background Matting: The World is Your Green Screen
  • Tags
  • References
由 GitBook 提供支持
在本页
  • 前言
  • 1. 详解
  • 1.1 从全连接讲起
  • 1.2 简化Inception
  • 1.3 ResNeXt
  • 1.4 分组卷积
  • 总结

这有帮助吗?

  1. 第一章:经典网络

Aggregated Residual Transformations for Deep Neural Networks

上一页Xception: Deep Learning with Depthwise Separable Convolutions下一页ShuffleNet v1 and ShuffleNet v2

最后更新于4年前

这有帮助吗?

tags: ResNeXt, ResNet, Inception

前言

在这篇文章中,作者介绍了ResNeXt。ResNeXt是和的结合体,不同于的是,ResNext不需要人工设计复杂的Inception结构细节,而是每一个分支都采用相同的拓扑结构。ResNeXt的本质是{{"howard2017mobilenets"|cite}},通过变量基数(Cardinality)来控制组的数量。组卷机是普通卷积和深度可分离卷积的一个折中方案,即每个分支产生的Feature Map的通道数为n(n>1)n (n>1)n(n>1)。

1. 详解

1.1 从全连接讲起

给定一个DDD维的输入数据x=[x1,x2,...,xd]\mathbf{x} = [x_1, x_2, ..., x_d]x=[x1​,x2​,...,xd​],其输入权值为我w=[w1,w2,...,wn]\mathbf{w} = [w_1, w_2, ..., w_n]w=[w1​,w2​,...,wn​],一个没有偏置的线性激活神经元为:

∑i=1Dwixi\sum_{i=1}^D w_i x_ii=1∑D​wi​xi​

它的结构如图1所示。

图1:全连接的split-transform-merge结构

这是一个最简单的“split-transform-merge”结构,具体的讲图1可以拆分成3步:

  1. Split:将数据x\mathbf{x}xsplit成DDD个特征;

  2. Transform:每个特征经过一个线性变换;

  3. Merge:通过单位加合成最后的输出。

1.2 简化Inception

Inception是一个非常明显的“split-transform-merge”结构,作者认为Inception不同分支的不同拓扑结构的特征有非常刻意的人工雕琢的痕迹,而往往调整Inception的内部结构对应着大量的超参数,这些超参数调整起来是非常困难的。

所以作者的思想是每个结构使用相同的拓扑结构,那么这时候的Inception(这里简称简化Inception)表示为

F=∑i=1CTi(x)\mathcal{F} = \sum_{i=1}^C \mathcal{T}_i(\mathbf{x})F=i=1∑C​Ti​(x)

其中CCC是简Inception的基数(Cardinality),Ti\mathcal{T}_iTi​是任意的变换,例如一系列的卷积操作等。图2便是一个简化Inception,其T\mathcal{T}T是由连续的卷积组成(1×11\times11×1->3×33\times33×3->1×11\times11×1)。

1.3 ResNeXt

结合强大的残差网络,我们得到的便是完整的ResNeXt,也就是在简化Inception中添加一条short-cut,表示为:

y=x+∑i=1CTi(x)\mathbf{y} = \mathbf{x} + \sum_{i=1}^C\mathcal{T}_i(\mathbf{x})y=x+i=1∑C​Ti​(x)

如图3所示:

到这里我们发现ResNeXt和Inception v4是非常像的。不同之处有两点:

  1. ResNeXt的分支的拓扑结构是相同的,Inception V4需要人工设计;

  2. ResNeXt是先进行1×11\times11×1卷积然后执行单位加,Inception V4是先拼接再执行1×11\times11×1卷积,如图4所示。

1.4 分组卷积

分组卷积的雏形更早要追溯到2012年深度学习鼻祖文章AlexNet 。受限于当时硬件的限制,作者不得不将卷积操作拆分到两台GPU上运行,这两台GPU的参数是不共享的。

分组卷积是介于普通卷积核深度可分离卷积的一种折中方案,不是彻底的将每个channel都要单独赋予一个独立的卷积核也不是整个Feature Map使用同一个卷积核。

除了Inception v4,分组卷积的第三种变形是将开始的1×11\times11×1卷积也合并到一起,如图6。

总结

ResNeXt提出了一种介于普通卷积核深度可分离卷积的这种策略:分组卷积,他通过控制分组的数量(基数)来达到两种策略的平衡。分组卷积的思想是源自Inception,不同于Inception的需要人工设计每个分支,ResNeXt的每个分支的拓扑结构是相同的。最后再结合残差网络,得到的便是最终的ResNeXt。

从上面的分析中我们可以看书ResNeXt的结构非常简单,但是其在ImageNet上取得了由于相同框架的残差网络,也算是Inception直接助攻了一把吧。

ResNeXt确实比Inception V4的超参数更少,但是他直接废除了Inception的囊括不同感受野的特性仿佛不是很合理,在更多的环境中我们发现Inception V4的效果是优于ResNeXt的。类似结构的ResNeXt的运行速度应该是优于Inception V4的,因为ResNeXt的相同拓扑结构的分支的设计是更符合GPU的硬件设计原则。

图2:简单Inception的split-transform-merge结构

图3:ResNeXt结构

图4:Inception V4拼接在前的结构

图5:AlexNet

图6:分组卷积的第三种形式

ResNet
Inception
Inception v4
分组卷积(Group Convolution)
图3:ResNeXt结构
图4:Inception V4拼接在前的结构
图5:AlexNet
图2:简单Inception的split-transform-merge结构
图1:全连接的split-transform-merge结构
图6:分组卷积的第三种形式