CVPR18 Detection 文章选介(下)

2018-05-05 13:08 来源:

上一期发出之后,很多读者已经在评论中猜出了本期的主角。对,就是今年 CVPR 的 oral paper "An Analysis of Scale Invariance in Object Detection - SNIP"!这个 paper 具体的做法其实非常简单,但是背后却很有深意。这个文章很早之前就读过了,但是一直感觉没有读透。直到最近抽空细思了一下,有一些心得和大家分享。

先简单来介绍一下 SNIP 这个 paper 做的事情。在 CNN 中,我们需要不同种类的 invariance(不变性)来做识别,这其中 translation invariance 在 CNN 中可以比较好地被考虑,然而另外一种重要的不变性,scale invariance 就很难被 CNN 考虑到。为了解决这个问题,一般常用的两大种策略就是 Image Pyramid 或者 Feature Pyramid。在传统的 Image Pyramid 中,一般会使用一个固,定大。小的模板进行训,练,将检。测问题转换为一个固,定大。小的输入图像的分类问题。然后建立大。小不同的 Image Pyramid,在这个 Pyramid 中的每个 scale 的图片上,使用这个固,定大。小的检。测器使用 sliding window 或 cascaded classifier 来分类。这大类方。法中在 deep 时代比较经典的有 MTCNN;另外一大类方。法也就是 Feature Pyramid,大家应该比较熟悉,这里的代表工作包括 SPPNet 和 FPN,其中后者已经是目前检。测算法的一个标准组件。FPN 中的这张图很清晰解。释了这两大类方。法的关系和区别:

这,篇文章中,作者对于 scale 对于 CNN 性。能的影响做了十分深入的分析。下面这个表是引出这,篇文章的 motivation 的核心。作者首先统一了测试的 scale 是 1400,报告了 COCO 数据集上小物,体(小于 32*32)检。测的 mAP。值得关注的是以下三组实验反映出的问题:

800 ( all ) 和 1400 ( all ) 的对比:训,练时使用不同大。小的图训,练,理论上如果使用更大图,小物,体检。测的性。能应当有显著提。升。但是实验表明这个提。升非常小。文章中给出的解。释是虽然 1400 的图训,练会提。升小物,体的性。能,但是会加大大物,体训,练的困难,所以此消彼长,并不会有比较大提。升。(其实我是不太认可这个解。释的,个人理解见下面的第三条。)

1400 (

关于我们|广告服务|人才招聘|联系我们|免责声明

Copyright 2016 psccq.com All Rights Reserved