目前主流的实例分割方法通常基于网格掩码的表示方法,例如MaskR-CNN、TensorMask等等。轮廓是另一种物体分割的表示方法,30年前曾风靡一时的SNAKE就是基于轮廓表示的一种方法,但在深度学习时代,其精度一直比不上基于网格掩码的方法。微软亚洲研究院联合北大,港中文,上海交大和多伦多大学的研究员们提出了一种全新的利用稠密代表点集(DenseRepPoints)的方法来表示物体,这种新的表示方式具有高度灵活的表达能力,网格与物体轮廓均是其特例。DenseRepPoints还可以用来实现一种结合网格掩码和轮廓两者优点的边缘掩码新表示方法,其基于ResNet-50的backbone在COCO实例分割上取得了39.0mAP的表现,超越了同期的SOLO,PolarMask,DeepSnake和其后的CondInst。该方法还具有以下优点:
1)DenseRepPoints也可以与PolarMask等方法一样直接表达物体轮廓。但是与PolarMask需要显示地基于手工设计的固定规则来定义每个轮廓点不同,DenseRepPoint直接利用点集间的匹配来学习轮廓,方法更简单也更灵活。
2)和PointRend一样,DenseRepPoint可以将主要计算放在更重要的物体边缘附近,从而在同样的计算复杂度下,取得更好的分割精度。
3)和此前物体检测和分割采用不同表示不同DenseRepPoints可以同时表示物体不同粒度的几何结构,从而同时提升物体检测和分割的效果。
RepPoints是一种针对物体检测的表示方法,基于这一表示构建的anchor-free检测器在COCO上取得了很好的性能,但是由于RepPoints只有9个点,且只包含点的位置信息,其无法表示物体更精细的结构,从而难以应用于实例分割任务。去年机器之心曾对这一工作进行了介绍:
DenseRepPoints是RepPoints的一个重要拓展,相比于RepPoints,其用更多的点(例如225个)来表示物体,并增加了每个点的属性信息:
DenseRepPoints的通用表示能力
前述重要拓展使得DenseRepPoints不仅仅能刻画物体的物体的几何定位并进行更细粒度的的特征提取,同样能表示更精细的物体结构,例如物体轮廓、网格、边缘等等。具体来说,对于轮廓,DenseRepPoints可以通过boundarysampling来采样轮廓的点得到对轮廓的离散表达;而对于传统的网格掩模,可以利用Gridsampling来用DenseRepPoints模拟网格分布。
如下图所示:
边缘掩码表示:结合轮廓和网格掩码的优点
基于ChamferLoss的点集监督方法
这一种监督方法不需要ground-truth点集和预测点集之间的一一对应关系,从而具有更强的普适性。下图显示了利用该监督方法学到的预测点集的分布,可以看到预测点集很好地学到了物体的边缘附近。
从点集到连续域分割:Delaunay三角化插值
尽管通过的DenseReppoints可以学习到一组表达物体分割的点集,但由于其本身是稀疏并且是非网格化的,因此需要额外的步骤将得到的点集转化为连续的二进制掩码。为此作者们提出了两种后处理方法ConcaveHull和Triangulation得到最终的分割结果:
ConcaveHull:轮廓采样使用这种后处理方法。首先使用一个阈值对预测点的前景分数进行二值化,然后计算其ConcaveHull得到二值掩模。
Triangulation:在学习到的点集上应用Delaunay三角剖分将空间分割成三角形,然后由于空间中的每个像素将落入一个三角形内,可以通过三角形中质心坐标进行线性插值获得每个点的分数。最后,利用阈值对插值的分数图进行二值化,得到二值掩模。
与点数无关的高效实现
作者们发现,更多数目的点能提升实例分割的精度,但是整个框架的计算复杂度也迅速增加。为此,该文提出了一种高效的实现方法,其复杂度几乎与点的数目无关。具体来说,针对分类分支,作者发现选用固定数目的group(默认group数目=9)特征,能取得和利用所有点相同的准确度,从而使得这一分支的复杂度不随点数增加(下图左)。针对回归分支,作者发现每个点的refine只需要当前点的特征即可,从而使得其复杂度也和点的数目无关(下图右)。
基于DenseRepPoints的anchor-free实例分割框架
基于DenseRepPoints的检测和分割的框架如下图所示,除了在物体表示上的创新外,也注意到这一框架是anchor-free的。
主要实验结果
1)DenseRepPoints的高效实现
2)物体的不同表示和点的数目的比较
3)COCO实例分割结果
实例分割的结果上DenseRepPoints在ResNet-101的backbone下比其他的方法都要好,进一步更换ResneXt-101的backbone,DenseRepPoints能达到41.8mAP。
4)COCO物体检测结果
微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。
深度学习(deeplearning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。
二值化是将像素图像转换为二进制图像的过程。
数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。
实例分割是检测和描绘出现在图像中的每个不同目标物体的任务。
机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。