0 引言
三维重建是指给定一张或多张RGB图像的情况下重建该RGB图像中物体的三维形状。三维重建已经被探索了几十年,它是计算机视觉领域一个基础性任务之一,拥有大量应用场景,例如,机器人导航、虚拟现实、计算机辅助设计、无人驾驶、医学图像处理等领域。三维重建是一个非常复杂的过程,从二维图像恢复三维形状,恢复缺失的信息往往具有歧义性。为克服三维形状的歧义性,三维重建方法通常需要结合图像信息和先验形状知识。
随着大型数据集的出现,数据驱动的方法一定程度上克服歧义性问题,数据集提供三维形状先验知识。三维重建方法利用CNN在大型数据集进行预测物体三维形状取得了巨大的成功,预测的三维形状可以被归结为三类:体素网格表示[1]、点云表示[2]、网格表示[3]。近年来,大量基于深度学习的方法被提出来进行三维重建,例如,3D-R2N2[4]、Pix2Vox、PSGN[2]和AttSets[5]。CHOY C B[4]率先提出使用长短期记忆网络(Long Short Term Memory,LSTM)[6]来融合不同视角图像的信息,一步一步重建三维物体的形状。PSGN使用点云表示三维形状进行单视图三维重建。Pix2Vox++直接使用CNN融合不同视角图像信息来进行三维重建。AttSets使用一个注意力聚合模块去预测一个权重矩阵作为输入特征的注意力得分。
本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003552
作者信息:
胡茂林,李金龙,胡 涛
(中国科学技术大学 计算机科学与技术学院,安徽 合肥230027)
凡《网络安全与数据治理》(原《信息技术与网络安全》)录用的文章,如作者没有关于汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权等版权的特殊声明,即视作该文章署名作者同意将该文章的汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权授予本刊,本刊有权授权本刊合作数据库、合作媒体等合作伙伴使用。同时,本刊支付的稿酬已包含上述使用的费用,特此声明。