腾讯优图提出半监督对抗单目深度估计,被人工智能顶级期刊TPAMI收录

昨天开车去中国我想分享

作为中国计算机视觉人工智能领域的领导者,腾讯的Utu实验室团队在单眼深度估算方面取得了新的研究进展。

腾讯与厦门大学联合团队联合提出了半监督反单眼深度估计。预计将充分利用大量未标记数据中包含的信息,并将少量标记数据结合起来以半监督形式训练网络。据报道,该研究成果已被列入人工智能领域的顶级国际期刊TPAMI。

长期以来,基于深度卷积神经网络的分类和回归任务主要依赖于大量标记数据来训练网络。在实际的算法部署中,通常只有大量未标记的数据和非常少量的标签数据。如何充分利用这些少量的标签数据来实现与在标签数据下训练的大量模型类似的效果一直是学术界和工业界的问题。

根据腾讯Youtu研究员的说法,本研究的核心难点在于如何从未标记的数据中获取监督信息。传统方法通常需要与输入相同的场景的图像序列,以通过构造实体几何关系来隐式地重建深度。该方法要求相同的场景包含至少两个图像,这通常需要双目相机或视频序列。腾讯Youtu和厦门大学联合提出,在对抗训练的框架内,图像排斥器必须是真假样本的相同图像。 “真实样本对”使用带有标签数据的RGB图像和相应的真实深度图,“伪样本对”使用未标记的RGB图像和生成器网络预测的深度图,鉴别器网络区分是否预测的深度图和相应的RGB直接符合真实的联合概率分布,因此从无标签中获得监测信息从数据中获取。同时,通过添加深度图鉴别器,预测深度图和真实深度图之间的分布一致性受到约束。方法输入可以是任何不相关的图像,并且应用场景更广泛。从实验结果还发现,当主流深度估计网络作为发电机网络安装在半监督框架中时,可以实现显着的改进。

image.php?url=0MqnA4YMp7

(图1:腾讯和沱大联合团队提出的半监督对抗框架。图中的发电机网络接收来自两个鉴别器网络的反馈,以更新其网络参数。)

在研究的量化指标中,使用半监督对抗框架,当标签数据很少(500张)时,只有250张未标记的RGB图像可以用来比其他最先进的方法更好。影响。当标签数?萘抗潭ǎ?500张)时,未标记的RGB图像的连续增加可以进一步改善效果。最后,当使用50,000个未标记的RGB图像时,该方法远远超过所有指标中的当前状态。最先进的方法。

image.php?url=0MqnA4ayA6

(表1:当标签数据非常少时(500),仅使用250个未标记的RGB图像可以产生比其他SOTA方法更好的结果。)

image.php?url=0MqnA4MAS7

(图2:当标签数据量固定时(500张),连续增加未标记RGB图像的数量可以进一步提高效果)

image.php?url=0MqnA4y11z

(图3.使用仅500个标记数据训练的模型效果。从左到右,RGB图像,真实深度图和地图算法预测的深度图。通过使用额外的未标记RGB数据,地图算法仅使用少量数据可以获得更好的视觉效果。

腾讯云图研究员表示,虽然研究方法以单眼深度预测为实验,但在语义分割任务中也发现了相似的效果。同时,当模型训练与部署算法的环境(即,存在Domain Shift)之间存在差异时,如果标记数据是源域中的数据,并且未标记的数据是算法部署的目标域,该方法还可以起到域自适应的作用,提高模型在目标域中的部署效果。在非同源场景中的ReID任务中也验证了该观察结果。

一般而言,研究的核心是充分利用未标记样本中包含的信息,并减少对标签数据的依赖。在未来,预计将应用于场景重建和非同源场景ReID等场景。

收集报告投诉