科研进展

上海微系统所在视觉三维人体姿态估计研究方面取得进展

  

近日,中国科学院上海微系统与信息技术研究所仿生视觉系统实验室李嘉茂研究员团队在视觉三维人体姿态估计领域取得了重要进展。题目为“Rotated Orthographic Projection for Self-Supervised 3D Human Pose Estimation”的成果被机器视觉领域顶级三大国际学术会议之一European Conference on Computer Vision(ECCV)2024录用。

三维人体姿态估计是机器视觉理解人体动作的关键技术,在虚拟现实、运动分析、人机交互等领域有着广泛应用。直接获得高精度的三维人体姿态成本较高,机器视觉领域往往利用人工神经网络进行自监督学习,从多视角的二维图像中预测三维人体姿态。

重投影一致性,是实现自监督学习3D人体姿态的关键。其主要思想是,由虚拟相机从与预测到的3D人体姿态拍摄到的2D人体姿态,应该与输入图像中直接得到的2D人体姿态一致。在实际操作中,输入图像的2D姿态是由相机成像的透视投影得到的,然而由于与图像相匹配的相机参数等信息缺失,预测的3D姿态无法使用透视投影,现有研究多采用简化投影模型-正交投影近似获得2D人体姿态。这两种投影模型的差异导致人工神经网络的学习与预测之间出现了偏差,3D人体姿态估计存在不可避免的误差问题。此外,重投影一致性约束缺乏对三维空间中姿态Z轴方向的有效约束,即使预测三维姿态Z轴整体反向,预测姿态的二维投影与输入二维姿态仍能保持一致,这严重损害了模型的稳定性。

为解决上述问题,团队提出了一种旋转正交投影模型,通过增加一个根据参考点距离图像中心的偏移计算的旋转补偿,来实现对透视投影的几何近似,在保持投影模型简单的同时缩小与透视投影模型之间的误差。并在此基础上根据人体结构对参考点的选取进行了优化,提出了分组旋转正交投影方法,即根据关节点之间的相对距离将人体分割成多个部分,并分别计算参考点和相应的旋转补偿,进一步缩小了与透视投影模型的误差。对于姿态Z轴整体反向问题,团队提出了关节反向约束,利用骨骼运动学先验增强对三维空间中人体姿态的监督,弥补二维监督的不足。本方法在三维人体姿态威评测数据集Human3.6M上完成了验证,达到了平均误差42.9 毫米的最优性能,相比基线自监督方法(CanonPose)提高了34.9%。

团队三维人体姿态估计方法在Human3.6M数据集上达到最优性能

本研究成果得到了科技部科技创新2030、国家自然科学基金、上海市自然基金、中国科学院青促会、上海市优秀学术带头人等项目支持。上海微系统所仿生视觉系统实验室研究生姚瑶为论文第一作者,李嘉茂研究员为通讯作者。