计图开源:基于标准化生成流的人体运动风格迁移方法

近期,清华大学温玉辉博士后、刘永进教授、中科院计算所副研究员高林、香港城市大学傅红波教授等合作,在CVPR2021上发表论文,提出了一种基于标准化生成流(Glow)的自回归运动风格迁移方法,并在GitHub上开源了Jittor代码。

Part 1

前言

除了语言和表情流露,肢体语言也是表达人类情绪的重要方式。“肢体运动风格”是人类运动的重要特征。通过观察一个人不同运动(走路、奔跑、跳跃等)的细节,我们可以对其情绪、年纪、状态(高兴、生气、骄傲、苍老等)进行初步判断。

在3D影视制作中,设计师也希望运动的风格可以是丰富多彩的,这样可以增加作品的表现力(如图1-2所示)。

图1 运动风格迁移:正常地跑步 → 沮丧地跑步

图2 运动风格迁移:性感地跳跃 ->嚣张地跳跃

传统的运动捕获方法设备和人力成本很高,为了避免采集大量数据,基于已有数据进行风格迁移的方法不断被提出。现有方法[1,2]存在生成运动真实感较低、依赖预处理的成对训练数据或运动风格标签、对未知风格的泛化能力较差等问题。

为了解决这些问题,清华大学、中科院计算所和香港城市大学的研究人员联合提出了一种基于标准化生成流(Glow)的自回归运动风格迁移方法,该工作已入选计算机视觉领域顶会CVPR 2021[3]。

Part 2

算法原理

该工作提出自回归运动风格迁移方法,可以根据输入的风格运动序列A(Input Style)的风格编码和内容运动序列B(Input Content)的自回归信息和控制信号,生成将A的风格迁移至B并保持B的运动内容的结果(见图3)。

图3 基于归一化生成流的运动风格迁移示意图

Glow的核心思想是,通过一组连续的可逆变换,将复杂的数据分布,映射到简单的标准高斯分布,从而学习复杂样本的概率分布。

在仿射耦合变换中,如图4,作者引入了自回归编码结构,并且使用Transformer自回归编码结构,关注运动序列的全局信息,解决了LSTM自回归编码结构的误差累积问题。

图4 标准化生成流的单层流结构

在本方法中,作者将当前动作在控制信号(运动路径)和过去时刻的连续动作帧的条件下编码,学习其概率分布;风格迁移阶段,如图3所示,将风格序列通过Glow进行风格编码控制生成序列的运动风格,以内容序列为条件,控制生成序列的运动内容和路径信息。

Part 3

结果展示

该方法解决了LSTM自回归编码结构的误差累积问题(如图5所示)。为了验证本方法的泛化能力,作者使用不包含“strutting”风格标签的数据进行训练,并在包含“strutting”风格标签的数据上测试。

图5 仿射耦合变换中的Transformer结构与LSTM结构对比

实验结果的分析显示,本方法能有效地提取训练过程中未知风格(“strutting”风格)的特征用于运动风格迁移(见图6)。

图6 隐空间不同风格的隐编码分布

在与其他工作的对比中,生成结果也取得了明显优势(见图7)。总的来说,本方法能够有效地提取人体运动风格的编码且不依赖预处理的成对训练数据和运动风格标签,并在运动迁移效果、泛化能力等方面超越已有工作,达到了业界最优。

图7 对比结果展示

Part 4

Jittor开源

目前该方法已发布计图(Jittor)版本的代码。开源代码地址为:

Jittor是清华大学计算机图形学实验室开源的自主深度学习框架。在相同batchsize下,Jittor的训练速度较Pytorch版本代码提升了150%左右,推理速度较Pytorch版本提升了200%,效果显著。

更多的原理和算法细节,请参考以下视频:

图8 人体运动风格迁移方法的原理和演示

参考文献

  1. Kfir Aberman,Yijia Weng, Dani Lischinski, Daniel Cohen-Or, and Baoquan Chen. Unpaired MotionStyle Transfer from Video to Animation,ACM Transactions on Graphics, 2020, Vol. 39, No. 4, Article No. 64.
  2. Daniel Holden, Jun Saito, and Taku Komura. A Deep Learning Framework for CharacterMotion Synthesis and Editing, Transactions on Graphics, 2016, Vol. 35, No. 4, Article No. 138.
  3. Yu-Hui Wen#, Zhipeng Yang#, Hongbo Fu, LinGao*, Yanan Sun, and Yong-Jin Liu*, Autoregressive Stylized Motion Synthesis with Generative Flow, Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition (CVPR), 2021, 3612–13621.

作者介绍

温玉辉博士(共同一作),清华大学博士后(合作导师:刘永进教授),主要研究方向为计算机视觉、人工智能、人体运动分析。2020年于中科院计算所获博士学位。相关的研究成果发表在计算机视觉和人工智能领域的CVPR、AAAI会议和人体运动步态分析专业刊物Gait&Posture等上,曾获得博士生国家奖学金、中科院计算所所长特别奖等荣誉。

杨志鹏(共同一作),本科毕业于中国科学院大学,现中科院计算所硕士研究生(导师:高林副研究员),研究方向为智能计算机图形学和计算机视觉。

该论文的作者还包括香港城市大学的傅红波教授、中科院计算所的高林副研究员、清华大学孙亚男硕士生和刘永进教授。论文通讯作者为高林和刘永进。