首页 二次元 正文

舞蹈动画制作耗时久,AI合成舞蹈成热门研究课题?

二次元 2025-10-09 23

舞动影像在娱乐产业中十分常见,当前业界制作此类影像主要运用手工捕捉或动作捕捉技术,生成一段水准较高的舞动影像依旧需要投入许多时间与精力,所以人工智能生成舞蹈正成为当前备受关注的研究方向。舞蹈是独立的艺术门类,其动作和配乐在风格、节奏、结构等方面都充分展现了编舞学的专业性,要持续创作出高水准的作品相当困难。虽然行业里曾经有过不少备受瞩目的研究成果,比如 AI Choreographer 和 DanceNet3D,但这些方案最终都没有在商业生产领域得到应用。

从左侧开始依次是 AI Choreographer、DanceNet3D 以及 ChoreoMaster 在接收嘻哈音乐后的创作成果

经过两年多的专心钻研,网易互娱 AI LAB 的技术团队研发出满足实际运作场景需求的 AI 舞蹈动画制作方案,命名为 ChoreoMaster。这个计划的优势体现在:它既能迅速生成符合艺术编排规范、适应不同舞蹈流派、流畅连贯的舞步演示,又能够通过多样的控制手段引导程序按照需求创造舞蹈效果,包括能够调整或移除特定动作序列、设定舞蹈路线模板以及界定动作施展界限等。

网易互娱 AI 实验室的研究人员,着眼于开发实用化工具的目标,对 AI 舞蹈制作课题提出了全新见解。对于艺术资源创造应用,美术相关人员对舞蹈动画生成方案抱有两大核心诉求。务必保证舞蹈素材能够不断稳定地生成达标动作;同时,制作流程需要具备充分的透明度和可操作性,以便用户能够迅速便捷地得到理想效果。

已有方案

尽管学术领域针对「根据乐曲编排舞步的课题」已开展诸多探索,然而至今仍无现成方法能够同时满足前述两种要求。按照实现机制分类,当前存在两大主要技术路径:一类是采用经典图论方法,另一类则是运用深度学习生成技术。

这种方案是按照「基于图的动作合成」的思路来设计的,它利用了传统图优化的方法,通过这种方式来达成目标。首先将现有的舞蹈动作信息进行分割处理,得到许多独立的舞蹈片段,接着建立一张包含这些舞蹈片段的关联网络,网络中的每一个点代表一个舞蹈片段,每一条带方向的连线都标明了两个相邻片段组合时的转换成本,这个成本能够评估一个片段是否可以顺畅地跟在另一个片段后面进行衔接。构建一个衡量音乐片段与舞蹈动作片段契合程度的经验性函数,音乐的舞蹈动画合成课题就转变为在动作图中探寻一条既与输入音乐契合度最高,又内部转换成本极低的路径,即行走路径。该优化课题能够借助标准的隐马尔可夫模型进行描述,并可以借助 Viterbi 或 Beam-Search 算法实现高效求解。该体系结构拥有精妙的理论支撑,具备周全的体系,能够稳健地、清晰明了地、按需生成流畅的动作,因此被公认为动作创建领域的权威方法。

但是,现阶段运用图优化技术生成的舞蹈表演,在艺术层面与专业水准存在显著差距。首先,单纯依靠浅显人工设定的音乐与舞蹈对应规则,无法准确反映两者之间的深层联系;其次,一个完整的舞蹈编排绝非简单堆砌若干优美动作片段所能完成,即便每个单独动作都十分赏心悦目。专业美术在审阅这些方法组合生成的成果时,常常提出诸如「组合显得刻意」、「音乐与动作配合生硬」、「舞蹈编排缺乏逻辑」之类的意见。

深度学习技术出现之后,深度生成模型在图像、语音、文本等许多方面都获得了显著成效,因此也被很自然地用到音乐相关的舞蹈制作任务上。从建模角度审视,运用音乐制作舞蹈属于典型处理时间序列的跨领域转换课题,先前介绍的 DanceNet3D 与 AI Choreographer 方法均依照此逻辑推进。凭借深度人工神经网络在特征抽取和表示上的卓越性能,只要拥有充足的数据并实施充分训练,此类技术便能够部分掌握音乐与舞蹈间某些本质性的联系。

但是,跟其他行业遇到的情况类似,深度生成技术想要真正在应用场合部署,还有很长的路需要探索。第一,人工神经网络是公认的封闭系统,它制造出来的东西几乎没有说明能力,也难以调整。第二,从机器学习层面看,人工神经网络把握数据核心特征的方法,是把它放到低维度的隐藏空间里去分析。在影像转换环节,那些属于主要部分的动作特征常被当作无关杂讯而有意舍弃,因为缺少了这些主要信息,深度制造出来的舞蹈动作很容易显得很笨拙,有时连连贯性都难以维持,更不用说满足专业视觉艺术的要求。最终,三维舞蹈动作数据的生产费用显著高于图像、声音、文本等类型的数据,能够用于训练的高质量音乐与舞蹈组合资料十分稀缺。舞蹈作为一种较为复杂的艺术门类,使得当前所有深度生成模型的普适能力都受到很大制约,模型在应对训练数据范围之外的音乐时,表现难以确保,很容易产生不正常的现象。

ChoreoMaster 方案

经过多次尝试各种方法,但最终合成效果总是差强人意,网易互娱 AI LAB 的研究团队转而从舞蹈艺术视角来分析结果,并且全面学习了编舞学(Choreography)这门专业领域。研究者在编舞学复杂的主观经验规律中,归纳出若干具有普遍性的原则。经过与专业美术的持续磨合,人们发现只要舞蹈合成过程能够遵循这些原则,便能够满足美术方面的标准,有时甚至能够得到专业编舞人士的赞许。

这些普适的编舞规则可以总结为:

风格彼此吻合,就是说音乐和舞蹈动作所表现的情感与场景应当是一致的;

音乐的节拍与舞蹈的节拍需要保持一致,这两种节拍在呈现时往往遵循着比较清晰的规律,并且会周期性地重复出现

整体布局要对应,就是说音乐和舞步的安排方式应当相同,比如反复出现的音乐部分,像主歌、副歌这些,对应的舞蹈段落也通常反复,音乐里反复的小节,对应的舞步小节也常常是左右对称的。

依据编舞领域的诸多准则,同时参考既有方案的利弊,网易互娱 AI LAB 的研究人员研发出一种创新的音乐驱动舞蹈生成平台——ChoreoMaster。此系统能够以可靠、透明、可调的方式不断生成满足实际应用要求的优质舞蹈动作,堪称行业里首个商业化的舞蹈生成软件。

ChoreoMaster 的技术构思如前文图示,涵盖两大组成部分,其一为配合编舞的音乐 - 舞蹈特征提取(左侧),其二为配合编舞的动作生成(右侧)。这个音乐 - 舞蹈 Embedding 模块运用深度学习手段,从高保真音乐 / 舞蹈资料库着手,建立音乐与舞蹈在风格、节奏协调性上的评估标准,用以精确衡量音乐片段和舞蹈片段之间的风格相似程度以及节奏一致水平;另方面,舞蹈动作合成模块对经典图优化体系加以改进,在动作图谱生成和优化目标设定时,融入了编舞艺术中关于风格、节奏及构造的原理规范。下面分别对这两个模块进行简单介绍。

面向编舞的音乐 - 舞蹈 Embedding

这个部分旨在把音乐风格和舞蹈风格的一致性以及节奏同步性这两项带有主观色彩的特性转变为能够进行计算的具体数值形式。因此,这个组件整体属于一种跨模态的嵌入设计,它由两个分支构成,一个负责风格,另一个负责节奏,分别用来把音乐或动作的原始信息转换到共同的一个低维区域,风格分支的目标是得到32维的风格嵌入,节奏分支的目标是得到8维的节奏嵌入。网络结构如下图所示。

AI舞蹈动画合成_ChoreoMaster舞蹈合成系统_二次元舞蹈动画

在风格方面,ChoreoMaster 首先借助带有风格标识的音乐资料和动作资料,分别去训练两个分类网络,音乐分类网络选用了在音乐标记领域效果顶尖的卷积循环结构作为骨干,里面设有四个卷积层和两个门控循环单元层。该分类模型运用了对称构造,只是把原有卷积单元换成了常用于处理肢体活动信息的图卷积单元。这两个网络各自进行训练,因此在此环节无需匹配的音乐与舞蹈素材

当两个分支分别训练至稳定状态时,ChoreoMaster借助匹配的音乐与舞蹈信息,对这两个分支实施协同训练,训练目的在于促使两个网络在尽可能维持原有分类效果的情况下,将配对的音乐与舞蹈信息转化为差异尽可能小的特征表示。独立与联合两个阶段完成后,音乐分支和动作分支最后一层产生的 32 维向量便形成了音乐和动作的样式编码,通过计算这两个样式编码之间的欧氏距离,能够精确评估音乐与音乐、音乐与动作、动作与动作三者间的风格相似程度。

音乐中的节拍与风格有所区别,节拍能够从乐理层面获得清晰的界定。创作乐曲时,音符会依照相等的时段进行编排,其中最基础的构成部分是一拍。节拍这一概念,具体是指音乐里强音和弱音交替出现的模式。音乐的强弱交替并非随意组合,而是遵循特定模式,这种模式以小节为单位展现,小节是衡量规律的基本单元,每小节包含的节拍数量固定不变。比如 3/4 拍乐曲,其基准音符是四分音符,每小节包含三组节拍。像 2/4、3/4、4/4 这样的拍号形式,统称为音乐的节拍标记体系。

音乐实际演奏时,受各种记号影响,小节内的主要节拍未必完全符合拍号规定位置,有时会出现无音或半个节拍的情形。因此 ChoreoMaster 把 Rhythm Embedding 视作一个叫 Rhythm Signature 的 0-1 数组,该数组中的双数索引和单数索引分别映射到音乐 Time Signature 的主节拍和次节拍位置,数组每个索引的数值则标示该位置是否真的含有乐器节拍成分(数值为 1 代表有,数值为 0 代表无)。Rhythm Signature 的连续零表示乐谱里的连贯演奏。收集到的数据集和实际业务需求大多涉及四拍音乐。因此,ChoreoMaster 当前版本将 Rhythm Signature 设定为八位,具体结构如图所示。

两个 Rhythm Signature 的间隔能够表示为加权曼哈顿间隔,其中偶数位置上的权重为 1,奇数位置上的权重为 0.5。通过这种方式,8 位的 Rhythm Signature 自然形成了一种低维的映射。理论上 Rhythm Signature 的所有组合方式可达 256 种,然而经过专业人员对数据库里所有音乐与舞蹈的配对资料进行评定,研究人员核算得知,实际常见的 Rhythm Signature 只有 13 种。因此 Rhythm 分支的目标能够借助一个基础分类模型达成,此模型同样设有音乐与动作两个子模块,每个子模块均由 2 个卷积单元加 1 个全连接单元组合完成特征获取,接着将数据传入三个参数互通的全连接单元组执行识别任务。

节奏分支与风格分支有所区别,节奏内容更明显地体现在音乐的力度起伏以及动作的速度和加速度等方面,所以节奏分支把音乐能量的高低、起始时间点以及动作数据中骨骼点的速度、加速度、脚部接触地面等情况作为输入依据。另外,Rhythm Signature 的分布跟音乐 / 舞蹈的类型关联性很强,比如民族舞蹈的 Rhythm Signature 里 0 的数量比较多,而都市舞蹈的 Rhythm Signature 中半拍出现的频率较高,所以音乐 / 舞蹈的 Style Embedding 数据也被传输到 Rhythm 分支,与 Rhythm 特征合并,然后一起输入到三个权重大同的全连接分类网络中。

通过之前的说明能够明白,ChoreoMaster 并未像众多其他运用深度学习的音乐舞蹈生成系统那样,借助单一的网络模型来建立音乐与舞蹈的跨领域联系,而是选择了一种分离的思路来分别应对风格和节奏的处理方式。从实际应用角度分析,ChoreoMaster 的这种构思包含两个层面的考量:首先,使风格与节奏分离,有助于增强后续生成算法的透明度和调节能力;其次,独立的节奏模块能更有效地结合音乐理论规则,从而提高系统的实际应用效果和适应范围。

面向编舞的舞蹈动作合成

为提升系统稳定性、明晰度与可管理性,ChoreoMaster 决定采用图形化优化工具,用以构建舞蹈序列。ChoreoMaster 与先前的图优化方法存在差异,它在音乐舞蹈融合的情境中,对「依据图进行动作生成(graph-based motion generation)」体系进行了显著拓展,把舞蹈编排中涉及风格、韵律及构造的法则,整合进了动作图谱的生成过程和图谱优化的目标设定里。先前已对依据图优化实现的舞蹈创编方法略作说明,现着重指出 ChoreoMaster 的独有之处。

在动作图构建方面:

舞蹈动作的划分依据是段落结构,而非节奏单位,换言之,每个动作图谱的点位都与一个完整的舞蹈段落相吻合,这样做能够确保生成的舞蹈动作在每一段落内部构造上的合理性。

计算动作图节点间的转换成本时,不仅考虑了常规的连贯性成本,还增加了基于三十二维风格嵌入度量的风格适配成本,这样做能够防止生成的舞蹈动作产生明显的风格突变,如下图所示,假如仅计算动作连贯的成本,萌系动作便很容易衔接成性感或酷炫动作

运用了若干数据扩充方法,来增加动作图像中的节点数量,具体方式有水平翻转,如下图左侧所示,身体上下部分合并,如图右侧所示,以及小节单元的重新编排。这种重组方式涉及将「1234」与「abcd」这两个部分,转化为「12cd」和「ab34」这两个新部分,条件是「1234」和「abcd」的节奏标识相同、风格嵌入高度相似,同时「12」和「cd」、「ab」与「34」能够无缝衔接组合。上下半身融合和小节重组生成的新数据,全部都进行了人工校验。

在优化目标方面:

通过 Style Embedding 和 Rhythm Signature 的相隔程度来评估音乐与舞蹈小节的一致性,这相当于 HMM(隐马尔可夫模型)里的 data term

根据动作图侧边所记录的转换成本,确定隐马尔可夫模型的转换项;

音乐的构造与舞蹈的布局相似性法则转变为反复(repeat)和对称(mirror)两种限制,这些限制被缓解成惩罚因子并加进了隐马尔可夫模型的目标表达式里。这两种限制只会在极其接近的音乐片段之间出现。在发现两个音乐段落完全相同的情况下,假如它们分属于不同的音乐段落(亦称乐句),那么这两段所对应的舞蹈动作就应当是反复的,例如反复的主歌、副歌所对应的动作也是反复的;倘若这两个音乐段落归属于同一个音乐段落,那么这两段所对应的舞蹈动作就应当是彼此对应的,例如左手一个缓慢动作、右手一个缓慢动作。

最终,借助三次对照研究,可以具体体会一下舞蹈编排的三个准则,即形态、韵律和布局,是如何作用于最终生成的舞蹈的。

更多实现细节和结果展示请参见项目主页:

普通上班族必看!在家做这8个靠谱兼职,月入千元不是梦
« 上一篇 2025-10-09
确认全资收购A站,A站将保持独立发展,背后详情大揭秘
下一篇 » 2025-10-09

文章评论