首页 二次元 正文

日本游戏公司 DeNA 利用 GAN 制造会跳舞的二次元妹子,引谷歌大脑研究员热情推荐

二次元 2024-07-03 148

夏逸云中从奥飞寺发来

出品:QuantumBit 官方账号:QbitAI

全身·高清·2D·女孩·跳舞·视频现在可以自动生成!换衣服只需片刻,女孩的姿势完全由你决定。

形象和舞姿大致是这样的:

二次元萌妹子_动漫萌次元_萌几次元

这是一个比 GIF 更丰富的视频版本:

别激动,孩子们。西斯卡尼擦掉鼻子上的血,听着《Quantum位》继续介绍。

这次让大众受益的要数日本游戏公司 DeNA,他们在官网上详细介绍了如何利用生成对抗网络(GAN)制作一个跳舞的 512×512 像素卡通女孩,下面是一段更直观的视频:

Google Brain 的研究员 David Ha 看到了这项研究,似乎这还不够,他在 Twitter 上热情推荐,并在 Reddit 上发布了链接。Reddit 机器学习版的用户反响热烈,不到一天就获得了超过 180 个赞。

沙发区的网友们想象了本次研究的一个很重要的意义:

离 waifu 时代又近了一步,很棒的技术!

二次元萌妹子_动漫萌次元_萌几次元

甚至有一位志向远大的青年也评论道:

先生们(不是变态),这就是我进入机器学习的原因!

萌几次元_二次元萌妹子_动漫萌次元

如何实现?

好的,现在让我们进入正题:这是如何实现的?

DeNA 把这个任务称为“全身高分辨率卡通人物生成”,他们使用的模型叫 PSGAN,跟 Photoshop 一点关系都没有,全称是 Progressive Structure-conditional Generative Adversarial Networks。

生成跳舞卡通女孩的 PSGAN 有两大功能:

首先是控制女孩的外表,在我们看到的研究结果中,这大致相当于女孩穿的衣服。这项任务是通过插入与服装特征相对应的隐藏值来完成的。

动漫萌次元_二次元萌妹子_萌几次元

第二是让女孩的姿势和输入的姿势信息相匹配,对于一个固定的隐藏值(服装特征),一组连续的姿势信息就能让女孩动起来。

二次元萌妹子_萌几次元_动漫萌次元

实现这两个能力的关键就是让 GAN 学习到带有结构条件的图像表示,这里的结构条件指的是姿势信息,也就是上图中的人体关键点图。

在训练过程中,PSGAN 需要学习根据姿势信息生成女孩,并逐步提高图像的分辨率。

PSGAN 所采用的生成器和鉴别器结构、训练阶段设计、损失函数等基本都来自 NVIDIA,也就是 Karras 等人在 ICLR 2018 上发表的论文:

逐步发展 GAN,提高质量、稳定性和多样性

作者:Tero Karras、Timo Aila、Samuli Laine、Jaakko Lehtinen

PDF:

代码:

当然不是直接拿来用的,PSGAN 在每个分辨率下都加上了对应分辨率的位姿图,为生成器和判别器提供结构条件。

通过这一小小改变,每个分辨率下生成器和鉴别器的训练现在都以结构为条件,并且渐进式训练更加稳定。

萌几次元_动漫萌次元_二次元萌妹子

上图展示了 PSGAN 的生成器(G)和鉴别器(D)架构。白色方块表示可学习的卷积层,分辨率为 NxN,灰色方块表示结构条件下的不可学习的下采样层,分辨率为 NxN,负责将姿势信息的分辨率降低到 NxN。

训练数据集

要建立一个好的模型,数据至关重要。

PSGAN 需要什么样的数据集?答案是:图像对和关键点坐标。

为了构建这样的数据集,这里使用了Unity合成的原始Avatar Anime-Character数据集和通过Openpose检测关键点形成的DeepFashion数据集。

Avatar 动漫角色数据集

要为 PSGAN 构建数据集,需要满足三个要求:

1.姿势多样。

为了制作流畅、自然的动画,需要准备各种不同的姿势。

2.训练图像的数量。

通过使用Unity生成的3D建模头像,可以获得大量带有关键点图的合成图像,无需任何人工注释。

3.去除背景。

我们将背景颜色设置为白色,并消除不必要的信息,以避免对图像生成产生负面影响。

我们将人物图像的若干个连续动作分解为600个姿势,并捕捉每个姿势的关键点;对79种服装也进行同样的分解,共获得47400幅图像;并根据3D模型的骨骼位置获取20个关键点。

下图展示了训练数据的一个样本:动漫人物(第一行)和姿势图像(第二行)。

萌几次元_动漫萌次元_二次元萌妹子

DeepFashion 数据集

PSGAN 利用姿态信息为图像生成网络添加结构条件,我们使用 Openpose 从没有关键点标注的图像中提取关键点坐标,关键点数量为 18 个,丢弃关键点检测少于 10 个的情况,关键点较少的关键点用 -1 填充,其他关键点设置为 1。

就在拐角处

当然,这个舞女生成器目前还不够成熟,作者也坦言,只有一个脸,只有几个姿势,还不足以让年轻人欣赏。

所以他们下一步会尝试将 PSGAN 应用于更多场景,更让人印象深刻的是,上文提到的 Avatar Anime-Character 数据集也即将公开。

如果您也对该研究的后续研究感兴趣,可以在 Twitter 上关注 Koichi Hamada (@hamadakoichi)。

DeNA的官方网站没有列出这项研究的参与者,但从推文的热情来看,该公司的研究工程师Koichi Hamada显然是作者之一。

动漫萌次元_二次元萌妹子_萌几次元

除了DeNA的作者之外,谷歌的一些专家也对这项研究表现出了浓厚的兴趣。

在看到这个项目后,Google 负责 Tensorflow.js 的 Nikhil Thorat 赶紧将推出人体姿势估计工具 PoseNet 的 Dan Oved 也放到了 TensorFlow.js 上,并讨论将这个卡通女孩生成器也放到 Posenet 上。

希望他的愿望能够早日实现,也希望Posenet上的PSGAN能够更加容易使用。

如果你迫不及待想要自己训练一个……你可以尝试上面提到的 GAN 的渐进式增长,然后使用 DeNA 介绍的训练方法。不过,自己获取数据集可能比较困难。

DeNA原文:

老婆时代就要来了。(/≧▽≦)/

- 超过-

加入社区

量子比特AI社区第16群开始招募,欢迎对AI感兴趣的同学添加助手微信qbitbot6入群;

此外,专业量子比特子课题组(自动驾驶、CV、NLP、机器学习等)正在招募相关领域的工程师和研究人员。

进群请添加助手微信号qbitbot6,记得备注对应群的关键词哦~审核通过后我们会邀请你进群。(专业群审核比较严格,请谅解)

诚挚招聘

Qbit正在招聘编辑/记者,工作地点为北京中关村。期待有才华、有热情的同学们加入我们!相关详情请在Qbit公众号(QbitAI)对话界面回复“招聘”字样。

二次元萌妹子_动漫萌次元_萌几次元

量子比特QbitAI·今日头条签约作者

追踪人工智能技术和产品的新趋势

掌握 SEO 窍门,实现网页优化:从 title 开始提升网站排名
« 上一篇 2024-07-03
一文说清楚关键词分析的整体思路,让网站获取更好排名
下一篇 » 2024-07-03

文章评论


这项技术真是太令人惊叹了!利用生成对抗网络(GAN)制作高清晰度卡通女孩跳舞视频,无疑是一项突破性的技术,期待这一技术的进一步发展和应用推广能带来更多有趣和创新的体验。#二次元萌妹子# #AI科技前沿探索者联盟#"

这项技术真是太令人惊叹了!利用GAN制作跳舞的卡通女孩,不仅形象逼真、动作流畅自然,期待这项技术的进一步发展和广泛应用在娱乐和教育等领域中为我们带来更多惊喜和乐趣~