二次元创作神器:YoYo 网站,一键生成高质量动漫内容
现在,各位2D世界的新人,你们不用再等待“Madam”发布图片了!
我们不仅可以生产自己的食物,而且它还可以移动。
动画创作从脚本构思、关键帧绘制、骨骼绑定到动态渲染,需要花费大量的时间和精力。
作为一名普通的动漫爱好者,如果想要和自己喜欢的角色同框,或者是进行二次创作,在没有绘画技巧的情况下仅仅是幻想而已。
然而,一个专门为二次元打造的创意网站“YoYo”
只需进行文字提示或上传图片等简单操作,即可一键生成优质一致的动漫内容,让您喜爱的角色在您的“粉丝视频”中活灵活现!
大陆站门户:
海外网站入口:yoyo.art
一键获取粉丝视频
可以看到,YoYo 不仅拥有简洁的创建界面,而且使用起来也非常方便。
而且最重要的是,对于动漫爱好者和创作者来说,二次元的氛围极具沉浸感。
无论是提示文字还是图片,都有着十分丰富的优质素材——囊括了本子娜、5T5、头珠等数十位人气角色,以及将绘、平绘等多种风格,可以说是一站式收集,让人看得过瘾。
这些定制选择可以控制角色的设计、故事方向,甚至生成过程中的每一个细微的动画效果。
图形动画
不用多说,让我们来看一些例子。
飘落的樱花,点头的微笑,再加上精美的背景和服饰,日本动漫的氛围立刻扑面而来。
燃烧的蜡烛、闪闪发光的眼睛、黑色的洛丽塔和怪异的气氛都被完美地捕捉到了。
提示:最高品质,杰作,插图,超级详细,(1 名女性:1.2),齐肩长发,哥特式服装,闹鬼建筑,手拿蜡烛,诡异
接下来我们来看看角色令人惊讶的一致性。
来自憎恶邪恶的屠龙少女——
在森林里散步的少女——
或是坐在水中的仙女公主——
提示:1女孩,白发,精灵,蓝眼睛,长发,尖耳朵,坐在河里,星星,白色连衣裙,静静地坐在水面上
顺便说一下,还支持中英文混合提示。
提示:1女孩,两眼之间的头发,白色的头发,蓝色的眼睛,长发,不戴帽子,白色连衣裙,精灵,尖耳朵,瀑布,坐在瀑布下,双手合十,闭上眼睛
从以上动图可以看出,AI还原的表情准确、富有表现力,让短视频充满了故事性。(白发粉丝欣喜若狂)
头发、蒲公英和裙子在风中飘扬,看起来非常自然。
飘落的雪花与杯中升起的热气交织在一起,一眼便可分辨。
巨大的“萝卜”矗立在城市中,高耸的摩天大楼描绘出一幅令人震撼的景象。
提示:机甲、无人、独自一人、云、武器、科幻、发光、天空、手持武器、建筑物、城市
除了角色之外,背景的生成也非常具有电影感。
提示:鸟瞰梦幻的森林大陆,有森林湖泊、小镇、远处的山脉。
提示:古雅小镇的繁华街市
从现在起,无论我们脑海中的场景有多么精彩,我们都可以以动画的方式还原它!
提示:梦幻森林大陆上的一片森林,有小兔子,小松鼠,还有五颜六色的蘑菇
提示:一头有着梅花角的雪白鹿站在雪山顶上,望着远方,周围散发着淡淡的光芒。
一键“复制”屏幕
✪在“风景”场景中,我们只需点击一下就可以“复制”朋友生成的喜欢的场景。
✪选择“材质”后,模型会根据同样的提示,生成类似风格的图片。
✪然后点击“生成视频”——穿着JK制服的长发少女和弹钢琴的白猫,这画面太美了。
生成模型
目前AI生成视频主要存在两大技术缺陷:可控性和生成速度。
之前的模型大多以图片或者文字指令作为生成条件,缺乏对视频中动作的精准交互控制,生成视频的速度也非常慢,会严重影响C端应用的用户体验。
为了解决这些模型缺陷,绿影团队长期致力于技术研发,并取得了丰硕的成果,发表了多篇富有实践意义的高水平论文。
运动-I2V
今年1月刚刚发表的Motion-I2V论文提出了一种创新的图像生成视频框架,即使对于复杂的图像也可以生成一致、可控的视频。
论文地址:/abs/2401.15977
以前的方法,例如 AnimateDiff 架构,通常让模型负责运动建模和视频生成,直接学习从图像到视频的映射关系。
论文指出,这种两个过程的合并会导致细节运动失真和时序不一致。Motion-I2V 选择将这两个过程解耦。
第一阶段使用基于扩散模型的运动场预测器,专注于给定图像和文本提示的像素级运动轨迹推断,并预测参考帧和所有未来帧之间的运动场映射。
在第二阶段,提出了一种新颖的运动增强时间层来增强模型中有限的一维时间注意力。此操作可以扩展时间感受野,同时减轻学习时空模式的复杂性。
在第一阶段轨迹预测的指导下,第二阶段模型可以更有效地将给定图像的特征传播到合成视频帧中。结合稀疏轨迹控制网络Control-Net,Motion-I2V还可以支持用户精确控制运动轨迹和运动区域。
这种方式比单纯依赖文本提示为 I2V 过程提供了更多的可控性。此外,第二阶段模型还天然支持零样本生成和视频到视频的转换。
与现有方法相比,Motion-I2V 即使在存在较大动作和视点变化的情况下也能生成更一致的视频。
从demo中可以明显看到,相比于Pika、Gen-2等模型,Motion-I2V确实能够模拟出更好的运动形态,视觉细节也更加真实。
动画LCM
文胜视频方面,今年2月发布的AnimateLCM模型公开了其源代码和预训练权重,仅需4个迭代步骤便可生成高质量动画,因此受到开源社区的广泛欢迎,单月下载量超过6万次。
仓库地址:
huggingface.co/wangfuyun/AnimateLCM
文章指出,虽然扩散模型具有出色的生成效果,但迭代去噪过程包含30至50步,计算量大且耗时,从而限制了其实际应用。
该团队受到潜在一致性模型(LCM)的启发,旨在以最少的步骤生成高质量的现实模型。
论文地址:/abs/2402.00769
AnimateLCM 并不是直接在原始视频数据集上进行训练,而是从训练好的 Stable Diffusion 模型中提炼先验知识,并采用解耦策略将图像生成和运动生成的先验分离,然后在图像模型上进行 3D 扩展,可以提高训练效率和生成质量。
此外,为了让AnimateLCM模型能够更好地适配社区广泛使用的各种适配器,论文提出了一种“加速”策略来训练适配器,而无需额外的教师模型。
实验证明,该策略是有效的,且与图像条件适配器或布局条件适配器一起使用时具有良好的兼容性,不仅不会损害采样效率,还实现了模型功能的扩展。
除了文本生成和图像生成的视频之外,AnimateLCM 还可以在零镜头情况下进行高效的视频风格转换,或者用于将视频长度延长至基本长度的 4 倍且保持近乎完美的一致性。
阶段一致性模型
虽然AnimateLCM已经取得了不错的成绩,但是开发团队并没有就此止步,而是选择在此基础上进一步探索。
在5月份发表的最新论文中,作者指出潜在一致性模型仍然存在一些根本性的缺陷,论文逐一调查了这些缺陷背后的原因,并提出了改进的阶段性一致性模型(PCM),取得了明显的进步。
论文地址:/abs/2405.18407
CM和LCM的设计局限性主要体现在三个方面:
可控性
在图像和视频生成中,有一个重要的参数叫CFG(classifier-free guide),它控制着文字提示对生成结果的影响程度。CFG值越高,图像或视频与提示的相关性越高,但同时也增加了画面失真的可能性。
Stable Diffusion模型在较大的CFG值范围(2至15)内都能拍出很好的图像,但是LCM可接受的CFG值一般不能超过2,否则会出现过曝问题。
无法提高CFG值,极大限制了文本提示对生成视频的可控性。另外,LCM对负面提示也非常不敏感,比如下图第一个例子中,模型会“公然”无视提示要求,生成一只黑毛的狗。
一致性
两种模型都只能采用随机多步采样算法,因此即使是从相同的种子开始生成,在推理过程中各个步骤之间也会出现明显的不一致。
效率
除了以上两个缺点之外,作者发现LCM在少于4步的少步推理中无法给出良好的生成结果,从而限制了采样效率。
PCM的架构设计很好的解决了以上三个缺陷。
- PCM 模型支持确定性采样,并可在多个推理步骤中保持图像一致性
- PCM可以使用LCM中没有的通用常微分方程求解器,代替原有的CFG增强求解策略,使得模型可以接受更高的CFG值
- 在潜在空间中引入对抗性损失,保证图像分布的一致性,在少步推理的情况下大大提升生成效果
在实施了针对性的解决方案后,PCM在1至4步推理中生成的视频效果相比LCM有了明显的提升,后续的消融实验也证明了PCM这些创新设计的必要性。
从MotionI2V到AnimateLCM,再到最新的PCM,绿影团队在逐步迭代中不断寻求突破和改进,才有了PCM惊艳的效果。从基准测试成绩和横向对比中,都可以看出模型性能的先进性。
在单步推理生成图像时,PCM方法在两个数据集、五项指标上的得分均近乎超越Stable Diffusion-Turbo,一致性得分优势更为显著,由SD-Turbo的0.71提升至0.81。
当推理步数从1步增加到16步时,这种优势仍然很明显,大多数情况下,使用普通ODE解的方法更优。
当使用CLIP评分、光流估计和CLIP一致性来定量评估视频生成质量时,PCM模型在少步推理(≤4步)中仍然取得明显优势,并且相对于另外两个基于Diffusion的基线模型DDIM、DPM和AnimateLCM有了很大的提升。
值得一提的是,绿影科技的研发并非一蹴而就,他们的技术创新已持续数年,并在不断迭代。
例如2022年提出的新颖架构FlowFormer在当时的Sintel光流基准测试中排名第一,2023年发布的视频光流估计框架VideoFlow在所有公开基准测试上刷新了SOTA。
论文地址:/abs/2203.16194
论文地址:/abs/2303.08340
MPI Sintel 是一个由华盛顿大学、佐治亚理工学院和马克斯普朗克研究所的研究人员开发的开源数据集,是光流算法领域使用最广泛的基准之一,其中的样本很好地代表了自然场景和运动,这对当前的方法来说非常具有挑战性。
在最新排名中,VideoFlow系列占据了前五名中的三个位置,其中ViCo_VideoFlow_MOF位列第一,足见绿影团队的技术积累和硬实力。
我们一直高呼中国动画崛起,但新作品却一直进展缓慢,始终没有实现真正的突破。
未来随着AI的引入,动画制作的现状和创造力将会得到很大的改善。
对于绿影科技来说,接下来要做的事情就是将科研成果快速转化,让AI工具助力原创动画实现指数级增长。
本文来源:新智元《国产动画视频AI火了!可以自由打造你的2D老婆,哥特、玄幻、机甲一键搞定》
欢迎加入YoYo社区,一起冒险!
文章评论