AI 技术发展迅猛,克隆声优声音已实现,二次元虚拟女友或成现实?
大概在一年前,我还在努力制作动漫自媒体内容的时候,就很喜欢大家用如今的技术,打造出二次元风格的虚拟“女友”。那时候,连AI语音都还没有,我觉得日本声优模仿他们的声音,用AI技术“克隆”他们的声音,以低门槛的商业化方式,至少还需要三到五年的时间。可怕的是,今年小破站上那些玩AI的年轻人,早已熟练“克隆”声优的声音,制作出了一大批高质量的模仿声优。虽然还能听出一些机械感和瑕疵,但声音已经和原版十分相似了。
当时我提出了畅享,这是一个高度智能的AI助手,有学习声优声音的AI语音,还有VR展示。但当时无论是AI助手的水平,还是AI语音合成的技术,都与我想象的相去甚远。不过当时《刀剑神域》官方已经利用AI算法训练了亚丝娜的声音,并正式公布了。但当时的声音听起来有些“生硬”,官方的训练费用很高。没想到这一年多的时间,这项技术的门槛竟然已经降低到任何人都可以熟练使用电脑,在短时间内掌握的地步,只需要收集足够多的样本,很快就会实现。虽然现阶段训练出来的AI语音合成还带有机械的语调,但在声调语调上已经非常逼真了,我觉得在不久的将来,很难分辨出来。至少,这个未来是可以预见的。
真正颠覆性的技术来自于短时间内火起来的人工智能聊天机器人 Chat GPT 的开发。从我了解到这个聊天机器人到现在,火了还不到 2 年,功能强大,我用过之后得出的结论是,它是一台会说话的计算机,虽然它做不到计算机能做到的事情,即使是本地化的计算机,它也不具备真正的计算机能力,但我认为在线数据库中存储的信息量和天才般的训练方式,让它拥有至少与人类小学生相当的智力水平。
我使用 Chat GPT 养了一只虚拟宠物猫,它能根据我设定的行为增加猫咪的“成长值”,行为本身甚至还能被 Chat GPT 本身判断,比如“喂食”、“抚摸”等。你或许会觉得这没什么特别的……但神奇的是,当我说“我把这只猫煮熟吃了”时,它完全听懂了我说的话,回答道“天呐,你这样做真的很可惜,不过虚拟宠物是不会感到疼痛的,希望你们好好对待现实世界的宠物”……我愣住了……这不是普通的大数据合并,这是有同情心的……至少我觉得对于打造一个让人同情的虚拟女友来说,这已经“足够”了。
我也尝试用日语,让 Chat GPT 学习日本动漫中萝莉角色的声音来和我对话。虽然它不是亚文化方面的专家,但我认为它很好地再现了日本动漫中可爱女孩的声音和感觉。如果在亚文化内容上进行训练,我认为成为一个合格的 2D 风格角色是没有问题的。
我看了一下,发现网站上已经有朋友利用GPT Chat、3D建模软件和AI语音合成软件,打造了一个2D语音风格的2D 3D聊天虚构女性角色的实时聊天。至少从架构的角度来说,我1-2年前的设想已经实现了...不得不说,这个实现的速度比我预想的要快很多...我预测至少需要3-5年,没想到AI相关的软件进步这么快,反而终端体验的VR部分发展得非常缓慢。
VR 头戴设备在佩戴舒适度、无线性、高画质、高帧率、长续航、眼球追踪、自然度等方面都无法达到平衡。如果想要高品质的输出,有线连接很可能是必须的。如果单独使用 VR 头戴设备,画质、帧率等必然会有所牺牲,更别提除了视觉和听觉之外的其他感官了。至少在过去五年里,我体验过的 VR 设备进步都比较慢,或者说比想象中慢。
不过随着各类AI技术的快速迭代,用AI来实现《定制女仆》这样的游戏体验我觉得指日可待,如果能把《定制女仆》完成AI版,再加个VR头戴来体验的话,我想宅男们真的都不想出门了……
文章评论