文生图 Grok 2 发布,生成质量高且内容无限制引热议
01生成质量高,内容“无限”
X上最先引起热议的,是前几天网友做的TEDx AI讲师。
如果仔细观察,宾客卡上的 Google 字样与真实的标志难以区分。
例如这位中国讲师:
在图像准确度方面,FLUX 可谓是把 Gemini 打得落花流水。黑森林实验室主任 Anjney Midha 在 X 上发布了一系列对比图像,对比了一些历史人物的准确度。
古希腊哲学家的肖像,左边是双子座,右边是 Grok 2。
1943 年德国士兵的照片。
超级碗冠军四分卫。
Vincent 的绘画几乎“不受限制”
Grok 2 发布之后,很多网友发现 FLUX 对生成的图片几乎没有任何限制,特朗普、迪士尼米老鼠、泰勒斯威夫特等很多在其他 AI 工具上无法生成的内容,在 FLUX 上都可以生成。
比如米老鼠,老少皆宜。
两位民主党总统热情拥抱。
比尔·盖茨在一张印有微软标志的桌子上吸了一口可卡因。
麦当劳、唐老鸭、皮卡丘,全都是暴力版本。
还有一些 NSFW 图片:
特朗普和马斯克的恶搞图片在推特上成为热门话题。
特朗普现在在监狱里。
特朗普与第二维度。
忍者神龟版的马斯克。
肥胖版的马斯克。
甚至还有这个:
据人工智能分析,Black Forest Lab 的 FLUX.1 模型超越了 Midjourney 和 OpenAI 的 AI 图像生成质量,至少以图像领域的用户排名来衡量是如此。
从品质和生产成本方面来看,FLUX.1 schnell] 遥遥领先。
与其他 vincent graphics 产品不同,Grok 不会拒绝涉及真实人物的提示词,也不会在其输出中添加识别水印。
这种缺乏限制或许是马斯克选择 FLUX 的原因之一,马斯克此前曾多次表示,为大型模型设置安全措施会降低 AI 的安全性。
02 种子轮a16z投资,从一开始就与大公司合作
Black Forest Labs 成立于 8 月 1 日,目前已获得由 a16z 领投的 3100 万美元种子轮融资,Y Combinator CEO Garry Tan、前 Oculus CEO Brendan Iribe 以及一些知名 AI 研究专家也参与其中。
此次发布的FLUX.1型号也根据其功能在商业用途上有所不同。
FLUX.1 pro] 是一个新的 SOTA 文本模型,具有极丰富的图像细节、强大的提示跟踪能力和多样化的风格。目前通过 API 提供,仅开放商业权限。
FLUX.1 dev],FLUX.1 pro] 的一个开放权重、非商业版本,由其提炼而来。该模型的表现优于其他图像模型,例如 Midjourney 和 Stable Diffusion 3。推理代码和权重可在 GitHub 上找到。
开源的 FLUX.1 schnell] 是一个遵循 Apache 2.0 协议的超高效 4 步模型,该模型的性能非常接近 dev] 和 pro],可以在 Hugging Face 上使用。
考虑到初始团队大部分来自Stable Diffusion,本次模式发布也涵盖了商业、开源到完全开源,为商业和企业合作提供了最有力的机会,而且基本版权完全开源。
与Stable Diffusion不同,这次Black Forest Labs与xAI合作,为Grok 2提供图像生成能力,可以说是一次双赢的合作,无论是吸引更多用户,还是为数据飞轮积累更多数据。
对于黑森林实验室来说,此次合作带来的算力和资金支持也应该有助于他们的模型更快地改进。
03 名成员来自 Stable Diffusion 核心团队
这家总部位于德国的公司由 Robin Rombach、Andreas Blattmann 和 Dominik Lorenz 领导,他们都是 Stability AI 的前工程师,以及其他开发基于扩散的 AI 模型的领导者。
Robin Rombach是开发稳定扩散模型的两位主要作者之一,而Andreas Blattmann和Dominik Lorenz也是著名论文《基于潜在扩散模型的高分辨率图像合成》的主要作者。
他们之前的代表作品包括VQGAN和Latent Diffusion,图像和视频生成领域的Stable Diffusion模型(包括Stable Diffusion XL,Stable Video Diffusion和Rectified Flow Transformers),以及用于超快速实时图像合成的Adversarial Diffusion Distillation。
可以说,Black Forest Labs 是 Stable Diffusion 的加强版。
它们很可能将引领开源文本图形的新潮流,甚至改写文本图形领域的进程。
据他们官方介绍,下一步将推出SOTA Vincent视频模型,为视频生成技术奠定基础,目标是把最先进的Vincent视频技术提供给所有人。
参考:
文章评论