2024-02-26 11:59 新智元

地表最强开源AI绘画模型Stable Diffusion V3重磅登场:与Sora采用相似技术,一大波样片抢先看

图片

随着AI绘画逐渐影响整个视觉创作行业。带来了两种非常显著的变化——

其一是画师群体的薪酬待遇,停滞不前甚至明显滑坡,每幅作品单价暴跌。

其二是越来越多小微企业选择AI绘制海报,开源节流的大背景下,即便画面出现BUG也在所不惜。

比如国内某企业的海报,就出现了“吃意面BUG”。?

图片

最近OpenAI的Sora诞生更是爆火全网,甚至引来了知名好莱坞影星威尔·史密斯蹭热点。

图片

他在推特(X)上发布了一则吃意面的视频,并附文「一年前的AI视频 VS 现在的AI视频」。

史密斯自称视频由Sora生成,但事实上是他亲自创作的“AI视频”模仿秀玩梗,引发了广泛的转发与热议。

那么问题来了,今天的AI,能否很好地应对“吃意面”这个画面创作呢?

在揭晓答案之前——让我们领略Stability AI刚扔下的?炸弹——新一代的本地AI绘图创作模型Stable Diffusion 3正式发布了。

图片

目前推出了Alpha预览版,将于近期开放给普通用户。

AI生图效果超越自我,再次到达了新的高度!

图片

官图封面用的提示词是:

「在一幅充满史诗感的动漫画面中,一位巫师屹立于夜幕笼罩的山巅之上,正用他的法杖向漆黑无垠的夜空中施展一道震撼宇宙的魔法。这道法术在夜空中绽放,化作由五彩缤纷的能量构成的[Stable Diffusion 3]字样,犹如夜空中最璀璨的星辰。」

眼尖的家人们已经发现了,Stable Diffusion 3可以生成完整可读的单词文字。

在过去,AI绘图是很难生成正常的文字的。因为在大模型眼里,它“读不懂”人类的文字。

网友使用同样的提示词进行复刻,同样惊艳:

图片

此外,Stable Diffusion 3也采用了与Midjourney V6、DALL·E 3相仿的自然语言提示词,无需再折腾复杂的关键词公式。

有内测网友惊呼:Stable Diffusion 3还原提示词的一致性是我见过最好的!

图片

这次的Stable Diffusion 3在图像质量、多个对象、拼写能力方面,都得到了显著提升。

甚至,它似乎还“涌现”出了对物理世界的理解。

往下我们接着后文分解。

先看两个生成案例:

图片

提示词:

「一匹马优雅地站在一个五彩斑斓的球上,周围是一片生机勃勃的绿色草地。远处,一座雄伟的山峦巍峨地矗立。」

图片

提示词:

「一个红色的球体放在一个蓝色的立方体上面。在它们后面是一个绿色的三角形,在右边是一只狗,在左边是一只猫。」

相比之下,DALL·E 3创作的画面就比较凌乱,而且拟真度不足。

图片

Stability AI的CEO总结了一份Stable Diffusion 3.0的更新日志:

- 采用了与Sora视频模型类似的扩散模型技术,并结合了流匹配(Flow Matching)等多项技术改进

- 通过利用对Transformer架构的改进,不仅使得系统扩展性更强,还能处理多种类型的输入数据

- 新一代模型将以开源形式发布,并通过预览版的测试来进一步提升系统的质量和安全性

- 正式上线时,Stability AI将发布一套完整的创作工具

- 基于最新的GPU硬件技术打造的新平台,支持多种参数规模的版本

- 支持生成视频、3D建模以及更多类型的内容创作

- 需要更强大的GPU来实现更突出的运算结果

据悉,Stable Diffusion 3模型的参数规模将覆盖8亿到80亿之间。

至少得英伟达RTX30系列及以上消费显卡来跑。

相较于上一代SDXL模型,Stable Diffusion 3拥有更强大的局部修改与细节控制能力。官方发布了一则短片为我们演示。

,时长00:18

正在吃寿司?的小猫咪,可以轻松变成其他的菜色以及其他的动物形象。

甚至可以替换背景,以及让静态图动起来。

下面,让我们集中看几个新模型的亮点。

文本单词渲染能力超进化

以前的老大难,如今完美解决。

用户可以直接输入提示词,要求大模型为你生成指定的文字。

图片

从左到右分别为DeepFloyd IF、DALL·E 2、Bing Image Creator、Midjourney V5.2、SDXL V0.9图像生成器。

生成的路牌,完全不知所云。

再看Stable Diffusion 3生成的黑板上的字。

图片

AI在黑板上正确写出了「go big or go home」。光影、景深较为自然,乍看之下并无破绽。

提示词:

「这张电影级视觉效果的照片,捕捉到了一个静谧的教室瞬间,一颗鲜红的苹果静静地躺在桌子上,而在它背后的黑板上,则用醒目的粉笔字写着——[要么做大,要么回家]。」

近期发布的Midjourney V6也支持生成简单文字了,它的创作是这样的。不愧是MJ,也不错呢~

图片

谷歌这周上线的付费版本Gemini Advanced画成了这样,构图比较简单,没有完全体现提示词的内涵。

图片

DALL·E 3的图是这样的,黑板上的字更像印刷体。

图片

面对不同的材质,Stable Diffusion 3可以进行合理的推理,并生成各种形式的文字渲染。

图片

布匹上的绣花字。

图片

电脑屏幕上的数码体,墙壁上的喷涂体。

图片

符合画风的动漫字体。

下面这张示例图更出色:

图片

「在这幅夜幕下的摄影作品中,一辆标有「SD3」字样的运动赛车正在赛道上疾驰。背景里,一块巨大的路牌显眼地展示着「faster」一词。」

大模型创作了极富速度感的广告字体。

图片

试剂瓶上的标记数字。

图片

地铁里的霓虹灯牌。

Stable Diffusion 3.0能在文字渲染能力上取得显著提升,得益于在模型训练时在Transformer架构内融入文本编码功能。

官方介绍称,大模型不仅能生成完整句子,还能保持与画面风格的高度一致性。

图片

再看下面一组提示词,难倒了一众好手——

「宇航员撑着粉色雨伞、骑着一只穿着芭蕾舞短裙的猪的画,猪旁边的地上是一只戴着高顶帽子的知更鸟,画面的角落里写着[Stable Diffusion]。」

别看句式不长,对于大模型理解生成对象的属性、相对位置,以及正确呈现字体放置的位置有严格要求,着实是一道压轴题。

面对如此复杂的需求,Stable Diffusion 3完美复现!

图片

DALL·E 3虽然画面可圈可点,但是「Diffusion」拼错了。

图片

Bing Image Creator的创作风格凌乱,拼写也不正确。

图片

Gemini Advanced一如既往的随意,省去了多个提示词提及的元素。

图片

Midjourney登场即放大招,画面质量拉满,但是「Stable Diffusion」没拼对。

图片

综合下来,唯有Stable Diffusion 3完全符合一致性的需求。

除了会写字,画质也逼近业内头部

除了能说会道,Stable Diffusion 3作为一款开源图像模型,在成像画质方面也快速追上了当前主流的在线闭源模型。

比如「变色龙在黑色背景上的摄影棚照片特写」,它生成的图是这样的:

图片

Gemini Advanced生成的图像:

图片

Midjourney V6创作的图像:

图片

几款头部模型,画出来的变色龙都具有极高的拟真度,高手过招,难以拉开差距。

往下我们还能看到更多Stable Diffusion 3的创作案例。

无论是在自然写实,还是在动漫,亦或有故事元素的海报,Stable Diffusion 3处理画风与文字字体相协调可谓得心应手。

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

最后——回到本文刚开始聊到的「吃意面BUG」。?

一起来检视AI绘图的终极测试——挑战“威尔·史密斯吃意面”。

图片

挑战地表最难的题目之一——

这次Stable Diffusion 3生成的图像,尽管史密斯的牙齿?有点奇怪,总体画风没崩坏,闯关基本算成功。

新模型技术与Sora系出同门

Stable Diffusion 3.0突飞猛进的表现得益于它采取了全新的架构设计。

Stability AI CEO亲口承认:

“Stable Diffusion 3采用了Diffusion Transformer架构,这是一种新型的架构设计,与OpenAI最近发布的Sora模型采用的架构相似。”

图片

Stable Diffusion的老版本里,均未采用当下最流行的生成式AI架构——Transformer。

Sora之所以能够生成如此丝滑的视频,得益于它创新的模型训练手段,以及Transformer架构底下的扩散生成原理。

因此,在新技术的加持下,Stable Diffusion取得了惊人的进步。

普通人怎样体验Stable Diffusion 3?

即刻加入排队候补名单:

https://stability.ai/stablediffusion3

收到通过邮件后,可以在Discord社区率先体验。

新智元 原创作者

知名AI科技媒体