2024-02-26 11:59
新智元
地表最强开源AI绘画模型Stable Diffusion V3重磅登场:与Sora采用相似技术,一大波样片抢先看
随着AI绘画逐渐影响整个视觉创作行业。带来了两种非常显著的变化——
其一是画师群体的薪酬待遇,停滞不前甚至明显滑坡,每幅作品单价暴跌。
其二是越来越多小微企业选择AI绘制海报,开源节流的大背景下,即便画面出现BUG也在所不惜。
比如国内某企业的海报,就出现了“吃意面BUG”。?
最近OpenAI的Sora诞生更是爆火全网,甚至引来了知名好莱坞影星威尔·史密斯蹭热点。
他在推特(X)上发布了一则吃意面的视频,并附文「一年前的AI视频 VS 现在的AI视频」。
史密斯自称视频由Sora生成,但事实上是他亲自创作的“AI视频”模仿秀玩梗,引发了广泛的转发与热议。
那么问题来了,今天的AI,能否很好地应对“吃意面”这个画面创作呢?
在揭晓答案之前——让我们领略Stability AI刚扔下的?炸弹——新一代的本地AI绘图创作模型Stable Diffusion 3正式发布了。
目前推出了Alpha预览版,将于近期开放给普通用户。
AI生图效果超越自我,再次到达了新的高度!
官图封面用的提示词是:
「在一幅充满史诗感的动漫画面中,一位巫师屹立于夜幕笼罩的山巅之上,正用他的法杖向漆黑无垠的夜空中施展一道震撼宇宙的魔法。这道法术在夜空中绽放,化作由五彩缤纷的能量构成的[Stable Diffusion 3]字样,犹如夜空中最璀璨的星辰。」
眼尖的家人们已经发现了,Stable Diffusion 3可以生成完整可读的单词文字。
在过去,AI绘图是很难生成正常的文字的。因为在大模型眼里,它“读不懂”人类的文字。
网友使用同样的提示词进行复刻,同样惊艳:
此外,Stable Diffusion 3也采用了与Midjourney V6、DALL·E 3相仿的自然语言提示词,无需再折腾复杂的关键词公式。
有内测网友惊呼:Stable Diffusion 3还原提示词的一致性是我见过最好的!
这次的Stable Diffusion 3在图像质量、多个对象、拼写能力方面,都得到了显著提升。
甚至,它似乎还“涌现”出了对物理世界的理解。
往下我们接着后文分解。
先看两个生成案例:
提示词:
「一匹马优雅地站在一个五彩斑斓的球上,周围是一片生机勃勃的绿色草地。远处,一座雄伟的山峦巍峨地矗立。」
提示词:
「一个红色的球体放在一个蓝色的立方体上面。在它们后面是一个绿色的三角形,在右边是一只狗,在左边是一只猫。」
相比之下,DALL·E 3创作的画面就比较凌乱,而且拟真度不足。
Stability AI的CEO总结了一份Stable Diffusion 3.0的更新日志:
- 采用了与Sora视频模型类似的扩散模型技术,并结合了流匹配(Flow Matching)等多项技术改进
- 通过利用对Transformer架构的改进,不仅使得系统扩展性更强,还能处理多种类型的输入数据
- 新一代模型将以开源形式发布,并通过预览版的测试来进一步提升系统的质量和安全性
- 正式上线时,Stability AI将发布一套完整的创作工具
- 基于最新的GPU硬件技术打造的新平台,支持多种参数规模的版本
- 支持生成视频、3D建模以及更多类型的内容创作
- 需要更强大的GPU来实现更突出的运算结果
据悉,Stable Diffusion 3模型的参数规模将覆盖8亿到80亿之间。
至少得英伟达RTX30系列及以上消费显卡来跑。
相较于上一代SDXL模型,Stable Diffusion 3拥有更强大的局部修改与细节控制能力。官方发布了一则短片为我们演示。
,时长00:18
正在吃寿司?的小猫咪,可以轻松变成其他的菜色以及其他的动物形象。
甚至可以替换背景,以及让静态图动起来。
下面,让我们集中看几个新模型的亮点。
以前的老大难,如今完美解决。
用户可以直接输入提示词,要求大模型为你生成指定的文字。
从左到右分别为DeepFloyd IF、DALL·E 2、Bing Image Creator、Midjourney V5.2、SDXL V0.9图像生成器。
生成的路牌,完全不知所云。
再看Stable Diffusion 3生成的黑板上的字。
AI在黑板上正确写出了「go big or go home」。光影、景深较为自然,乍看之下并无破绽。
提示词:
「这张电影级视觉效果的照片,捕捉到了一个静谧的教室瞬间,一颗鲜红的苹果静静地躺在桌子上,而在它背后的黑板上,则用醒目的粉笔字写着——[要么做大,要么回家]。」
近期发布的Midjourney V6也支持生成简单文字了,它的创作是这样的。不愧是MJ,也不错呢~
谷歌这周上线的付费版本Gemini Advanced画成了这样,构图比较简单,没有完全体现提示词的内涵。
DALL·E 3的图是这样的,黑板上的字更像印刷体。
面对不同的材质,Stable Diffusion 3可以进行合理的推理,并生成各种形式的文字渲染。
布匹上的绣花字。
电脑屏幕上的数码体,墙壁上的喷涂体。
符合画风的动漫字体。
下面这张示例图更出色:
「在这幅夜幕下的摄影作品中,一辆标有「SD3」字样的运动赛车正在赛道上疾驰。背景里,一块巨大的路牌显眼地展示着「faster」一词。」
大模型创作了极富速度感的广告字体。
试剂瓶上的标记数字。
地铁里的霓虹灯牌。
Stable Diffusion 3.0能在文字渲染能力上取得显著提升,得益于在模型训练时在Transformer架构内融入文本编码功能。
官方介绍称,大模型不仅能生成完整句子,还能保持与画面风格的高度一致性。
再看下面一组提示词,难倒了一众好手——
「宇航员撑着粉色雨伞、骑着一只穿着芭蕾舞短裙的猪的画,猪旁边的地上是一只戴着高顶帽子的知更鸟,画面的角落里写着[Stable Diffusion]。」
别看句式不长,对于大模型理解生成对象的属性、相对位置,以及正确呈现字体放置的位置有严格要求,着实是一道压轴题。
面对如此复杂的需求,Stable Diffusion 3完美复现!
DALL·E 3虽然画面可圈可点,但是「Diffusion」拼错了。
Bing Image Creator的创作风格凌乱,拼写也不正确。
Gemini Advanced一如既往的随意,省去了多个提示词提及的元素。
Midjourney登场即放大招,画面质量拉满,但是「Stable Diffusion」没拼对。
综合下来,唯有Stable Diffusion 3完全符合一致性的需求。
除了能说会道,Stable Diffusion 3作为一款开源图像模型,在成像画质方面也快速追上了当前主流的在线闭源模型。
比如「变色龙在黑色背景上的摄影棚照片特写」,它生成的图是这样的:
Gemini Advanced生成的图像:
Midjourney V6创作的图像:
几款头部模型,画出来的变色龙都具有极高的拟真度,高手过招,难以拉开差距。
往下我们还能看到更多Stable Diffusion 3的创作案例。
无论是在自然写实,还是在动漫,亦或有故事元素的海报,Stable Diffusion 3处理画风与文字字体相协调可谓得心应手。
最后——回到本文刚开始聊到的「吃意面BUG」。?
一起来检视AI绘图的终极测试——挑战“威尔·史密斯吃意面”。
挑战地表最难的题目之一——
这次Stable Diffusion 3生成的图像,尽管史密斯的牙齿?有点奇怪,总体画风没崩坏,闯关基本算成功。
Stable Diffusion 3.0突飞猛进的表现得益于它采取了全新的架构设计。
Stability AI CEO亲口承认:
“Stable Diffusion 3采用了Diffusion Transformer架构,这是一种新型的架构设计,与OpenAI最近发布的Sora模型采用的架构相似。”
Stable Diffusion的老版本里,均未采用当下最流行的生成式AI架构——Transformer。
Sora之所以能够生成如此丝滑的视频,得益于它创新的模型训练手段,以及Transformer架构底下的扩散生成原理。
因此,在新技术的加持下,Stable Diffusion取得了惊人的进步。
普通人怎样体验Stable Diffusion 3?
即刻加入排队候补名单:
收到通过邮件后,可以在Discord社区率先体验。
知名AI科技媒体