在OpenAI和谷歌接连发布展现出强大性能的AI(人工智能)大模型后,AI初创企业Stability AI也坐不住了。
当地时间2月21日,Stability AI推出了旗下文生图模型的最新版本Stable Diffusion 3 (SD3),在官网上开放等候名单。据公司介绍,SD3是他们最强大的文生图模型,在生成图的质量上取得了显著进步,支持多主题提示词输入,并且能实现更好的文字书写效果。
提示:史诗般的动漫作品,一位巫师在夜晚的山顶上向漆黑的天空施放宇宙咒语,咒语写着 “Stable Diffusion 3″,由五彩缤纷的能量生成。来源:Stability AI官网
资料显示,Stability AI成立于2019年,总部位于英国伦敦,自称为“世界顶级的开源生成式AI公司”,在全球范围内拥有超过30万名创作者、开发者和研究者组成的活跃社区。其在2022年8月发布开源文生图工具Stable Diffusion,得到了广泛的迅速传播,并由此走入大众视野。
根据CBinsights数据,Stability AI在此前四轮融资中共获得1.51亿美元,在2022年10月估值达到10亿美元。
和此前的系列模型一样,SD3最大的优势之一在于其为开源模型。Stability AI在官网上写道:“我们坚定不移地致力于确保生成式AI的开放、安全和可以被普遍访问。通过Stable Diffusion 3,我们努力提供具有强适应性的解决方案,使个人、开发人员和企业能够释放他们的创造力,这与我们激活人类潜力的使命相一致。”
来源:Stability AI官网
在技术方面,SD3和最近大火的文生视频模型Sora一样采用了扩散transformer架构,还使用了可以改进扩散模型的、被称为流匹配(flow matching)的新技术。SD3的报告中也提到,Sora创始人之一William Peebles和纽约大学助理教授谢赛宁合写的扩散transformer架构论文为该研究提供了基础。Stability AI表示,SD3是一个模型系列,参数量从800M到8B不等,意味着它可以在很多便携式设备上直接运行,大幅降低了AI大模型的使用门槛。
不过,SD3还没有被全面开放。团队称他们正在采取一些安全措施,防止不法分子滥用该模型。该公司的CEO埃马德·莫斯塔克(Emad Mostaque)在X(原推特)平台上表示,在得到反馈并进行改进后,他们会把该模型开源。莫斯塔克还表示,SD3也具有多模态理解能力。
那么,SD3和和热门OpenAI文生图模型DALL·E 3、Midjourney和Adobe Firefly Image等相比是否更胜一筹?有网友进行了试验,生成图看起来似乎没有很大的差别。不过,鉴于其他三者都是需要付费使用的闭源模型,SD3依然被视为开源领域的希望。
网友在Adobe Firefly Image 2、DALL·E 3、Ideogram和Midjourney中输入相同提示生成的图片。来源:X平台
值得注意的是,除了文生图模型,Stability AI也在布局文生视频赛道,推出了Stable Video Diffusion模型,能够生成2至5秒的视频。而在OpenAI推出Sora的2月15日当天晚间,Stability AI也在官网和X平台上发布了新动态,宣布Stable Video Diffusion更新1.1版本。但是,几分钟后,这两条消息都迅速消失了。随后,莫斯塔克在X平台上感慨“奥特曼(OpenAI的创始人兼CEO)真是一个魔术师”,并称Sora可以被视为AI视频的GPT3,将在未来几年内得到扩展、细化、调整和优化。
另外,据外媒报道,在SD3发布的同一时间,Stability AI旗下图像生成应用公司Clipdrop传出了被收购的消息。总部位于法国巴黎的Clipdrop成立于2020年7月,让用户能够使用开源AI模型生成和编辑照片。它从 Air Street Capital筹集了种子轮投资,在2023年3月以未披露的金额出售给Stability AI。当时,Clipdrop表示其拥有超过1500万用户。但在不到一年后,Stability AI就将它卖给了美国AI辅助写作初创公司Jasper。
有观点指出,Stability AI急着发布SD3,或许就是为了盖过Clipdrop被收购的消息。Stability AI面临的困境和很多AI创业公司一样,正在以惊人的速度“烧钱”,却没有明确的盈利途径,还要时刻面临被OpenAI等高级玩家“降维打击”的威胁。去年年底,Stability AI还传出过CEO可能会被投资者罢免的消息,公司本身或许也在寻求被收购的机会。在这样的情境下,Stability AI迫切需要提振投资者的信心。
暂无评论内容