谷歌用新AI超越自己:让Imagen能够指定生成对象,风格还能随意转换
给Imagen加上命中你所指的地方的能力会变得多强只需上传3—5张指定物体的照片,然后用文字描述出你想要生成的背景,动作或表情,指定物体就能闪进你想要的场景,动作表情都栩栩如生
不仅是动物,其他物品如太阳镜,书包和花瓶也可以制成几乎是真正的成品:
属于那种不会被别人看到的朋友。
这种神奇的文本图像生成模型被命名为DreamBooth,是谷歌的最新研究成果在Imagen的基础上进行了调整,一经发布便在推特上引起了热议
有网友调侃:这简直就是最先进的梗图生成器。
目前相关研究论文已上传至arXiv。
几张照片就能环游世界
在介绍原理之前,我们先来看看DreamBooth的各种能力,包括变换场景,分配动作和表情服装,变换风格等。
如果你是一个铲屎官,有了这种模式的换景能力,你可以足不出户的把你的狗送出家门,比如凡尔赛宫,富士山脚下。
光线也是自然的。
不仅如此,宠物的动作和表情也可以随意指定确实一句话p图的细节很到位
除了以上的基础练习,DreamBooth甚至可以改变各种照片风格,也就是所谓的添加滤镜。比如各种世界名画画风,各种视角的狗,不要太艺术化:
至于装修他们各种cosplay道具也是小菜一碟
此外,无论是改变颜色:
就更神奇了这个人工智能可以改变物种
那么,如此有趣的效果背后的原理是什么呢。
在输入中添加一个特殊标识符。
研究人员做了一个比较与DALL—E2,Imagen等其他大规模文本图像模型相比,只有DreamBooth方法可以忠实地还原输入图像
如下图所示,输入3个小闹钟,右边表盘有黄色3,其中DreamBooth生成的图像完美保留了时钟的所有细节,但DALL—E2和Imagen几次生成的时钟与原时钟略有不同。
李悝jy和李鬼。
也就是说,图像生成模型接收到的原始指令只是一种物体,比如,等,但是现在DreamBooth会在这类物体前面加一个特殊的标识符,就变成了
至于为什么不用它直接指代整体。
所以这里采用微调的思路总体来说,还是基于AI已经学习到的特征,再用学习到的特殊特征进行修饰
以一只白狗的产生为例在这里,模型会学习到狗的颜色,体型等个性化细节,再加上模型在这个大类中学习到的狗的共性,这样就可以生成更多既合理又不失个性的白狗照片
为了训练这种微调的文本—图像扩散模型,研究人员首先根据给定的文本描述生成一个低分辨率图像,然后在生成的图像中狗的图像是随机的。
然后,应用超分辨率扩散模型将随机图像替换为用户上传的特定狗。
研究团队
Nataniel Ruiz是波士顿大学图像与视频计算组的四年级博士生,目前在谷歌实习主要研究方向为模型生成,图像翻译,对抗攻击,人脸分析和仿真
论文的链接附在文末。感兴趣的朋友快来看看吧~
论文地址:
参考链接:
财经排行榜
-
2022-08-27 13:27
-
2022-08-27 13:02
-
2022-08-27 12:30
-
2022-08-27 12:23
-
2022-08-27 11:50
-
2022-08-27 11:41
-
2022-08-27 10:58
-
2022-08-27 10:40
-
2022-08-27 10:39
-
2022-08-27 08:51
大家都在看
行业要闻
-
2022-08-27 08:23
-
2022-08-26 21:58
-
2022-08-26 18:39
-
2022-08-26 18:39
-
2022-08-26 18:07
-
2022-08-26 17:58
-
2022-08-26 17:21
-
2022-08-26 17:16
-
2022-08-26 17:15
-
2022-08-26 17:13