谷歌P图神器来了!不用学不用教,输入一句话,分分钟给结果
拍照的时候模特配合不好怎么办。
没什么!现在只能用一句话来后p图,还是那种可以改变动作和表情的!
例如,你可以很容易地让一只鸟展开翅膀:
或者,想让一只站着的狗蹲下来:
看起来真的很不错!而这种新的p图方法,称为Imagic,是基于爆炸火灾的扩散模型。
是的,又是扩散模型,它的能力就不用介绍了。
在扩散模型的加持下,Imagic到底有什么强大的地方。话不多说,大家来看看吧!
多达6种功能
据不完全统计,Imagic的功能有六种。
我们来看看这个p图神器改变姿势的效果。比如输入一只站立的狗,通过改变提示文字,结果是酱紫~
或者输入一个随意站立的人,输入密码,他就会百依百顺,任你摆布,甚至可以凭空出现一个水杯。
你还没看够吗然后再来康康Imagic的其他功能:改变颜色,或者添加物体您也可以同时使用多种功能
总的来说,Imagic强大的方面太多了,这里就不详细展开了效果见下图
除了这样的通用性,Imagic还有一个更人性化的点,就是当你告诉它如何p图时,它会随机生成几个不同的选项供你选择。
这时候就有网友会问Imagic有什么厉害的。
话不多说,直接对比效果。
这样一来,很明显Imagic完成P图指令的效果非常好,细节上也不逊于其他机型。
那么Imagic是如何击败SDEdit和Text2LIVE达到这样的效果的呢。
是如何实现的。
千言万语可以总结为四个字:扩散模型,在论文的标题中赫然列出。
具体到Imagic,扩散模型是如何发挥作用的我们来看看详细的P图流程
总体来说,分为三大步骤。
第一步是优化文本嵌入层。
具体来说,首先给出输入图像和目标文本,然后对目标文本进行编码,得到初始嵌入层。
然后,不断调整初始嵌入层,使其能够通过预先训练的扩散模型很好地重建输入图像。
这样,最终将获得优化的嵌入层。
第二步是微调扩散模型此时,在嵌入层穿过模型之后,在先前步骤中优化的嵌入层将用于重构输入图像
在重建过程中,需要不断地改变模型中损失函数的参数,使模型适应优化的输入层,直到输入图像能够很好地重建,从而得到微调后的模型。
第三步,开始官方p图。
值得一提的是,在这一步中,除了输入初始目标嵌入层,还会插入优化嵌入层,它们的关系如下图所示。
通过改变参数,实际效果如下图所示。
研究团队
值得一提的是,Bahjat Kawar仍然是以色列理工学院的博士生,他在谷歌研究院实习期间完成了这项研究。
Shiran Zada今年5月刚刚加入谷歌研究院,目前是一名计算机视觉研究员。
他曾在微软担任软件工程师和技术总监,主要负责网络安全相关的项目开发。
参考链接:
财经排行榜
-
2022-11-06 16:00
-
2022-11-06 15:32
-
2022-11-06 15:05
-
2022-11-06 13:49
-
2022-11-06 13:36
-
2022-11-06 13:24
-
2022-11-06 13:08
-
2022-11-06 13:06
-
2022-11-06 12:43
-
2022-11-06 12:20
大家都在看
行业要闻
-
2022-11-06 12:12
-
2022-11-06 11:42
-
2022-11-06 11:33
-
2022-11-06 11:15
-
2022-11-06 10:51
-
2022-11-06 10:29
-
2022-11-06 10:26
-
2022-11-06 10:24
-
2022-11-06 10:23
-
2022-11-06 09:54