谷歌P图神器来了!不用学不用教,输入一句话,分分钟给结果

拍照的时候模特配合不好怎么办。

没什么!现在只能用一句话来后p图,还是那种可以改变动作和表情的!

例如,你可以很容易地让一只鸟展开翅膀:

或者,想让一只站着的狗蹲下来:

看起来真的很不错!而这种新的p图方法,称为Imagic,是基于爆炸火灾的扩散模型。

是的,又是扩散模型,它的能力就不用介绍了。

在扩散模型的加持下,Imagic到底有什么强大的地方。话不多说,大家来看看吧!

多达6种功能

据不完全统计,Imagic的功能有六种。

我们来看看这个p图神器改变姿势的效果。比如输入一只站立的狗,通过改变提示文字,结果是酱紫~

或者输入一个随意站立的人,输入密码,他就会百依百顺,任你摆布,甚至可以凭空出现一个水杯。

你还没看够吗然后再来康康Imagic的其他功能:改变颜色,或者添加物体您也可以同时使用多种功能

总的来说,Imagic强大的方面太多了,这里就不详细展开了效果见下图

除了这样的通用性,Imagic还有一个更人性化的点,就是当你告诉它如何p图时,它会随机生成几个不同的选项供你选择。

这时候就有网友会问Imagic有什么厉害的。

话不多说,直接对比效果。

这样一来,很明显Imagic完成P图指令的效果非常好,细节上也不逊于其他机型。

那么Imagic是如何击败SDEdit和Text2LIVE达到这样的效果的呢。

是如何实现的。

千言万语可以总结为四个字:扩散模型,在论文的标题中赫然列出。

具体到Imagic,扩散模型是如何发挥作用的我们来看看详细的P图流程

总体来说,分为三大步骤。

第一步是优化文本嵌入层。

具体来说,首先给出输入图像和目标文本,然后对目标文本进行编码,得到初始嵌入层。

然后,不断调整初始嵌入层,使其能够通过预先训练的扩散模型很好地重建输入图像。

这样,最终将获得优化的嵌入层。

第二步是微调扩散模型此时,在嵌入层穿过模型之后,在先前步骤中优化的嵌入层将用于重构输入图像

在重建过程中,需要不断地改变模型中损失函数的参数,使模型适应优化的输入层,直到输入图像能够很好地重建,从而得到微调后的模型。

第三步,开始官方p图。

值得一提的是,在这一步中,除了输入初始目标嵌入层,还会插入优化嵌入层,它们的关系如下图所示。

通过改变参数,实际效果如下图所示。

研究团队

值得一提的是,Bahjat Kawar仍然是以色列理工学院的博士生,他在谷歌研究院实习期间完成了这项研究。

Shiran Zada今年5月刚刚加入谷歌研究院,目前是一名计算机视觉研究员。

他曾在微软担任软件工程师和技术总监,主要负责网络安全相关的项目开发。

参考链接:

   
编辑:苏婉蓉

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

  • 相关推荐