拍照的時候模特配合不好怎么辦。
沒什么!現在只能用一句話來后p圖,還是那種可以改變動作和表情的!
例如,你可以很容易地讓一只鳥展開翅膀:
或者,想讓一只站著的狗蹲下來:
看起來真的很不錯!而這種新的p圖方法,稱為Imagic,是基于爆炸火災的擴散模型。
是的,又是擴散模型,它的能力就不用介紹了。
在擴散模型的加持下,Imagic到底有什么強大的地方。話不多說,大家來看看吧!
多達6種功能
據不完全統計,Imagic的功能有六種。
我們來看看這個p圖神器改變姿勢的效果。比如輸入一只站立的狗,通過改變提示文字,結果是醬紫~
或者輸入一個隨意站立的人,輸入密碼,他就會百依百順,任你擺布,甚至可以憑空出現一個水杯。
你還沒看夠嗎然后再來康康Imagic的其他功能:改變顏色,或者添加物體您也可以同時使用多種功能
總的來說,Imagic強大的方面太多了,這里就不詳細展開了效果見下圖
除了這樣的通用性,Imagic還有一個更人性化的點,就是當你告訴它如何p圖時,它會隨機生成幾個不同的選項供你選擇。
這時候就有網友會問Imagic有什么厲害的。
話不多說,直接對比效果。
這樣一來,很明顯Imagic完成P圖指令的效果非常好,細節上也不遜于其他機型。
那么Imagic是如何擊敗SDEdit和Text2LIVE達到這樣的效果的呢。
是如何實現的。
千言萬語可以總結為四個字:擴散模型,在論文的標題中赫然列出。
具體到Imagic,擴散模型是如何發揮作用的我們來看看詳細的P圖流程
總體來說,分為三大步驟。
第一步是優化文本嵌入層。
具體來說,首先給出輸入圖像和目標文本,然后對目標文本進行編碼,得到初始嵌入層。
然后,不斷調整初始嵌入層,使其能夠通過預先訓練的擴散模型很好地重建輸入圖像。
這樣,最終將獲得優化的嵌入層。
第二步是微調擴散模型此時,在嵌入層穿過模型之后,在先前步驟中優化的嵌入層將用于重構輸入圖像
在重建過程中,需要不斷地改變模型中損失函數的參數,使模型適應優化的輸入層,直到輸入圖像能夠很好地重建,從而得到微調后的模型。
第三步,開始官方p圖。
值得一提的是,在這一步中,除了輸入初始目標嵌入層,還會插入優化嵌入層,它們的關系如下圖所示。
通過改變參數,實際效果如下圖所示。
研究團隊
值得一提的是,Bahjat Kawar仍然是以色列理工學院的博士生,他在谷歌研究院實習期間完成了這項研究。
Shiran Zada今年5月剛剛加入谷歌研究院,目前是一名計算機視覺研究員。
他曾在微軟擔任軟件工程師和技術總監,主要負責網絡安全相關的項目開發。
參考鏈接:
鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。
|