只需一句話，AI就能定制照片級圖像，谷歌在玩一種很新的擴散模型

投稿用戶 ? 2023年3月21日 am10:37 ? 聯(lián)系我們 ? 閱讀 255

機器之心報道

編輯：陳萍、小舟

來自谷歌和波士頓大學(xué)的研究者提出了一種「個性化」的文本到圖像擴散模型 DreamBooth，能夠適應(yīng)用戶特定的圖像生成需求。

近來，文本到圖像模型成為一個熱門的研究方向，無論是自然景觀大片，還是新奇的場景圖像，都可能使用簡單的文本描述自動生成的。

其中，渲染天馬行空的的想象場景是一項具有挑戰(zhàn)性的任務(wù)，需要在新的場景中合成特定主題（物體、動物等）的實例，以便它們自然無縫地融入場景。

一些大型文本到圖像模型基于用自然語言編寫的文本提示（prompt）實現(xiàn)了高質(zhì)量和多樣化的圖像合成。這些模型的主要優(yōu)點是從大量的圖像 – 文本描述對中學(xué)到強大的語義先驗，例如將「dog」這個詞與可以在圖像中以不同姿勢出現(xiàn)的各種狗的實例關(guān)聯(lián)在一起。

雖然這些模型的合成能力是前所未有的，但它們?nèi)狈δ７陆o定參考主題的能力，以及在不同場景中合成主題相同、實例不同的新圖像的能力?？梢?，已有模型的輸出域的表達能力有限。

只需一句話，AI就能定制照片級圖像，谷歌在玩一種很新的擴散模型

為了解決這個問題，來自谷歌和波士頓大學(xué)的研究者提出了一種「個性化」的文本到圖像擴散模型 DreamBooth，能夠適應(yīng)用戶特定的圖像生成需求。

只需一句話，AI就能定制照片級圖像，谷歌在玩一種很新的擴散模型

論文地址：https://arxiv.org/pdf/2208.12242.pdf

項目地址：https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

該研究的目標(biāo)是擴展模型的語言 – 視覺字典，使其將新詞匯與用戶想要生成的特定主題綁定。一旦新字典嵌入到模型中，它就可以使用這些詞來合成特定主題的新穎逼真的圖像，同時在不同的場景中進行情境化，保留關(guān)鍵識別特征，效果如下圖 1 所示。

只需一句話，AI就能定制照片級圖像，谷歌在玩一種很新的擴散模型

具體來說，該研究將給定主題的圖像植入模型的輸出域，以便可以使用唯一標(biāo)識符對其進行合成。為此，該研究提出了一種用稀有 token 標(biāo)識符表示給定主題的方法，并微調(diào)了一個預(yù)訓(xùn)練的、基于擴散的文本到圖像框架，該框架分兩步運行；從文本生成低分辨率圖像，然后應(yīng)用超分辨率（SR）擴散模型。

首先該研究使用包含唯一標(biāo)識符（帶有主題類名，例如「A [V] dog」）的輸入圖像和文本提示微調(diào)低分辨率文本到圖像模型。為了防止模型將類名與特定實例過擬合和語義漂移，該研究提出了一種自生的、特定于類的先驗保存（preservation）損失，它利用嵌入模型中類的先驗語義，鼓勵模型生成給定主題下同一類中的不同實例。

第二步，該研究使用輸入圖像的低分辨率和高分辨率版本對超分辨率組件進行微調(diào)。這允許模型對場景主題中小而重要細節(jié)保持高保真度。

我們來看一下該研究提出的具體方法。

方法介紹

給定 3-5 張捕獲的圖像，這些圖像沒有文字描述，本文旨在生成具有高細節(jié)保真度和由文本提示引導(dǎo)變化的新圖像。該研究不對輸入圖像施加任何限制，并且主題圖像可以具有不同的上下文。方法如圖 3 所示。輸出圖像可對原始圖像進行修改，如主題的位置，更改主題的屬性如顏色、形狀，并可以修改主體的姿勢、表情、材質(zhì)以及其他語義修改。

更具體的說，本文方法將一個主題（例如，一只特定的狗）和相應(yīng)類名（例如，狗類別）的一些圖像（通常 3 – 5 張圖）作為輸入，并返回一個經(jīng)過微調(diào) / 個性化的文本到圖像模型，該模型編碼了一個引用主題的唯一標(biāo)識符。然后，在推理時，可以在不同的句子中植入唯一標(biāo)識符來合成不同語境中的主題。

只需一句話，AI就能定制照片級圖像，谷歌在玩一種很新的擴散模型

該研究的第一個任務(wù)是將主題實例植入到模型的輸出域，并將主題與唯一標(biāo)識符綁定。該研究提出了設(shè)計標(biāo)識符的方法，此外還設(shè)計了一種監(jiān)督模型微調(diào)過程的新方法。

為了解決圖像過擬合以及語言漂移問題，該研究還提出了一種損失（ Prior-Preservation Loss ），通過鼓勵擴散模型不斷生成與主題相同的類的不同實例，從而減輕模型過擬合、語言漂移等問題。

為了保留圖像細節(jié)，該研究發(fā)現(xiàn)應(yīng)該對模型的超分辨率（SR）組件進行微調(diào)，本文在經(jīng)過預(yù)訓(xùn)練的 Imagen 模型的基礎(chǔ)上來完成。具體過程如圖 4 所示，給定同一主題的 3-5 張圖像，之后通過兩個步驟微調(diào)文本到圖像的擴散模型：

只需一句話，AI就能定制照片級圖像，谷歌在玩一種很新的擴散模型

稀有 token 標(biāo)識符表示主題

該研究將主題的所有輸入圖像標(biāo)記為「a [identifier] [class noun]」，其中 [identifier] 是鏈接到主題的唯一標(biāo)識符，而 [class noun] 是主題的粗略類別描述符（例如貓、狗、手表等）。該研究在句子中特別使用了類描述符，以便將類的先驗與主題聯(lián)系起來。

效果展示

下面是 Dreambooth 一個穩(wěn)定擴散的實現(xiàn)（參考項目鏈接）。定性結(jié)果：訓(xùn)練圖像來自「Textual Inversion」庫：

只需一句話，AI就能定制照片級圖像，谷歌在玩一種很新的擴散模型

訓(xùn)練完成后，在「photo of a sks container」提示下，模型生成的集裝箱照片如下：

只需一句話，AI就能定制照片級圖像，谷歌在玩一種很新的擴散模型

在提示中加個位置「photo of a sks container on the beach」，集裝箱出現(xiàn)在沙灘上；

只需一句話，AI就能定制照片級圖像，谷歌在玩一種很新的擴散模型

綠色的集裝箱顏色太單一了，想加點紅色，輸入提示「photo of a red sks container」就能搞定：

只需一句話，AI就能定制照片級圖像，谷歌在玩一種很新的擴散模型

輸入提示「a dog on top of sks container」就能讓小狗坐在箱子里：

只需一句話，AI就能定制照片級圖像，谷歌在玩一種很新的擴散模型

下面是論文中展示的一些結(jié)果。生成不同畫家風(fēng)格的關(guān)于狗狗的藝術(shù)圖：

只需一句話，AI就能定制照片級圖像，谷歌在玩一種很新的擴散模型

該研究還可以合成輸入圖像中沒有出現(xiàn)的各種表情，展示了模型的外推能力：

只需一句話，AI就能定制照片級圖像，谷歌在玩一種很新的擴散模型

想要了解更多細節(jié)，請參考原論文。

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻，該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請發(fā)送郵件至舉報，一經(jīng)查實，本站將立刻刪除。

贊 (0)

投稿用戶

十大歐美網(wǎng)站定制設(shè)計精品案例推薦（歐美網(wǎng)站設(shè)計風(fēng)格）

上一篇 2023年3月21日 am10:29

商城系統(tǒng)定制開發(fā)有哪些方式？

下一篇 2023年3月21日 am10:45

宿舍管理系統(tǒng)(Java Web)（宿舍管理系統(tǒng)javaweb）

本實例為java jsp實現(xiàn)的宿舍管理系統(tǒng), 系統(tǒng)分為三個角色, 分別為宿舍管理員，宿舍維修人員，學(xué)生, 每個角色都有登錄頁面和相應(yīng)的后臺業(yè)務(wù)操作菜單(具體見視頻圖片) 視頻和…

聯(lián)系我們 2022年11月2日
294 0
深圳企業(yè)如何制定稅務(wù)合規(guī)制度？-法斗士

企業(yè)根據(jù)對稅收刑事法律風(fēng)險的評估，制定稅收合規(guī)制度，形成內(nèi)部管理和工作流程規(guī)范化的刑事合規(guī)制度。 1.建立標(biāo)準(zhǔn)化的商業(yè)體系企業(yè)經(jīng)營應(yīng)當(dāng)以合法合規(guī)為基礎(chǔ)，經(jīng)營數(shù)據(jù)應(yīng)當(dāng)建立在合法合規(guī)…

聯(lián)系我們 2022年11月18日
244 0
為規(guī)范加強行政事業(yè)單位國有資產(chǎn)管理財政部門提出哪些要求及舉措

行政事業(yè)單位國有資產(chǎn)是行政事業(yè)單位履行職能，保障政權(quán)運轉(zhuǎn)以及提供公共服務(wù)的物質(zhì)基礎(chǔ)。行政事業(yè)單位國有資產(chǎn)管理是財政管理的重要基礎(chǔ)和有機組成部分。近年來，行政事業(yè)單位資產(chǎn)管理工作取得…

聯(lián)系我們 2022年11月12日
271 0
關(guān)于信息系統(tǒng)項目管理師（高項）你要的都在這里（“信息系統(tǒng)項目管理師”）

一、信息系統(tǒng)項目管理師介紹：信息系統(tǒng)項目管理師是全國計算機技術(shù)與軟件專業(yè)技術(shù)資格（水平）考試中的高級水平測試，綜合素質(zhì)要求高、以計算機基礎(chǔ)技術(shù)為依托、考查項目管理方面的內(nèi)容、覆蓋…

聯(lián)系我們 2022年10月19日
271 0
酒店經(jīng)營九十四·管理核心問題及解決（五、六）（試論酒店經(jīng)營管理中存在的問題）

企業(yè)在運轉(zhuǎn)，就會有問題存在，如何去正確面對這些問題，是擺在我們管理者面前的一道課題。但我相信只要我們?nèi)ビ眯慕?jīng)營，始終還是有辦法解決的。下面提出酒店管理幾個難點問題一起探討。最大的問…

聯(lián)系我們 2022年10月27日
272 0
公共資源交易平臺數(shù)字化轉(zhuǎn)型的五個路徑（公共資源交易平臺數(shù)字化轉(zhuǎn)型的五個路徑是什么）

作者：劉為民（山東省公共資源交易中心主任）公共資源交易系統(tǒng)作為面向社會的政府服務(wù)窗口，承擔(dān)著涉及公共利益、公眾安全的公有性、公益性資源交易工作，在推進要素資源市場化配置方面發(fā)揮重…

聯(lián)系我們 2022年10月31日
262 0
教育平臺項目后臺管理系統(tǒng)：介紹與搭建（教育直播系統(tǒng)開發(fā)文檔）

項目架構(gòu) 項目介紹教育后臺管理系統(tǒng)是提供給相關(guān)業(yè)務(wù)人員使用的一個后臺管理系統(tǒng)，業(yè)務(wù)人員可以在這個后臺管理系統(tǒng)中，對課程信息、講師信息、學(xué)員信息等數(shù)據(jù)進行維護。課程管理模塊課…

聯(lián)系我們 2022年11月4日
254 0
四川土地整治項目管理和后期管護有新規(guī)（四川省土地整理項目管理辦法）

本報訊（首席記者趙蕾）近日，為了改進耕地占補平衡，規(guī)范土地整治項目管理，做到新增耕地指標(biāo)信息可追溯、可跟蹤、可核實，四川省自然資源廳出臺了《四川省土地整治項目管理辦法》（簡稱《…

聯(lián)系我們 2022年6月8日
333 0
高速公路施工安全管理監(jiān)測系統(tǒng)（高速公路施工安全管理監(jiān)測系統(tǒng)設(shè)計規(guī)范）

現(xiàn)在基本上80%的工程都是通過招投標(biāo)，將工程總承包給施工方，或者分包給專業(yè)的施工隊，由于施工人員眾多，業(yè)主方對于施工過程中人員的安全和質(zhì)量沒有辦法把控，西安螢火軟件為了解決這一難題…

聯(lián)系我們 2022年11月8日
296 0
青島市住建局要求進一步強化建筑施工企業(yè)安全生產(chǎn)分類分級監(jiān)督管理工作

各區(qū)、市住房和城鄉(xiāng)建設(shè)行政主管部門，各有關(guān)單位：為進一步完善建筑施工企業(yè)安全生產(chǎn)治理體系，提升企業(yè)治理能力，根據(jù)省政府安委會《關(guān)于加強企業(yè)安全生產(chǎn)診斷工作的實施意見》（魯安發(fā)〔2…

聯(lián)系我們 2022年11月8日
271 0

只需一句話，AI就能定制照片級圖像，谷歌在玩一種很新的擴散模型

相關(guān)推薦

只需一句話，AI就能定制照片級圖像，谷歌在玩一種很新的擴散模型