散文網(wǎng) » 生活 »日常 » 妙鴨相機(jī)本地平替，5張照片生成個(gè)人專屬寫真

妙鴨相機(jī)本地平替，5張照片生成個(gè)人專屬寫真

2023-08-14 14:39 作者:IT教程精選 0人讀過 | 我要投稿

妙鴨相機(jī)本地平替，5張照片生成個(gè)人專屬寫真

前段時(shí)間妙鴨相機(jī)大火，通過上傳一些你自己的照片，就可以擁有一個(gè)專屬的數(shù)字分身，然后得到一張張專業(yè)質(zhì)感的寫真。但由于需要上傳個(gè)人20張照片到服務(wù)器，其隱私性備受爭(zhēng)議。

就在8月10日，阿里魔搭社區(qū)也上線了人物寫真生成在線demo，用戶可免費(fèi)體驗(yàn)個(gè)人寫真生成，體驗(yàn)地址：https://modelscope.cn/studios/CVstudio/cv_human_portrait/summary，但同樣是在線生成存在隱私問題，且免費(fèi)體驗(yàn)需要排隊(duì)。

基于上述問題，學(xué)術(shù)Fun第一時(shí)間基于阿里開源的人物寫真生成模型，肝出了windows一鍵啟動(dòng)整合包，集成了python環(huán)境以及用到的算法模型，在你自己的本地電腦即可免費(fèi)體驗(yàn)AI人物寫真，使用效果如下。

上述寫真照片，由以下幾張馬老師照片生成。

安裝教程

下面廢話不多說，進(jìn)入整合包下載安裝教程，首先明確前提環(huán)境：

擁有12G顯存以上N卡
windows 10以上
安裝了11.8及以上版本的Cuda

Cuda的下載安裝教程網(wǎng)上很多，這里不再贅述。

整合包使用教程

下載整合壓縮包，下載地址： https://xueshu.fun/2891/
解壓后，如下圖所示，雙擊啟動(dòng)程序.bat文件運(yùn)行

啟動(dòng)后瀏覽器訪問http://127.0.0.1:7860/，軟件界面如下所示。

點(diǎn)擊選擇圖片上傳，選擇本地圖片，注意人臉不要有遮擋，否則效果不好
點(diǎn)擊開始訓(xùn)練，本人3090顯卡，5張圖片訓(xùn)練時(shí)間在10分鐘以內(nèi)，訓(xùn)練完成后，下方有文字提示。

訓(xùn)練完成后，切換至形象體驗(yàn)，選擇生成圖片數(shù)量，點(diǎn)擊開始推理即可生成寫真，6張圖片推理時(shí)間大概在2分鐘左右

算法原理

個(gè)人寫真模型的能力來源于Stable Diffusion模型的文生圖功能，輸入一段文本或一系列提示詞，輸出對(duì)應(yīng)的圖像。我們考慮影響個(gè)人寫真生成效果的主要因素：寫真風(fēng)格信息，以及用戶人物信息。為此，我們分別使用線下訓(xùn)練的風(fēng)格LoRA模型和線上訓(xùn)練的人臉LoRA模型以學(xué)習(xí)上述信息。LoRA是一種具有較少可訓(xùn)練參數(shù)的微調(diào)模型，在Stable Diffusion中，可以通過對(duì)少量輸入圖像進(jìn)行文生圖訓(xùn)練的方式將輸入圖像的信息注入到LoRA模型中。因此，個(gè)人寫真模型的能力分為訓(xùn)練與推斷兩個(gè)階段，訓(xùn)練階段生成用于微調(diào)Stable Diffusion模型的圖像與文本標(biāo)簽數(shù)據(jù)，得到人臉LoRA模型；推斷階段基于人臉LoRA模型和風(fēng)格LoRA模型生成個(gè)人寫真圖像。

訓(xùn)練階段

輸入：用戶上傳的包含清晰人臉區(qū)域的圖像
輸出：人臉LoRA模型

描述：首先，我們分別使用基于朝向判斷的圖像旋轉(zhuǎn)模型，以及基于人臉檢測(cè)和關(guān)鍵點(diǎn)模型的人臉精細(xì)化旋轉(zhuǎn)方法處理用戶上傳圖像，得到包含正向人臉的圖像；接下來，我們使用人體解析模型和人像美膚模型，以獲得高質(zhì)量的人臉訓(xùn)練圖像；隨后，我們使用人臉屬性模型和文本標(biāo)注模型，結(jié)合標(biāo)簽后處理方法，產(chǎn)生訓(xùn)練圖像的精細(xì)化標(biāo)簽；最后，我們使用上述圖像和標(biāo)簽數(shù)據(jù)微調(diào)Stable Diffusion模型得到人臉LoRA模型。

推斷階段

輸入：訓(xùn)練階段用戶上傳圖像，預(yù)設(shè)的用于生成個(gè)人寫真的輸入提示詞
輸出：個(gè)人寫真圖像

描述：首先，我們將人臉LoRA模型和風(fēng)格LoRA模型的權(quán)重融合到Stable Diffusion模型中；接下來，我們使用Stable Diffusion模型的文生圖功能，基于預(yù)設(shè)的輸入提示詞初步生成個(gè)人寫真圖像；隨后，我們使用人臉融合模型進(jìn)一步改善上述寫真圖像的人臉細(xì)節(jié)，其中用于融合的模板人臉通過人臉質(zhì)量評(píng)估模型在訓(xùn)練圖像中挑選；最后，我們使用人臉識(shí)別模型計(jì)算生成的寫真圖像與模板人臉的相似度，以此對(duì)寫真圖像進(jìn)行排序，并輸出排名靠前的個(gè)人寫真圖像作為最終輸出結(jié)果。

模型列表

附（流程圖中模型鏈接）

[1] ?人臉檢測(cè)+關(guān)鍵點(diǎn)模型DamoFD：https://modelscope.cn/models/damo/cv_ddsar_face-detection_iclr23-damofd

[2] ?圖像旋轉(zhuǎn)模型：創(chuàng)空間內(nèi)置模型

[3] ?人體解析模型M2FP：https://modelscope.cn/models/damo/cv_resnet101_image-multiple-human-parsing

[4] ?人像美膚模型ABPN：https://modelscope.cn/models/damo/cv_unet_skin-retouching

[5] ?人臉屬性模型FairFace：https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface

[6] ?文本標(biāo)注模型Deepbooru：https://github.com/KichangKim/DeepDanbooru

[7] ?模板臉篩選模型FQA：https://modelscope.cn/models/damo/cv_manual_face-quality-assessment_fqa

[8] ?人臉融合模型：https://modelscope.cn/models/damo/cv_unet-image-face-fusion_damo

[9] ?人臉識(shí)別模型RTS：https://modelscope.cn/models/damo/cv_ir_face-recognition-ood_rts

標(biāo)簽：