加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 背景與動(dòng)機(jī)
    • 研究目標(biāo)
    • 方法
    • 實(shí)驗(yàn)與結(jié)果
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

面向局部精細(xì)控制的面部表情生成

08/05 09:50
1145
閱讀需 6 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

論文 Towards Localized Fine-Grained Control for Facial Expression Generation 探討了如何在生成面部表情圖像時(shí)實(shí)現(xiàn)精細(xì)化和局部化控制。

所提出的方法FineFace能夠?qū)蝹€(gè)面部肌肉動(dòng)作進(jìn)行精確控制。通過(guò)結(jié)合多個(gè)動(dòng)作單元(AUs),F(xiàn)ineFace能夠生成復(fù)雜且細(xì)膩的面部表情。我們基于適配器架構(gòu)的方法允許通過(guò)IP-Adapter [47] 與圖像提示集成。

背景與動(dòng)機(jī)

生成模型的現(xiàn)狀:生成模型(如T2I文本到圖像生成模型)在生成高質(zhì)量圖像和視頻方面取得了顯著進(jìn)展,并開始應(yīng)用于電影和藝術(shù)作品的制作。然而,這些模型在生成具有特定屬性和精確控制的圖像方面仍然存在挑戰(zhàn),尤其是在生成面部表情時(shí)。

面部表情的重要性:面部表情在內(nèi)容生成中起著關(guān)鍵作用,能夠傳達(dá)豐富的情感和意圖。然而,現(xiàn)有的生成模型大多生成平淡的中性表情或缺乏真實(shí)性的微笑,難以生成復(fù)雜和細(xì)膩的表情,如懷疑、憤怒等。

展示了不同動(dòng)作單元的選集及其強(qiáng)度等級(jí)。圖例改編自 [44]。完整的AUs集合及其視頻請(qǐng)參見 [30]。

研究目標(biāo)

使用動(dòng)作單元(AUs):提出使用動(dòng)作單元(AUs)來(lái)控制面部表情生成。AUs描述了基于面部解剖學(xué)的單個(gè)面部肌肉運(yùn)動(dòng),允許對(duì)面部運(yùn)動(dòng)的強(qiáng)度進(jìn)行精確和局部化的控制。

生成復(fù)雜表情:通過(guò)組合不同的AUs,可以生成超越典型情感模型的復(fù)雜和真實(shí)的表情反應(yīng)。

方法

FineFace方法:提出了一種基于適配器架構(gòu)的方法,稱為FineFace,能夠與圖像提示(使用IP-Adapter)無(wú)縫集成,提供精確和直觀的控制。

基線方法:建立了幾個(gè)基線方法,包括未進(jìn)行微調(diào)的Stable Diffusion(SD)、使用prior-preservation loss微調(diào)的DreamBooth(DB)、僅訓(xùn)練LoRA層的LoRA-T,以及使用可學(xué)習(xí)的AU編碼器將AU向量投射到clip空間的LoRA-AU。

FineFace基于文本提示和AU條件生成圖像。AU條件向量首先被傳遞到AU編碼器,然后傳遞到AU-Adapter。AU注意力的輸出隨后與現(xiàn)有的文本注意力相加。在這種設(shè)置下,只有AU編碼器和K(鍵)和V(值)投影矩陣是可訓(xùn)練的,而其他層保持凍結(jié)狀態(tài)。

實(shí)驗(yàn)與結(jié)果

定性結(jié)果:通過(guò)對(duì)比12個(gè)單獨(dú)的AUs條件,發(fā)現(xiàn)FineFace方法在保持提示一致性的同時(shí),能夠準(zhǔn)確地遵循AU條件,而其他基線方法在某些情況下表現(xiàn)不佳。例如,DB方法在遵循AU條件方面表現(xiàn)尚可,但在處理上臉部AUs(如1、2、4、5)時(shí)表現(xiàn)不佳,并且容易過(guò)擬合訓(xùn)練數(shù)據(jù)。

定量結(jié)果:通過(guò)AU MSE和CLIP-I指標(biāo)進(jìn)行評(píng)估,F(xiàn)ineFace方法在AU MSE方面表現(xiàn)最佳,表明其在保持一致性的同時(shí)能夠有效地應(yīng)用AU條件。分布平滑技術(shù)顯著改善了CLIP-I指標(biāo),特別是在訓(xùn)練期間未見過(guò)的分布外情況中。

分布平滑:引入了分布平滑技術(shù),顯著改善了CLIP-I指標(biāo),特別是在訓(xùn)練期間未見過(guò)的分布外情況中。

對(duì)比不同方法在12個(gè)單獨(dú)AUs條件下生成的圖像,使用的提示為“巴拉克·奧巴馬的特寫”。AUs的文字描述見圖2。

貢獻(xiàn)與未來(lái)工作

貢獻(xiàn):提出了使用AUs作為條件信號(hào)來(lái)控制生成內(nèi)容中的面部表情,展示了FineFace方法在定性和定量研究中的能力。FineFace方法能夠在保持基礎(chǔ)擴(kuò)散模型能力的同時(shí),提供精確的面部表情控制。

未來(lái)工作:計(jì)劃開發(fā)改進(jìn)的解決方案,以應(yīng)對(duì)連續(xù)多標(biāo)簽AUs的問(wèn)題,并擴(kuò)展到高度控制的面部圖像編輯。

相關(guān)信息

代碼:https://github.com/tvaranka/fineface

論文:https://arxiv.org/abs/2407.20175v1

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
ATXMEGA256A3-AU 1 Microchip Technology Inc IC MCU 8BIT 256KB FLASH 64TQFP

ECAD模型

下載ECAD模型
$11.92 查看
LPC1768FBD100K 1 NXP Semiconductors RISC Microcontroller

ECAD模型

下載ECAD模型
$17.16 查看
MCP23S17-E/SS 1 Microchip Technology Inc 16 I/O, PIA-GENERAL PURPOSE, PDSO28, 5.30 MM, PLASTIC, SSOP-28

ECAD模型

下載ECAD模型
$2.1 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜