toaruharunohi’s diary

機械学習系会議の論文/資料の要約

要約: GANimation: Anatomically-aware Facial Animation from a Single Image

http://openaccess.thecvf.com/content_ECCV_2018/papers/Albert_Pumarola_Anatomically_Coherent_Facial_ECCV_2018_paper.pdf

ECCV 2018 Best Paper Honorable Mention

表情編集のためのGANを提案した研究。心理学分野における"Facial Action Coding System"という枠組みと関連付けながら説明している。

Facial Action Coding System

心理学の分野では、EkmanとFriesenらにより"Facial Action Coding System"(FACS)と呼ばれる顔の表情を解釈する方法が提案されている。 FACSでは別々の表情筋に対応した"Action Unit"という概念を導入し、そのAction Unitの組み合わせによって表情が表現されるとしている。 人間は30種類のAction Unitしか発見されていないが、それらの動かし方の組み合わせで7000以上の表情を表現することができるとのことである。

提案法

大まかなフレームワークが以下の図。 入力画像の他にAction-Unitの状態を記述するための変数 yを用意し、これを同時に入力として与える。

f:id:toaruharunohi:20180914131735p:plain

Generator

Generatorは以下のように、画像とAction-Unitの状態 yを元にColor MapとAttention Mapを出し、Attention Mapで反応しているところだけ画像を修正する。

f:id:toaruharunohi:20180914133011p:plain

こうすると確かに画像のボヤケが生じうる範囲を小さくできるので良さそう。

Conditional Critic (Discriminator)

DiscriminatorとしてはPatchGANのようにPatchごとに評価を下すものを採用。また、Action-Unitの状態y_rを推定するためにDiscriminatorの先頭(というか分枝)にy_rを評価するための出力層も用意。

損失関数

4種類(L_Aが2項あるため計5項)の損失項の線形和によりモデルを学習させる。

f:id:toaruharunohi:20180914131904p:plain

Image Adversarial Loss (L_I)

WGAN-GPで用いられる損失項。生成画像がデータセット内の画像と類似したものになるように働きかける。

f:id:toaruharunohi:20180914132156p:plain

Attention Loss (L_A)

隣り合う画素のAttentionが近くなるように、かつAttentionがかかり過ぎないようにする損失項。

f:id:toaruharunohi:20180914132146p:plain

Conditional Expression Loss (L_y)

Action-Unitの状態y_fで条件づけられて生成された画像がちゃんとy_fという状態に従うようにはたらきかける損失項。

f:id:toaruharunohi:20180914132305p:plain

IdentityLoss (L_{idt})

CycleGANのように戻ってきた結果が同じ画像になるようにする損失項。要素ごとのL1距離で測る。

実験

Action Unitの可視化

f:id:toaruharunohi:20180914132703p:plain

それぞれのAction-Unitで違う表情が表現されていることがわかる。

感情編集

f:id:toaruharunohi:20180914134738p:plain

感情Aに対応するAction-Unitの状態 y_Aを推定する方法が論文中に見当たらない。(感情Aに対応する顔画像の集合からAction-Unitの状態 yをDiscriminatorを用いて計算して平均を取るなどだろうか)

Image editing in the wild

一応顔検出器と適切に組み合わせることでいわゆる”wild”な画像の編集もそこそこできる:

f:id:toaruharunohi:20180914132725p:plain

彫刻・絵画の編集

彫刻・絵画の写真の編集もある程度できる。下側は失敗した例。サイクロプスのような画像の編集は難しいか。

f:id:toaruharunohi:20180914132817p:plain

感想

Maskを用いた顔編集によりぼやけの小さい画像編集ができることを提案したこと、及びAction-Unitという概念を元にした提案手法の解釈、そしていわゆる”wild”な画像や彫刻・絵画の画像の編集ができることを提示していることが貢献であると思われる。

Action-Unitという概念と絡めつつ説明しているものの、別にAction-Unit  yの各要素が別々の筋肉に対応しているとは言えず、言ったもん勝ちではという印象もある。 また、Maskを用いた顔編集を提案したことも評価されているところの一つであると思われるが、どこかで聞いたような気もするのでそんなにすごいのかとは思わなくもない。