要約: One Model To Learn Them All - toaruharunohi’s diary

https://arxiv.org/pdf/1706.05137.pdf

Google Brainからの論文

多様なドメインからなる複数タスクを同時に学習することのできるMultiModel Architectureを提案。
MultiModelは「入力データから前半部の中間特徴量への変換器」と「後半部の中間特徴量からの出力データへの変換器」をタスクごとに用意し、「前半部の中間特徴量から後半部の中間特徴量への変換器」はタスク間で共有するというような構造になっている。
なおこの論文ではタスクごとに用意するNetはModality-Netと呼んでいる。 f:id:toaruharunohi:20170619195707p:plain

「前半部の中間特徴量から後半部の中間特徴量への変換器」は、①Modality-Netによって出力された中間特徴量をEncoderで変換→②EncoderとDecoderの出力をMixerで変換→③Mixerの出力をDecoderで変換、という流れで変換をしており、得られたDecoderの出力をModality-Netに入力することによって出力を生成する。
Encoder / Mixer / Decoderの図は以下。複雑。 f:id:toaruharunohi:20170619201254p:plain

実験ではMultiModelを用いて8種のタスクを同時に解くということに取り組んでいる。タスクによっては精度が向上しているものの、ImageNet識別や英語からドイツ語への翻訳タスクのようにほぼ精度が変化していないタスクもあった。 f:id:toaruharunohi:20170619203939p:plain

確かに複数タスクで学習させることによってモデル正則化の効果を引き起こすことができるということは示唆できているかもしれないが、精度が上昇したタスクについてはそもそもそのタスクに対して複雑すぎるモデルを用いているのではという気もする。