要約: One Model To Learn Them All
https://arxiv.org/pdf/1706.05137.pdf
Google Brainからの論文
多様なドメインからなる複数タスクを同時に学習することのできるMultiModel Architectureを提案。
MultiModelは「入力データから前半部の中間特徴量への変換器」と「後半部の中間特徴量からの出力データへの変換器」をタスクごとに用意し、「前半部の中間特徴量から後半部の中間特徴量への変換器」はタスク間で共有するというような構造になっている。
なおこの論文ではタスクごとに用意するNetはModality-Netと呼んでいる。
「前半部の中間特徴量から後半部の中間特徴量への変換器」は、①Modality-Netによって出力された中間特徴量をEncoderで変換→②EncoderとDecoderの出力をMixerで変換→③Mixerの出力をDecoderで変換、という流れで変換をしており、得られたDecoderの出力をModality-Netに入力することによって出力を生成する。
Encoder / Mixer / Decoderの図は以下。複雑。
実験ではMultiModelを用いて8種のタスクを同時に解くということに取り組んでいる。 タスクによっては精度が向上しているものの、ImageNet識別や英語からドイツ語への翻訳タスクのようにほぼ精度が変化していないタスクもあった。
確かに複数タスクで学習させることによってモデル正則化の効果を引き起こすことができるということは示唆できているかもしれないが、精度が上昇したタスクについてはそもそもそのタスクに対して複雑すぎるモデルを用いているのではという気もする。