http://openaccess.thecvf.com/content_ECCV_2018/papers/Martin_Sundermeyer_Implicit_3D_Orientation_ECCV_2018_paper.pdf

ECCV18 Best Paper Award

高速に6DoF物体検出(位置だけでなく対象物体の姿勢情報も同時に推定する問題)を行う方法を提案。検出対象とする物体のCADモデルさえあれば6DoFの情報を付与した学習用画像データがなくても6DoF物体検出モデルの学習ができるという点が強み。

パイプライン概要

高速な物体検出器であるSSDを用いて位置情報を先に推定し、その上で姿勢情報を推定するという流れ。

基本的にはRGB画像を入力として想定。とはいえDepth情報があればIterative Closest Pointアルゴリズムを利用してさらに結果を改良することもできる。

f:id:toaruharunohi:20180914111547p:plain

この論文のキモは後段の姿勢情報の推定法である。

姿勢情報の推定

RGB画像から物体の姿勢情報を推定するのがそこまで簡単でないのは、例えば(1)それぞれの画像で背景が異なっていたり、また(2)物体が部分的に隠れていたりすることなどが主な原因であると言える。この論文では(1)(2)の影響を排除するためにDenoising AutoEncoder (AE)に基づいたAugmented AEという枠組みを提案し、Augmented AEを用いて姿勢推定を行う方法を提案している。

Denoising AEはノイズの加わったデータを入力として、そのデータからノイズを除去したデータを出力するようなAEである。これをアナロジーにこの論文では、特定の背景を持っていたりオクルージョンのある物体の画像を入力として、その背景とオクルージョンを無くした画像を出力するようにAEを学習することを提案し、それをAugmented AEと命名している。

下の図が学習の概要。学習時には「背景及びオクルージョンのある物体の画像」と「物体だけが移る画像」のペアが必要だが、これはCADデータとランダムに集めた背景用画像を元に作成する。 f:id:toaruharunohi:20180914112952p:plain

テスト時の流れ

あらかじめ対象物体のあらゆる姿勢の画像をCADデータを元に生成しておき、Augmented AEのEncoderを用いてそれぞれの潜在表現を計算しておく。テスト対象とする画像が入力されたら、SSDで物体検出し、検出された領域をAugmented AEのEncoderに入力して潜在表現を計算する。あとは計算済みのそれぞれの姿勢に対応する潜在表現の集合からその潜在表現と類似したものをCosine距離に基づいて検索し、結果を出力する。 f:id:toaruharunohi:20180914113030p:plain

感想

6DoF情報を付与した学習用データがなくても使えるのがよい。逆にCADデータ(というか対象物体の3次元モデル)が必要であるというところは欠点であるとも言えるが、3次元復元技術と組み合わせればそんなに問題にはならないという気もする。 Augmented AEの入力データ作成の方法は例えば光源位置を変えたりするなどによりもう少し改良ができそう。