要約: Multi-view Recurrent Neural Acoustic Word Embeddings
https://arxiv.org/pdf/1611.04496.pdf
音声データと文字列データについて、両者の共通空間への射影をそれぞれ学習させる研究。 目標は文字列cとして表現される単語を発音する音声データxがあった時に、両者を音声データの共通空間への射影f(x)と文字列データの共通空間への射影g( c)を用いてそれぞれ共通空間に飛ばし、その空間におけるf(x)とg( c)のcosine類似度が大きくなるようfとgを学習させることである。
評価関数
以下の4種類の評価関数を使用してfとgを学習させる。 また、marginをadaptiveに設定することも試している: ここで、editdisはLevenshtein距離(編集距離)である。このmargin設定法はobj0についてのみ試しているとのこと。
射影のためのNetwork
実験
学習したモデルが音声データ/文字列データの類似度を計測する能力があるかを確認するために実験を三つ行っている。
二つの音声データが与えられ、それが同じ単語を発音しているかどうかを見分ける実験
音声データと文字列が与えられ、それらが同じ単語のものかどうかを見分ける問題
文字列二つが与えられた場合に、その文字列のLevenshtein距離と学習したモデルによって計算された類似度の間にどの程度相関があるかを計測する実験
可視化
t-SNEを用いた特徴量の可視化も行っている。同じ単語を発音している音声データは同じような場所に、またLevenshtein距離の近い文字列は同じような場所に射影されることがわかる。