toaruharunohi’s diary

機械学習系会議の論文/資料の要約

要約: Bayesian Learning via Stochastic Gradient Langevin Dynamics

https://www.ics.uci.edu/~welling/publications/papers/stoclangevin_v6.pdf

著者はMax WellingとYee Whye Tehの二人。

θをモデルパラメータとしてもつxの確率分布p(x|θ)を考える。
またθは事前分布p(θ)を持つとする。
データX={x1, x2, …, xN}を観測した場合に得られるθの事後分布p(θ|X)からパラメータθをサンプリングすることを考える。

Langevin Dynamics

Langevin Dynamics (ランジュバン動力学)はMCMCの一種である。事後分布p(θ|X)からパラメータθをサンプリングしたい場合に利用可能な手法の一つである。
具体的には、パラメータθを以下のΔθtを用いてθt+1t+Δθtというように変化させていく:
f:id:toaruharunohi:20170622184928p:plain

ここでNは全サンプルの数である。
また、ノイズを除いた部分はp(X|θ)p(θ)の微分値となっていることに注意したい。
これをMetropolis-Hastings法と組み合わせることによってp(θ|X)からパラメータθをサンプリングすることができる。なおεを小さくすると棄却率が0に近づいていくらしい(離散化誤差が減少するため)。
詳細はMCMC Using Hamiltonian Dynamicsを参照。

Stochastic Gradient Langevin Dynamics

Langevin DynamicsにおけるΔθtを得るためには、全サンプルについてのp(xit)の勾配を計算して足し合わせる必要がある。
しかしデータセットの規模が大きい場合には全サンプルについて毎回計算することは大変である。
そこで、以下のように確率的に選択したサンプルだけを用いてΔθtを計算するStochastic Gradient Lengevin Dynamicsを提案:
f:id:toaruharunohi:20170622190812p:plain

ここでεtは次の条件を満たすように設定する:
f:id:toaruharunohi:20170622190819p:plain

なお著者らは、εが0に近づくとLangevin DynamicsではMetropolis-Hastings法の棄却率が0に近づくことを踏まえてStochastic Gradient Lengevin DynamicsではMHを無視することとしている。

t→∞において得られるθtが実際に事後分布p(θ|X)から得られるサンプルに近づいていくことの説明

全体の勾配をg(θ)、確率的に選択したサンプルを用いて計算した勾配をh(θ)として定義する:
f:id:toaruharunohi:20170622192838p:plain
f:id:toaruharunohi:20170622192844p:plain

また、ε0<<1であり、ステップtsとts+1を、以下の式を満たすような部分列の先頭と最後のindexとする:
f:id:toaruharunohi:20170622194919p:plain

この時、g(θ)の勾配が滑らかに変化し、またminibatchがランダムに選択されるということを仮定すれば、ステップtsからts+1までの確率的な勾配の和は以下が成り立つ:
f:id:toaruharunohi:20170622193218p:plain
f:id:toaruharunohi:20170622193646p:plain

パラメータθがtsとts+1の間でそこまで変わらないとすると、二列目の式よりこの和はminibatchのランダム性に大きく依存すると考えられる。 また最後の式よりこの和は全体の勾配に対してO(ε0)の差分があることが言えるが、ΔθtにはO(√ε0)のノイズを加えることを考えると、Stochastic Gradient Langevin Dynamicsで得られるθの列は、step sizeがε0で固定されたLangevin Dynamicsで得られるものに近づいていくだろうと述べている。

勾配の大きいθから勾配の小さいθに進んでいくにつれて確率的最適化を行っているような状態から事後分布からのサンプリングを行っているような状態に自然に変化していくと言えるとも述べている。

人工データでの実験

人工的に作った確率分布を用いたパラメータθのサンプリング実験:
f:id:toaruharunohi:20170622200609p:plain
上二つの図より綺麗に事後分布が得られることがわかる。また、左下の図より途中までは勾配についてのNoiseが支配的であるが途中から追加するノイズの方が支配的になることがわかる(なお図中のθ1とθ2は二つあるモデルパラメータの一方ともう片方を意味している)。 この実験結果から実際に途中から事後分布からのサンプリングの様相を呈しているのではないかと想像することができる。
このほかにLogistic RegressionとICAについても実験を行っている。

後続の論文

Stochastic Gradient Riemannian Langevin Dynamics on the Probability Simplex
Approximation Analysis of Stochastic Gradient Langevin Dynamics by using Fokker-Planck Equation and Ito Process