2019-04-25

有用な確率不等式のまとめ

はじめに

機械学習に関連する諸分野では何かしらの統計量（期待判別誤差やリグレットなど）を上から評価したい場面が多くあります. そのような場面で大活躍するのが確率不等式と呼ばれる不等式の数々です. 今後本ブログでもこれらの不等式を多用することが予想されるため, 一度まとめておきます. いくつかの不等式は証明もします. 証明は, MLPシリーズの『統計的学習理論』のAppendix Aを参考に, 自分なりに行間を埋めてみました.

Jensen's inequality

まず, 凸関数の定義を確認します.

凸関数: 関数 $f: \mathbb{R}^d \rightarrow (- \infty, \infty ]$ が, 任意の ${\bf x}, {\bf y} \in \mathbb{R}^d$ と任意の $\alpha \in [0, 1]$ に対して,

$\begin{aligned} f (\alpha {\bf x} + (1 - \alpha) {\bf y}) \leqq \alpha f ({\bf x}) + (1 - \alpha) f({\bf y}) \end{aligned}$

を満たす時, $f$ を凸関数という.

ここで, 以降のHoeffding's ineqの証明などでも用いられる期待値演算にJensen's ineqを適用した形を紹介します.

Jensen's Inequality: $X$ を有限な期待値を持つ確率変数とする. $f(x)$ を $X$ の値域を含む区間において凸な関数とする. この時, 次の不等式が成り立つ.

$\begin{aligned} f \left( \mathbb{E} \left[ X \right] \right) \leqq \mathbb{E} \left[ f(X) \right] \end{aligned}$

Markov's inequality / Chebyshev's inequality

ここでは, Markov's ineqとChebyshev's ineqを紹介します. これらは統計学の教科書にもだいたい掲載されていると思います.

Marcov's Inequality: 非負確率変数 $X$ と任意の $\epsilon > 0, p > 0$ に対して, 次の不等式が成り立つ.

$\begin{aligned} \mathbb{P} \left( X \geqq \epsilon \right) \leqq \frac{ \mathbb{E} \left[ X^p \right] }{\epsilon^p} \end{aligned}$

導出

$\begin{aligned} \epsilon^p \mathbb{P} \left( X \geqq \epsilon \right) & = \epsilon^p \int_{ X \geqq \epsilon } f(x)dx\\ & = \int_{ X \geqq \epsilon } \epsilon^p f(x)dx\\ & \leqq \int_{ X \geqq \epsilon } X^p f(x)dx \\ & \leqq \mathbb{E} \left[ X^p \right] \end{aligned}$

特に, $X$ を $| Z - \mathbb{E} [ Z ] |$ , $p=2$ と置いた時の形をChebyshev's ineqと呼びます. この不等式は, 確率変数 $Z$ がその期待値から大きく外れた値をとる確率を分散を用いて評価しています.

Chebyshev's inequality: 確率変数 $Z$ と任意の $\epsilon > 0$ に対して, 次の不等式が成り立つ.

$\begin{aligned} \mathbb{P} \left( |Z - \mathbb{E} [ Z ] | \geqq \epsilon \right) \leqq \frac{ \mathbb{V} \left[ Z \right] }{\epsilon^2} \end{aligned}$

Hoeffding's inequality

ここで紹介するHoeffding's ineqは機械学習の論文で頻出なので, かなり重要です. これを示す前に, 一つ補題 (Hoeffding's lemma) を示します.

Hoeffding's lemma: 確率変数 $X$ が $\mathbb{E} [X ] = 0$ , $a \leqq X \leqq b$ を満たすとき, 任意の $s > 0$ に対して, 次の不等式が成り立つ.

$\begin{aligned} \mathbb{E} \left[ \exp (sX) \right] \leqq \mathbb{E} \left[ \exp \left( \frac{s^2 (b - a)^2}{8} \right) \right] \end{aligned}$

導出
$a \leqq x \leqq b$ を満たすような $x$ について, $0 \leqq \lambda \leqq 1$ を次のように置きます.

$\begin{aligned} \lambda = \frac{b - x}{b - a} \end{aligned}$

これを変形すると, $sx = s \lambda a + (1 - \lambda)b$ です. $\exp(\cdot)$ は凸関数なので,

$\begin{aligned} e^{sx} = e^{s \lambda a + (1 - \lambda)b} \leqq \lambda e^{sa} + (1 - \lambda) e^{sb} = \frac{b - x}{b - a} e^{sa} + \frac{x - a}{b - a} e^{sb} \end{aligned}$

両辺の期待値をとると,

$\begin{aligned} \mathbb{E} \left[ e^{sX} \right] = \mathbb{E} \left[ \frac{b - X}{b - a} e^{sa} + \frac{X - a}{b - a} e^{sb} \right] = \frac{b }{b - a} e^{sa} - \frac{a}{b - a} e^{sb} \end{aligned}$

$X$ の期待値が0であることを用いました. ここで, $p = - a / (b - a)$ と置くと, $1 - p = b / (b-a)$ なので,

$\begin{aligned} \frac{b }{b - a} e^{sa} - \frac{a}{b - a} e^{sb} = (1 - p) e^{sa} + p e^{sb} \end{aligned}$

と表されます. また, $u = s(b - a)$ と置き, $u$ についての関数 $\phi (u)$ を次のように定義しておきます.

$\begin{aligned} & (1 - p) e^{sa} + p e^{sb} = pe^{(1 - p)u} + (1 - p)e^{-pu} \\ & \phi (u) = \log \left( pe^{(1 - p)u} + (1 - p)e^{-pu} \right) \end{aligned}$

このとき,

$\begin{aligned} \phi(0) & = \log \left(p - (1 - p) \right) = 0 \\ \phi'(0) & = 0 \quad \left( \phi'(u) = -p + \frac{p e^u}{1 - p + p e^u} \right) \\ \phi'' (u) & = \frac{1 - p}{1 - p + pe^u} \cdot \frac{pe^u}{1 - p + pe^u} \\ & = \frac{1 - p}{1 - p + pe^u} \cdot \left( 1 - \frac{1 - p}{1 - p + pe^u} \right) \leqq \frac{1}{4} \end{aligned}$

したがって, テイラーの定理より, $0 \leqq v \leqq u$ となる $v$ が存在して,

$\begin{aligned} \phi(u) = \phi(0) + u \phi'(0) + \frac{u^2}{2} \phi'' (0) \leqq \frac{u^2}{8} \end{aligned}$

$u = s(b - a)$ だったことを思い出すと,

$\begin{aligned} \phi(u) = \log \left( \mathbb{E} \left[ e^{sX} \right] \right) \leqq \frac{ s^2(b - a)^2}{8} \Leftrightarrow \mathbb{E} \left[ \exp \left( sX \right) \right] \leqq \exp \left( \frac{s^2 (a-b)^2}{8} \right) \end{aligned}$

これにて, Hoeffding's lemmaを得ました.

このHoeffding's lemmaを用いて, Hoeffding's ineqを導出します.

Hoeffding's Inequality: 確率変数 $X_1, ..., X_n$ は独立でかつそれぞれが有界区間 $[ a_i, b_i ]$ に値をとるとする. この時, 任意の $\epsilon > 0$ に対して次の不等式が成り立つ.

$\begin{aligned} \mathbb{P} \left( \frac{1}{n} \sum_{i=1}^n X_i - \frac{1}{n} \sum_{i=1}^n \mathbb{E} \left[ X_i \right] \geqq \epsilon \right) \leqq \exp \left( - \frac{2 n^2 \epsilon^2}{ \sum_{i=1}^n (b_i - a_i) } \right) \end{aligned}$

導出
まず, $Z_i = X_i - \mathbb{E} [ X_i ]$ と置く. このとき, $\mathbb{E} [Z_i ] = 0$ であり, $a_i \leqq Z_i \leqq b_i$ が成り立つので, 確率変数 $Z_i$ はHoeffding's lemmaの仮定を満たす. ここで,

$\begin{aligned} & \mathbb{P} \left( \sum_{i=1}^n Z_i \geqq \epsilon \right) \\ & = \mathbb{P} \left( \exp \left( s \sum_{i=1}^n Z_i \right) \geqq \exp(s \epsilon ) \right) \\ & \leqq \exp \left( -s \epsilon \right) \mathbb{E} \left[ \prod_{i=1}^n \exp (s Z_i) \right] \quad \because Marcov's \: ineq \\ & = \exp \left( -s \epsilon \right) \prod_{i=1}^n \mathbb{E} \left[ \exp (s Z_i) \right] \quad \because independency \\ & \leqq \exp \left( -s \epsilon \right) \prod_{i=1}^n \exp \left( \frac{s^2 (b_i - a_i)^2} {8} \right) \quad \because Hoeffding's \: lemma \\ & = \exp \underbrace{ \left( \frac{s^2}{8} \sum_{i=1}^n (b_i - a_i)^2 - s \epsilon \right)}_{(1)} \end{aligned}$

よりtightなboundを得るため, (1)を最小化する $s = 4 \epsilon / \sum_{i=1}^{n} (b_i - a_i)^{2}$ を代入すると,

$\begin{aligned} \mathbb{P} \left( \sum_{i=1}^n Z_i \geqq \epsilon \right) \leqq \exp \left( \frac{-2 \epsilon ^2} { \sum_{i=1}^n (b_i - a_i)^2 } \right) \end{aligned}$

ここで, $Z_i = X_i - \mathbb{E} [ X_i ]$ を代入し, 両辺を $n$ で割ることで, Hoeffding's ineqを得ます.

Hoeffding's ineqは, 有限仮説集合の汎化誤差解析やバンディット問題におけるリグレット解析など至る所で出てくる印象です. 定理自体, $X_1, ..., X_n$ が独立であれば成り立ちますが, 実際はiidが仮定されていることが多いと思います. (iidの仮定がある場合, $\frac{1}{n} \sum_{i=1}^n \mathbb{E} \left[ X_i \right]$ の部分が単に $\mathbb{E} \left[ X_i \right]$ となります.)

McDiarmid's inequality

最後に, McDiarmid ineqを紹介します. これは, 後に紹介する予定のRademacher Complexityに関連する不等式を導くときなどに役立ちます. これを示す前に, 一つ補題 (Azuma's ineq) を示します.

Azuma's inequality: 確率変数 $X_i, Z_i, V_i: i=1, ..., n$ に対して, $V_i$ は $X_i, ..., X_i$ の関数でありかつ $\mathbb{E} [V_i | X_i, ..., X_{i-1} ] =0$ が成り立つとする. また, $Z_i$ は, $X_1, ..., X_{i-1}$ の関数として表すことができ, $i = 1, ..., n$ について $Z_i \leqq V_i \leqq Z_i + c_i$ を満たすような定数 $c_i$ が存在するとします. このとき, 任意の $\epsilon > 0$ に対して, 次の不等式が成り立つ.

$\begin{aligned} \mathbb{P} \left( \sum_{i=1}^n V_i \geqq \epsilon \right) \leqq \exp \left( - \frac{2 \epsilon^2}{\sum_{i=1}^m c_i^2 } \right) \end{aligned}$

導出
まず $V_i$ についての部分和を $S_k = \sum_{i=1}^k V_i$ としておきます. ここで $t > 0$ を用いて,

$\begin{aligned} & \mathbb{P}\left( \sum_{i=1}^n V_i \geqq \epsilon \right) \\ & = \mathbb{P} \left( S_n \geqq \epsilon \right) \\ & = \mathbb{P} \left( \exp \left( t S_n \right) \geqq \exp (t \epsilon ) \right) \\ & \leqq \exp (- t \epsilon ) \mathbb{E} \left[ \exp \left( t S_n \right) \right] \quad \because Marcov's \, ineq \\ & = \exp (-t \epsilon ) \mathbb{E}_{ X_1, ..., X_{n - 1} } \left[ \exp (t S_n) \mathbb{E}_{X_n} \left[ \exp(t V_n) | X_1, ..., X_{n-1} \right] \right] \\ & \leqq \exp (-t \epsilon ) \mathbb{E}_{ X_1, ..., X_{n - 1} } \left[ \exp (t S_n) \right ] \exp \left( \frac{t^2 c_n^2}{8} \right) \quad \because Hoeffding's \, lemma \\ & \leqq \exp \underbrace{ \left( \frac{t^2}{8} \sum_{i=1}^n c_i^2 - t \epsilon \right) }_{(2)} \end{aligned}$

Hoeffding's lemmaの部分は, 仮定より $X_1, ..., X_{n-1}$ で条件付けたとき $V_i$ の期待値が0であることからlemmaの仮定を満たします. 最後の不等式は, Hoeffding's lemmaを繰り返し用いることで得ます. 最後に, (2)を最小化する $t = 4 \epsilon / \sum_{i=1}^{n} c_i^{2}$ を代入することで,

$\begin{aligned} \mathbb{P} \left( \sum_{i=1}^n V_i \geqq \epsilon \right) \leqq \exp \left( - \frac{2 \epsilon^2}{\sum_{i=1}^m c_i^2 } \right) \end{aligned}$

を得ます.

さて, これを用いてMcDiarmid's ineqを示します.

McDiarmid's inequality: ある集合 $\mathcal{X}$ に値をとる独立な確率変数を $X_1, ..., X_n$ とする. また, 関数 $f: \mathcal{X}^n \rightarrow \mathbb{R}$ と任意の $x_1, ..., x_n, x_i' \in \mathcal{X}$ について, 次の条件 (boundedness condition) を満たすような定数 $c_1, ..., c_n$ が存在するとする.

$\begin{aligned} | f(x_1, ..., x_i, ..., x_n) - f(x_1, ..., x'_i, ..., x_n) | \leqq c_i, \quad \forall i \in \{1, 2, .., n \} \end{aligned}$

この時, 任意の $\epsilon > 0$ に対して, 次の不等式が成り立つ.

$\begin{aligned} \mathbb{P} \left( f(X_1, ..., X_n) - \mathbb{E} \left[ f(X_1, ..., X_n) \right] \geqq \epsilon \right) \leqq \exp \left( - \frac{2 \epsilon^2}{\sum_{i=1}^n c_i^2} \right) \end{aligned}$

導出
最初に $f (X_1, ..., X_n)$ を $f (S)$ と表しておきます. また, $V_1, ..., V_n$ を

$\begin{aligned} V_k = \mathbb{E} \left[ f(S) | X_1, ..., X_k \right] - \mathbb{E} \left[ f(S) | X_1, ..., X_{k-1} \right] \end{aligned}$

とします ( $V_1 = \mathbb{E} \left[ f(S) | X_1 \right] - \mathbb{E} \left[ f(S) \right]$ ). ここで, 今定義した $V_k$ がAzuma's ineqの仮定を満たすことを確認します. まず, $V_k$ の第1項は $X_1, ..., X_k$ で条件付けた時の期待値なので, これらの確率変数の関数です. さらに,

$\begin{aligned} \mathbb{E} [ V_k | X_1, ..., X_{k-1} ] & = \mathbb{E}_{X_k, ..., X_n} \left[ f(S) | X_1, ..., X_k \right] - \mathbb{E} \left[ f(S) | X_1, ..., X_{k-1} \right] \\ & = \mathbb{E} \left[ f(S) | X_1, ..., X_{k-1} \right] - \mathbb{E} \left[ f(S) | X_1, ..., X_{k-1} \right] \\ & = 0 \end{aligned}$

ここで, boundedness conditionより

$\begin{aligned} \sup_{x, x'} \{\mathbb{E} \left[ f(S) | X_1, ..., X_{k-1}, x \right] - \mathbb{E} \left[ f(S) | X_1, ..., X_{k-1}, x' \right] \} \leqq c_i \end{aligned}$

を満たします. ここで, $Z_k = \inf_x \mathbb{E} \left[ f(S) | X_1, ..., X_{k-1}, x \right]$ とすると, $X_k, V_k, Z_k: k=1, ..., n$ がAzuma's ineqの仮定を満たします. 最後に,

$\begin{aligned} \sum_{i=1}^n V_i & = \left( \mathbb{E} \left[ f(S) | X_1, ..., X_{k-1} \right] - \mathbb{E} \left[ f(S) | X_1, ..., X_{k-1} \right] \right) \\ & \quad + \cdot \cdot \cdot + \left( \mathbb{E} \left[ f(S) | X_1 \right] - \mathbb{E} \left[ f(S) \right] \right) \\ & = f(X_1, ..., X_n) - \mathbb{E} \left[ f(X_1, ..., X_n) \right] \end{aligned}$

と見て, これにAzuma's ineqを適用すれば, MacDiamid's ineqを得ます.

さいごに

さて, 本記事では機械学習の周辺分野でよく使われる確率不等式（特に, Hoeffding's inequalityとMacDiamid's inequality）を導出してみました. 一見どのように役立つかわからないかもしれませんが, 今後本ブログで記事にするつもり内容と密接な関連があります.
なお, 導出部分で私が勘違いして誤った記述をしている可能性が大いにあります. 誤りを見つけた場合, ご指摘いただけたら幸いです.

参考

[金森 (2015)] 金森敬文. 2015. 統計的学習理論. 講談社機械学習プロフェッショナルシリーズ.
[Duchi] John Duchi. Probability Bounds. URL: http://www.cs.berkeley.edu/~jduchi/projects/probability_bounds.pdf.

2019-04-19

Causal Embeddingsの解説と追試

はじめに

前回は, ログデータの観測確率が一様ではない場合に傾向スコアで補正した損失関数を用いるPropensity Matrix Factorizationを紹介しました. しかし, 2018年のRecsysにてBest Paper Awardを受賞したCausal Embeddings for Recommendation [Bonner+ 2018]で, Propensity MFを実験的に上回る手法が提案されました. 本記事では人工データを用いて, その提案手法の追試を行います.

定式化のおさらい

推薦アルゴリズムの学習の定式化をおさらいします. しかし, ここでは[Bonner+ 2018]のモデル化に合わせるため, 前回記事とは少し異なる部分があることに注意してください.

各ユーザーを $u \in \{1, ..., U \} = \mathcal{U}$ , 各アイテムを $i \in \{ 1, ...., I \} = \mathcal{I}$ とします. また, $P_{u,i}$ をユーザー $u$ がアイテム $i$ に対して有する真のPreferenceとします. $P_{u,i}$ はユーザーとアイテムの組み合わせにのみ依存して決定的な値を取るとします. 推薦アルゴリズムの学習によって達成したいのは, 次のように定義される真の損失関数 $\mathcal{L}$ を最小化するような予測値集合 $\hat{P} = \{ \hat{P}_{u, i} \}_{(u,i) \in \mathcal{U} \times \mathcal{I}}$ を得ることです.

$\begin{aligned} \mathcal{L} \left( \hat{P} \right) = \frac{1}{U \cdot I} \sum_{u,i} \delta \left( P_{u,i}, \hat{P}_{u,i} \right) \end{aligned}$

ここで, $\delta (\cdot, \cdot): \mathbb{R} \times \mathbb{R} \rightarrow \mathbb{R}$ は真のRatingとそれに対する予測値を入力とする関数でした.

さらに, 自分たちが観測できるPreferenceと観測できないそれを区別するために, Recommendationの頭文字をとって新たな確率変数 $R$ を導入します. この $R$ は2値確率変数であり各ユーザーとアイテムのペアに対応して独立に存在します. $R_{u,i} = 1$ ならば, 過去にユーザー $u$ にアイテム $i$ が推薦されたことを意味し, そのペアについてのPreferenceが観測されることを意味します. [Bonner+ 2018]では, 観測されるPreferenceを $Y_{u,i}^{obs}$ とした時, 次のようなモデルを想定しています.

$\begin{aligned} Y_{u,i}^{obs} = P_{u,i} \cdot R_{u,i} \end{aligned}$

このモデル化では, 過去に推薦が発生したペア（ $R_{u,i} = 1$ ）については, $Y^{obs}_{u,i} = P_{u,i}$ となり真のPreferenceが観測されますが, それ以外のペアについては $Y_{u,i}^{obs} = 0$ となりPreferenceが観測されないということになります.（ユーザーとアイテムのMatrixを考えた時に, Preferenceが観測されず欠損となってしまっている部分を0で表しているというイメージです.）

以降, 推薦有無を表す確率変数 $R_{u,i}$ は議論の中で重要な役割を担うので, その期待値にnotationを用意しておきましょう.

$\begin{aligned} \mathbb{E} \left [ R_{u,i} \right ] = \pi_c (u,i) \end{aligned}$

$\pi_c (u,i)$ はログデータが集められた際に走っていた推薦方策を表し, logging policyと呼びます. これを用いると私たちが学習の際に用いることができる（真の損失関数の推定に用いることができる）学習データセット $\mathcal{S}$ を次のように表すことができます.

$\begin{aligned} \mathcal{S} = \left\{ \left( u, i, Y_{u,i}^{obs} \right): R_{u,i} = 1 \right\} \end{aligned}$

Radomized Policy下でのNaive Loss

前章で定義した真の損失関数 $\mathcal{L}$ を知ることができるならばそれ最適化するパラメータを得れば良いのですが, それは不可能です. よって手元にあるログデータ $\mathcal{S}$ から損失関数を推定して, それを信じた上で, 最適化を実行する必要があります.

まずNaiveな損失関数 $\hat{\mathcal{L}}_{naive} \left( \hat{P} \right)$ は次のように定義されます. これは, 過去に推薦が発生したデータについての損失を単純に平均するという非常に単純な推定量です.

$\begin{aligned} \hat{\mathcal{L}}_{naive} \left( \hat{P} \right) = \frac{1}{ | \mathcal{S} | } \sum_{(u,i) \in \mathcal{S}} \delta \left( Y^{obs}_{u,i}, \hat{P}_{u,i} \right) \end{aligned}$

[Bonner+ 2018]は, このNaive推定量 $\hat{\mathcal{L}}_{naive}$ がある条件下で望ましい性質を満たすことに注目します. まず, ある条件とは次のようなものです.

$\begin{aligned} \pi_c (u,i) = \pi_{rand} = \frac{C \cdot | \mathcal{S} |}{U \cdot I} \quad (constant) \end{aligned}$

つまり, logging policyがユーザーとアイテムに非依存で, 一様な定数であるという要求です. このようなlogging policyを特にrandomized policyと呼ぶことにし, $\pi_{rand}$ で表します. 定数部分は実はなんでも良いのですが, ここでは後の式変形が綺麗な形になる定数を置いています. さて, このlogging policyがrandomized policyであるという仮定が成り立っているときに, Naive推定量 $\hat{\mathcal{L}}_{naive}$ の期待値をとってみましょう.

$\begin{aligned} \mathbb{E}_R \left[ \hat{\mathcal{L}}_{naive} \left( \hat{P} \right) \right ] & = \mathbb{E}_R \left[ \frac{1}{ | \mathcal{S} | } \sum_{(u,i) \in \mathcal{S}} \delta \left( Y^{obs}_{u,i}, \hat{P}_{u,i} \right) \right] \\ & = \mathbb{E}_R \left[ \frac{1}{ | \mathcal{S} | } \sum_{(u,i) \in \mathcal{U} \times \mathcal{I} } R_{u,i} \cdot \delta \left( P_{u,i}, \hat{P}_{u,i} \right) \right] \\ & = \frac{1}{ | \mathcal{S} | } \sum_{(u,i) \in \mathcal{U} \times \mathcal{I}} \mathbb{E}_{R_{u,i}} \left[ R_{u,i} \right] \cdot \delta \left( P_{u,i}, \hat{P}_{u,i} \right)\\ & = \frac{1}{ | \mathcal{S} | } \sum_{(u,i) \in \mathcal{U} \times \mathcal{I}} \pi_{rand} \cdot \delta \left( P_{u,i}, \hat{P}_{u,i} \right) \\ & = \frac{1}{ | \mathcal{S} | } \sum_{(u,i) \in \mathcal{U} \times \mathcal{I}} \left( \frac{C \cdot | \mathcal{S} |}{U \cdot I} \right) \cdot \delta \left( P_{u,i}, \hat{P}_{u,i} \right) \\ & = C \left( \frac{1}{U \cdot I} \sum_{u,i} \delta \left( P_{u,i}, \hat{P}_{u,i} \right) \right) \\ & = C \cdot \mathcal{L} \left( \hat{P} \right) \\ & \propto \mathcal{L} \left( \hat{P} \right) \end{aligned}$

これにより, randomized policyで集められたログデータを用いて計算されるNaiveな損失関数は真の損失関数に比例します. よって, $\hat{\mathcal{L}}_{naive}$ を最適化するような学習は妥当であると言えそうです.

Causal Embeddings (CausE)

[Bonner+ 2018]の提案手法であるCausEは, 前章で紹介したNaive推定量の性質を活用します. CausEは学習データが次のように表せることを要求します.

$\begin{aligned} \mathcal{S} = \mathcal{S}_t \cup \mathcal{S}_c \end{aligned}$

ここで, $\mathcal{S}_t$ はrandomized policyによって集められた学習データで, $\mathcal{S}_c$ は $u$ と $i$ に依存するlogging policyによって集められた学習データを表します. ただし, $\mathcal{S}_t$ は $\mathcal{S}_c$ よりも要素数の少ない集合で良いです. また, それぞれ異なるembeddingsによって構成される2つの予測値集合 $\hat{P}_t = \{ \theta_{u, t}^{\top} \beta_{i, t} \}_{ (u,i) \in \mathcal{U} \times \mathcal{I} }$ , $\hat{P}_c = \{ \theta_{u, c}^{\top} \beta_{i, c} \}_{ (u,i) \in \mathcal{U} \times \mathcal{I} }$ を用いた次の損失関数をCausEは最適化します.

$\begin{aligned} \hat{\mathcal{L}}_{CausE} & = \underbrace{ \frac{1}{| \mathcal{S}_t |} \sum_{ (u, i) \in S_t } \delta \left( P_{u,i}, \theta_{u, t}^{\top} \beta_{i, t} \right) }_{(1)} + \underbrace{ \frac{1}{| \mathcal{S}_c |} \sum_{ (u, i) \in S_c } \delta \left( P_{u,i}, \theta_{u, c}^{\top} \beta_{i, c} \right) }_{(2)} \\ & + \underbrace{ \lambda \left( \sum_{u \in \mathcal{U}} \| \theta_{u, t} - \theta_{u, c} \|_p + \sum_{i \in \mathcal{I}} \| \beta_{i, t} - \beta_{i, c} \|_p \right)}_{(1)} \end{aligned}$

(1)はrandomized policyによって構成された $\mathcal{S}_t$ に対するNaiveな損失（Biasなし）, (2)はlogging policyによって構成された $\mathcal{S}_c$ に対するNaiveな損失（Biasあり）, (3)は(2)によって得られるembeddings ( $\theta_{u, c}, \beta_{i, c}$ ) が望ましい損失である(1)から得られるembeddings ( $\theta_{u, t}, \beta_{i, t}$ ) と乖離することに対してかける正則化で, $\lambda$ はその強さを調節するハイパーパラメータです. （ $\theta_{u, c}, \beta_{i, c}$ を更新するときのみ, (3)の正則化を考慮に入れるアルゴリズムになっています.）

確かにこの損失関数からは, Biasがあるが考慮できるデータが多い損失(2)から得られたembeddingsが, Biasのない損失(1)から得られたembeddingsと離れないようにしようというお気持ちが読み取れます. しかし, この正則化について理論的な考察が論文でなされているわけではなく, どこかもどかしい気もします.

さて, 最終的な予測値集合は次のように作ります.（これが実験的に最も良かったらしいです.）

$\begin{aligned} \hat{P}_{CausE} = \{ \theta_{u, c}^{\top} \beta_{i, c} \}_{ (u,i) \in \mathcal{U} \times \mathcal{I} } \end{aligned}$

簡易実験

CausEとPropensity Matrix Factorizationの性能を同様の人工データを用いて比較します.

実験設定

設定に関しては前回の実験と同じです.

しかし, 前回記事ではあえて書いていなかったのですが学習データの約3%はrandomized policy ( $\pi_{rand}$ ) によって生成されています. CausEは, この少量の $\mathcal{S}_t$ を明示的に活用することで精度向上を目指します.

また, 各手法について, Optimizerはエポック数1024のMini-batch Momentum, 学習率には初期値を0.1としたexponential decayを施しています. CausEの $\mathcal{S}_t$ と $\mathcal{S}_c$ で得られたembeddingsの乖離に対してかける正則化はL1 normを用いました（L2 normよりも若干良かった）.

実験結果

評価方法は前回と同様で, 各手法の25,000エポックの内, validation dataの評価が最も良かったエポックのtest dataに対するMSEの相対改善度を性能評価として用います. ただし, test dataのratingの平均で全埋めしたときのMSEを相対改善度のベースラインとしています. （[Bonner+ 2018]と同じような評価方法です.）

validation時の評価指標は, NaiveなMatix FactorizationはNaiveな評価指標を, Propensity Matrix FactorizatioはUnbiasedな評価指標をそれぞれ対応する指標として用いました. CausEに関しては, validationの際も少量の $S_t$ を用いています.

結果は次の通りです. Best on Valはvalidation dataの評価指標が最も良かったときのエポックのtest dataに対する性能で, Best on Testは, test dataを対する真の性能が最も良かったときのエポックのtest dataに対する性能です. この2つの差が大きい場合, validationに使っていた評価指標が信頼できるものではなかった, ということです.

	Best on Val	Best on Test
Naive MF	- 66.05 %	18.71 %
Propensity MF	16.22 %	19.31 %
Causal Embeddings (CausE)	23.02 %	23.11 %

Naive MFとPropensity MFは, 前回記事と同様の結果を掲載しています. CausEは, 少量の $\mathcal{S}_t$ を明示的に活用することで精度を向上できていることがわかります. CausEの学習の様子は次のようになりました. 青い線は $\mathcal{S}_t$ に対するNaiveな損失ですが, 学習データの3%ほどから計算しているのでエポック間でのブレが大きくなっています.

f:id:usaito:20190416073151p:plain — CausEのlearning curve

さいごに

これまではexplicit feedback recommendationのBias除去の話題について触れてきました. これからはimplicit feedback recommendationに関する同様の話題についても触れていきたいです.

参考

[Bonner+ 2019] Stephen Bonner and Flavian Vasile. Causal embeddings for recommendation: An Extended Abstract. arXiv:1904.05165. 2019.
[Bonner+ 2018] Stephen Bonner and Flavian Vasile. Causal embeddings for recommendation. In Proceedings of the 12th ACM Conference on Recommender Systems, pages 104– 112. ACM, 2018.
[Schnabel+ 2016] Tobias Schnabel, Adith Swaminathan, Ashudeep Singh, Navin Chandak, and Thorsten Joachims. Recommendations as treatments: Debiasing learning and evaluation. In Proceedings of the 33rd International Conference on International Conference on Machine Learning - Volume 48, ICML’16, pages 1670–1679, 2016.

2019-04-16

因果推論で推薦システムを問い直す（学習アルゴリズム編）

はじめに

以前, こちらに本記事の評価指標編を書きました. 今回は, 同様の問題が推薦アルゴリズムの学習時にも発生し得ることを指摘し, その解決方法について議論します. 評価指標編を読んでいただいている方は, 重複する内容も多いのですんなり読んでいただけると思います.

Toy Example

問題のイメージを持っていただくために, 評価指標編と同様の例を載せておきます.

今, Horror Lovers・Romance Loversというユーザー属性とHorror・Rommance・Dramaという3つのジャンルのみが存在するシンプルな映画推薦の系を考えます. さらに各ユーザーがそれぞれの映画に対して付すRatingがユーザー属性と映画ジャンルの組み合わせのみによって決まる（つまりRatingの付き方は高々6通り）とします. この時, 予測1 ( $\hat{Y}_1$ ) と予測2 ( $\hat{Y}_2$ )（例えば予測1は, Horror LoversがRomance映画に対してRating 1という予測を出力するという見方です）の性能を自分たちが所持している推薦ログデータからMAEを用いて評価し, その評価（損失）に基づいて予測を最適化することを考えます.

f:id:usaito:20190416063747p:plain — [Schnabel+ 2016]のFigure 1より

ここで重要なのが評価に用いるログデータの生成過程です. この例では, ログデータが右上の過去の推薦方策と名付けられている行列のように各ユーザー属性と映画ジャンルの組み合わせごとに異なる推薦確率を持った方策によって集められたログデータであるとします. これにより, 例えば3200個のRatingが含まれるログデータについては各ユーザーと映画ジャンルの観測回数は図のようになり, 要素ごとの観測回数がかなり異なることがわかります. この観測回数の不均衡はひとえにこのデータが各ユーザー属性と映画ジャンルの組み合わせごとに異なる推薦確率を持った方策によって集められたことに起因します.

f:id:usaito:20190416063816p:plain — [Schnabel+ 2016]のFigure 1より

このような各要素ごとに観測回数（生成確率）が一様ではないデータを推薦システムの評価に使ってしまうと図のように, 真の性能は予測1の方が良い（MAE = 0.67）にも関わらず, ログデータ上で計算されたMAEは予測2の方が良くなってしまうという非常に厄介な問題が生じます. つまり, naiveに損失関数を設計してしまうと, 誤った方向に学習が進んでしまう可能性があるのです.

Naive Lossに存在するBias

まず最初に紹介するのが, Naiveな損失関数 $\hat{\mathcal{L}}_{naive} \left( \hat{Y} \right)$ です. これは, 観測されているデータについての損失を単純に平均するという非常に単純な推定量と言えますが, 多くの論文ではこのNaiveな損失関数の推定量をいかにして最適化するかに力点が置かれているように思います.

$\begin{aligned} \hat{\mathcal{L}}_{naive} \left( \hat{Y} \right) = \frac{1}{ \sum_{u,i} O_{u,i} } \sum_{(u,i): O_{u,i} = 1} \delta \left( Y_{u,i}, \hat{Y}_{u,i} \right) \end{aligned}$

このNaiveな推定量は $O_{u,i} = 1$ つまり, ログデータとして観測されているRatingに対する損失を単純に平均しています. ごくごく自然な損失関数の推定方法だと思いますが, 実はログデータの $Y_{u,i}$ が観測される確率が一様ではない場合, このNaiveな損失関数の推定量 $\hat{\mathcal{L}}_{naive}$ は真の損失関数 $\mathcal{L}$ に対してBiasを持つことが次のように示されます.

今分母の $\sum_{u, i} O_{u, i}$ を任意の正の定数 $N$ で置き換えた上で, $\hat{\mathcal{L}}_{naive}$ の確率変数 $O$ についての期待値をとります.

$\begin{aligned} \mathbb{E}_O \left[ \hat{\mathcal{L}}_{naive} \left( \hat{Y} \right) \right] & = \mathbb{E}_O \left[ \frac{1}{ N } \sum_{(u,i): O_{u,i} = 1} \delta \left( Y_{u,i}, \hat{Y}_{u, i} \right) \right] \\ & = \mathbb{E}_O \left[ \frac{1}{ N } \sum_{u,i} O_{u,i} \cdot \delta \left( Y_{u,i}, \hat{Y}_{u, i} \right) \right] \\ & = \sum_{u,i} \frac{\mathbb{E}_{O_{u,i}} \left[ O_{u,i} \right]} {N} \cdot \delta \left( Y_{u,i}, \hat{Y}_{u, i} \right) \end{aligned}$

ここで, $\hat{\mathcal{L}}_{naive}\left( \hat{Y} \right) \propto \mathcal{L} \left( \hat{Y} \right)$ が成り立つためには, 任意の $u$ と $i$ ついて

$\begin{aligned} \frac{\mathbb{E}_{O_{u,i}} \left[ O_{u,i} \right]} {N} = \frac{C}{U \cdot I} \end{aligned}$

が成り立つ必要があります ( $C$ は何かしらの正の定数.). しかし観測確率が一様ではない場合, この条件を満たす定数 $N$ は存在しません. よって, $\hat{\mathcal{L}}_{naive} \left( \hat{Y} \right) \neq \mathcal{L} \left( \hat{Y} \right)$ であり, naive推定量は真の評価値に対してBiasを持つ（比例関係にない）ことがわかりました. また, そのBiasは観測確率が一様ではないことに起因することも示唆されました.

UnbiasedなLossの構築

前章では, naiveな推定量がBiasを持ってしまうという悲しい事実を紹介しましたが, 評価指標の構築時と同様にIPS (Inverse Propensity Score)と呼ばれる方法でBiasの除去が可能です. ここで, Propensity Score (傾向スコア) とは $u$ が $i$ に対して有する真のRating $Y_{u,i}$ が観測される確率のことです. 表記の簡略化のため, Propensity Scoreを

$\begin{aligned} P_{u,i} = \mathbb{E} \left[ O_{u,i} \right] \end{aligned}$

と置くと, IPSを用いた推定量 $\hat{\mathcal{L}}_{IPS} \left( \hat{Y} \right)$ は, 次のように定義されます.

$\begin{aligned} \hat{\mathcal{L}}_{IPS} \left( \hat{Y} \right) = \frac{1}{ U \cdot I } \sum_{(u,i): O_{u,i} = 1} \frac{ \delta \left( Y_{u,i}, \hat{Y}_{u, i} \right)} {P_{u,i}} \end{aligned}$

summationが $O_{u,i} = 1$ で条件付けられたデータに対するものであることから, この $\hat{\mathcal{L}}_{IPS} \left( \hat{Y} \right)$ は観測可能なデータから推定可能な統計量です. 少し天下り的に与えてしまった $\hat{\mathcal{L}}_{IPS} \left( \hat{Y} \right)$ ですが, その期待値が真の評価値 $\mathcal{L} \left( \hat{Y} \right)$ に一致することを次のように示すことができます.

$\begin{aligned} \mathbb{E}_O \left[ \hat{\mathcal{L}}_{IPS} \left( \hat{Y} \right) \right] & = \mathbb{E}_O \left[ \frac{1}{ U \cdot I } \sum_{(u,i): O_{u,i} = 1} \frac{ \delta \left( Y_{u,i}, \hat{Y}_{u, i} \right)} {P_{u,i}} \right] \\ & = \mathbb{E}_O \left[ \frac{1}{ U \cdot I } \sum_{u,i} O_{u,i} \cdot \frac{ \delta \left( Y_{u,i}, \hat{Y}_{u, i} \right)} {P_{u,i}} \right] \\ & = \frac{1}{ U \cdot I } \sum_{u,i} \frac{\mathbb{E}_{O_{u,i}} \left[ O_{u,i} \right]} {P_{u,i}} \cdot \delta \left( Y_{u,i}, \hat{Y}_{u, i} \right) \\ & = \frac{1}{ U \cdot I } \sum_{u,i} \delta \left( Y_{u,i}, \hat{Y}_{u, i} \right) \\ & = \mathcal{L} \left( \hat{Y} \right) \end{aligned}$

よって Biasの観点で議論すると, 真の損失に対して比例関係を満たさないnaive推定量 $\hat{\mathcal{L}}_{naive}$ ではなくて, 不偏性を満たすIPS推定量を最適化することでアルゴリズムを学習するのが良さそうと言えます.

Propensity Matrix Factorization

[Schnabel+ 2016]は, 真の損失関数に対する不偏性を満たす $\hat{\mathcal{L}}_{IPS}$ を用いてユーザーとアイテムのembeddings （ $\{ \theta_u \}_{u \in \mathcal{U}}$ , $\{ \beta_i \}_{i \in \mathcal{I}}$ ）を得るというPropensity Matrix Factorizationを提案しました. これは, 次のような式でembeddingsを逐次更新することにより, Unbiasedな勾配に基づいたembeddingsを獲得することができます. （実際には正則化項も入れます.）

$\begin{aligned} \theta_u & \leftarrow \theta_u - \nabla_{\theta} \hat{\mathcal{L}}_{IPS} \left( \hat{Y} \right) \\ \beta_i & \leftarrow \beta_i - \nabla_{\beta} \hat{\mathcal{L}}_{IPS} \left( \hat{Y} \right) \end{aligned}$

簡易実験

Propensity Matrix FactorizationとNaiveなMatrix Factorizationの性能を人工データを用いて比較します.

実験設定

まず, 各ユーザーとアイテムに対応する20次元のベクトルを独立にサンプリングします. $\lambda$ は適当に0.5としました.

$\begin{aligned} \theta_u \sim \mathcal{N} \left( {\bf 0}, \lambda {\bf I} \right), \; \beta_i \sim \mathcal{N} \left( {\bf 0}, \lambda {\bf I} \right) \end{aligned}$

次にユーザーバイアス $b_u$ とアイテムバイアス $b_i$ を独立にサンプリングします. こちらも $\lambda$ は0.5に設定しました.

$\begin{aligned} b_u \sim \mathcal{N} \left( 0, \lambda \right), \; b_i \sim \mathcal{N} \left( 0, \lambda \right) \end{aligned}$

これらのサンプリングされたベクトルやスカラー値を用いてRatingを次のように生成したあとで, 整数値に直し, Ratingの最小値が1, 最大値が5になるような処理を加えました. 末尾のrating_biasは, ratingの全体平均を調整するために入れています. 今回の実験では3に設定しています.

$\begin{aligned} Y_{u,i} = \theta_u^{\top} \beta_i + b_u + b_i + rating\_bias \end{aligned}$

コードで書くとこのような感じになります.

# theta, beta, user_bias, item_biasからratingを生成.
preference = theta @ beta.T + user_bias + item_bias.T + rating_bias
rate = np.clip(np.round(preference), a_min=1., a_max=5.)

最後に傾向スコアを次のように生成します. ここでは, 真のRatingが高いほどデータが観測されやすいという考えに基づき次の生成過程を用いました. 実験では, $k=0.275, \alpha=0.2$ に設定しています. これでsparcityがおおよそ4%となりました.

$\begin{aligned} P_{u,i} = k \cdot \alpha^{ \left( 5 - Y_{u,i} \right) } \end{aligned}$

上記のような過程で生成されたRatingの分布は次の通りです. 学習データのRatingの平均は, である一方で, テストデータのRatingの平均は, です. 大きなズレが生じていることが一目瞭然です.

f:id:usaito:20190416061820p:plain — TrainとTestのRating分布

実験結果

Naiveな損失を使ったMatrix FactorizationとIPSによるUnbiasedな損失を用いたPropensity Matrix Factorizationを比較します.

両者25,000エポックの内, validation dataの評価が最も良かったエポックのtest dataに対するMSEの相対改善度を性能評価として用います. ただし, test dataのratingの平均で全埋めしたときのMSEを相対改善度のベースラインとしています. （[Bonner+ 2018]と同じような評価方法です.）

validation時の評価指標は, NaiveなMatix FactorizationはNaiveな評価指標を, Propensity Matrix FactorizatioはUnbiasedなMatrix Factorizationをそれぞれ対応する指標として用いています（評価指標について詳しくはこちら）.

結果は次の通りです. Best on Valはvalidation dataの評価指標が最も良かったときのエポックのtest dataに対する性能で, Best on Testは, test dataを対する真の性能が最も良かったときのエポックのtest dataに対する性能です. つまり, この2つの差が大きい場合, validationに使っていた評価指標が信頼できるものではなかった, ということになります.

	Best on Val	Best on Test
Naive MF	- 66.05 %	18.71 %
Propensity MF	16.22 %	19.31 %

validationを対応する評価指標で行なった場合, Propensity MFが大きく上回っています. 一方で, test dataに対して最適だったときの性能はさほど大きな差はありません. 損失関数のBiasを取り除くことが性能向上に寄与することに加えて, 評価指標がいかに重要であるかを物語る結果となりました. さらにNaive MFをNaiveな評価指標で評価するという組み合わせは, baselineよりも悪い結果となってしまう可能性があることも示唆されました.

それぞれの学習の様子は次の通りです. Naive MFは途中でtest dataに対する性能が上昇し始めてしまっていることが見えます. 一方で, Propensity Matrix Factorizationの方はほぼ単調にtest dataに対する損失が減少しています. ちなみに, Propensity Matrix Factorizationの損失は観測確率の逆数で重み付けすることもあって分散が大きくなる（≒各エポックで損失の推定がぶれる）ので, 今回はバッチサイズが1024のミニバッチ学習を用いています.

f:id:usaito:20190416061647p:plain — Naive Matrix Factorizationのlearning curve

f:id:usaito:20190416061708p:plain — Propensity Matrix Factorizationのlearning curve

さいごに

本記事では, 簡単な例から入り理論事実と簡易実験により推薦システムの学習をnaiveな損失関数に基づいて行ってしまうと学習過程でBiasが生じること, 傾向スコアを用いたIPS推定量によりそのBiasを除去し予測性能を向上できることを示してきました. 実は, 2018年のRecsysでPropensity Matrix Factorizationを実験的に上回った手法が提案されています. 次回は, その手法の追試を行っていくつもりです.

参考

[Bonner+ 2018] Stephen Bonner and Flavian Vasile. Causal embeddings for recommendation. In Proceedings of the 12th ACM Conference on Recommender Systems, pages 104– 112. ACM, 2018.
[Schnabel+ 2016] Tobias Schnabel, Adith Swaminathan, Ashudeep Singh, Navin Chandak, and Thorsten Joachims. Recommendations as treatments: Debiasing learning and evaluation. In Proceedings of the 33rd International Conference on International Conference on Machine Learning - Volume 48, ICML’16, pages 1670–1679, 2016.

2019-04-13

Domain Adversarial Neural Networksの解説

はじめに

最近自分の研究分野との親和性が高いこともあり, Unsupervised Domain Adaptation (教師なしドメイン適応)の理論を勉強しています. その理論を応用した手法に, Domain Adversarial Neural Networks (DANN) というものがあり自分でも動かしてみました.

Unsupervised Domain Adaptationとは

まずUnsupervised Domain Adaptation (UDA) を定式化します. 入力空間を $\mathcal{X}$ , 出力空間を $\mathcal{Y} = \{0, 1\}$ とします. ここで, あるdomain $D$ とは, 入力の分布 $P_D$ とlabeling function $f_D: \mathcal{X} \rightarrow \mathcal{Y}$ のpair $\left( P_D, f_D \right)$ のことを指します. UDAは, labelが得られているsource domainからのサンプル $\mathcal{S} = \{ x_i, y_i \}_{i=1}^{n_S}$ とlabelが得られていないtarget domainからのサンプル $\mathcal{T} = \{ x_j \}_{j=1}^{n_T}$ から, 次のtarget domainにおける期待判別誤差をできるだけ小さくするような仮説 $h$ を得ることを目指します.

$\begin{aligned} R_T^l (h, f_T) = \mathbb{E}_{X \sim P_T} \left[ l \left( h(X), f(X) \right) \right] \end{aligned}$

以降は, 損失関数 $l$ として0-1損失のみを考えます. この時,

$\begin{aligned} R_T (h, f_T) = \mathbb{E}_{X \sim P_T} \left[ \left| h(X) - f(X) \right| \right] \end{aligned}$

です. このように表されるtarget domainにおける期待判別誤差を（一様に）boundしたいというのが理論的なモチベーションになります. 学習データとテストデータのDomainが同一であるような通常の教師あり機械学習の場合, 次のような形で予測判別誤差をboundするのが一般的です.

任意の $h \in \mathcal{H}$ について, 少なくとも $1 - \delta$ ( $\forall \delta \in (0, 1)$ ) の確率で次の不等式を満たす.

$\begin{aligned} R_D (h, f_D) \leqq \hat{R}_D (h, f_D) + complexity \left( \mathcal{H} \right) + confidence\_level (\delta) \end{aligned}$

しかし, UDAではテストデータのlabelがサンプルとして得られていないので, target domainの経験判別誤差を用いることができません. よって, 次のようなboundを得ることを目指すこととします.

任意の $h \in \mathcal{H}$ について, 少なくとも $1 - \delta$ ( $\forall \delta \in (0, 1)$ ) の確率で次の不等式を満たす.

$\begin{aligned} R_T (h, f_D) \leqq & \underbrace{\hat{R}_S (h, f_S)}_{(1)} + \underbrace{complexity \left( \mathcal{H} \right)}_{(2)} + \underbrace{confidence\_level (\delta)}_{(3)} \\ & + \underbrace{descrepancy (P_S, P_T)}_{(4)} + \underbrace{difference (f_S, f_D)}_{(5)} \end{aligned}$

(1)は, Source Domainにおける経験判別誤差. (2)は, 仮説集合の複雑さ. (3)は $\delta$ に依存する項. (4)はSourceとTargetの入力分布の乖離度. (5)はSourceとTargetのlabeling functionの乖離度です. 次節では, H-divergenceと呼ばれるdiscrepancyを用いたboundについて説明します.

H-divergenceを用いた汎化誤差上界

H-divergenceは次のように定義されるdiscrepancyの一種です.

$\begin{aligned} d_{\mathcal{H}} \left( P_S, P_T \right) & = 2 \sup_{h \in \mathcal{H}} \left| R_S (h, 1 ) - R_T (h, 1 ) \right| \\ & = 2 \sup_{h \in \mathcal{H}} \left| \left( 1 - R_S (h, 0 ) \right) - R_T (h, 1 ) \right|\\ & = 2 \sup_{h \in \mathcal{H}} \left| 1 - \left( R_S (h, 0 ) + R_T (h, 1 ) \right) \right| \end{aligned}$

仮説集合が対称であるとき, empiricalには

$\begin{aligned} d_{\mathcal{H}} \left( \hat{P}_S, \hat{P}_T \right) = 2 \left( 1 - \min_{h \in \mathcal{H}} \left( \frac{1}{n_S} \sum_{i = 1}^{n_S}\mathbb{I} \left[ h(x_i) = 0 \right] + \frac{1}{n_T} \sum_{j = 1}^{n_T} \mathbb{I} \left[ h(x_j) = 1 \right] \right) \right) \end{aligned}$

です. よって, H-divergenceは仮説集合 $\mathcal{H}$ がsource domainとtarget domainのデータを入力から判別する性能に依存することがわかります. 入力からどちらのDomainからのサンプルかが判別できるほど, 2つのDomainのH-Divergenceが大きくなるというイメージです.

このH-divergenceを用いると次のようなboundが得られます. ([Ganin+ 2015]のTheorem 2, [Ben David+ 2010]のTheorem 2を参考にした)

任意の $h \in \mathcal{H}$ について, 少なくとも $1 - \delta$ ( $\forall \delta \in (0, 1)$ ) の確率で次の不等式を満たす.

$\begin{aligned} R_T (h, f_D) \leqq & R_S (h, f_S) + \frac{1}{2} d_{\mathcal{H}} \left( P_S, P_T \right) + \beta \end{aligned}$

ただし, $\beta \geqq \inf_{h \in \mathcal{H}} \left( R_S(h, f_S) + R_T (h, f_T) \right)$ です. つまり, $\beta$ は $R_S(h, f_S)$ と $R_T(h, f_T)$ の和の下限の上界です.

さらに, 既存の統計的機械学習における結果を用いてempricalに推定可能なboundを次の通りに得ます.

$\mathcal{H}$ を有限のVC次元 $d$ を持つ仮説集合とする. 任意の $h \in \mathcal{H}$ について, 少なくとも $1 - \delta$ ( $\forall \delta \in (0, 1)$ ) の確率で次の不等式を満たす. ただし, $n_S = n_T = n$ とした.

$\begin{aligned} R_T (h, f_D) \leqq & \hat{R}_S (h, f_S) + \sqrt{ \frac{4}{n} \left( d \log \left( \frac{2en}{d} \right) + \log \left( \frac{4}{\delta} \right) \right) } \\ & + \frac{1}{2} d_{\mathcal{H}} \left( \hat{P}_S, \hat{P}_T \right) + 4 \sqrt{ \frac{1}{n} \left( 2d \log \left( 2n \right) + \log \left( \frac{4}{\delta} \right) \right) } + \beta \end{aligned}$

VC次元やそれを用いた予測判別誤差と経験判別誤差の差の一様boundについては, MLPシリーズ『統計的機械学習』のChapter 2に説明があります.

Domain Adversarial Neural Networks (DANN)

ようやくDANNの説明に入ります. 前節で得た $R_T (h, f_T)$ の上界のうち, 私たちがどうにかできるのはsource domainにおける経験判別誤差 $\hat{R}_S (h, f_S)$ と $P_S, P_T$ の経験H-Divergence $d_{\mathcal{H}} \left( \hat{P}_S, \hat{P}_T \right)$ です. これらの和を小さくするために3つのlayer $G_f, G_y, G_d$ を考えます. $G_f (\cdot ; \theta_f)$ はrepresentation layerと呼び, 入力空間 $\mathcal{X}$ をある望ましい空間 $\mathcal{R}$ に写像する役割を持ちます. $G_y (\cdot ; \theta_y)$ はprediction layerと呼び, $G_f$ で得た特徴表現 $\mathcal{R}$ からlabelを予測します. 最後に, $G_d (\cdot ; \theta_d)$ はdomain layerと呼び, 特徴表現 $\mathcal{R}$ からSource Domainから得られたサンプルなのかTarget Domainで得られたサンプルなのかを判別します.

これらを用いてDANNの損失関数は次のように定義されます.

$\begin{aligned} E \left( \theta_f, \theta_y, \theta_d \right) = \underbrace{ \frac{1}{n_S} \sum_{i = 1}^{n_S} \mathcal{L}^i_y \left( \theta_f, \theta_y \right)}_{(1)} - \underbrace{ \lambda \left( \frac{1}{n_S} \sum_{i = 1}^{n_S} \mathcal{L}^i_d \left( \theta_f, \theta_d \right) + \frac{1}{n_T} \sum_{j = 1}^{n_T} \mathcal{L}^j_d \left( \theta_f, \theta_d \right) \right) }_{(2)} \end{aligned}$

ここで,

$\begin{aligned} & \mathcal{L}^i_y \left( \theta_f, \theta_y \right) = \mathcal{L}_y \left( G_y \left( G_f (x_i, \theta_f), \theta_y \right), y_i \right) \\ & \mathcal{L}^i_d \left( \theta_f, \theta_d \right) = \mathcal{L}_d \left( G_d \left( G_f (x_i, \theta_f), \theta_d \right), d_i \right) \end{aligned}$

はそれぞれサンプル $i$ に対するprediction lossとdomain lossです. 損失関数 $E \left( \theta_f, \theta_y, \theta_d \right)$ のうち, (1)はsource domainにおける経験判別誤差を表しており(2)は, $G_f$ によって生成される表現 $\mathcal{R}$ 上での経験H-Divergenceと読めます. $\lambda$ はそのどちらをどれだけ重視するかを司るハイパーパラメータです. 要は $E \left( \theta_f, \theta_y, \theta_d \right)$ は, $R_T(h, f_T)$ の上界のうち私たちがどうにかできる項と言えます. 3つのパラメータ $\theta_f, \theta_y, \theta_g$ はそれぞれ次のように更新します．

$\begin{aligned} \theta_f & \leftarrow \theta_f - \mu \cdot \left( \frac{\partial \mathcal{L}_y^i }{\partial \theta_f} - \lambda \frac{\partial \mathcal{L}_d^i }{\partial \theta_f} \right) \\ \theta_y & \leftarrow \theta_y - \mu \cdot \frac{\partial \mathcal{L}_y^i }{\partial \theta_y} \\ \theta_d & \leftarrow \theta_d - \mu \cdot \frac{\partial \mathcal{L}_d^i }{\partial \theta_d} \end{aligned}$

$\mu$ は学習率です. 3つの更新式の中で最も重要なのは, $\theta_f$ の更新式でしょう. $\theta_f$ は, prediction lossを小さくするような勾配とdomain lossを大きくするような勾配によって更新されていることがわかります. これにより, $G_f$ はLabelの予測には役立つ ( $\hat{R}_S (h, f_S)$ を小さくする) がDomainの予測には役立たない ( $d_{\mathcal{H}}$ を大きくする) ような入力表現 $\mathcal{R}$ を得るための写像に近づいていくことが期待されます.

DANNのarchitectureは次の通りです. Domain Adversarialの名は, prediction layer $G_y$ とdomain layer $G_d$ が敵対的な関係にあることに由来すると思われます.

f:id:usaito:20190413045050p:plain — [Ganin+ 2015]のFigure 1

簡易実験

DANNのイメージをより鮮明に持つため, 人工データを用いた簡易実験を行ってみます. 本節は大いにこちらのrepositoryを参考にしました.

まず, scikit learnのmake_blobsを用いて人工データを生成します. sはsource, tはtargetを表しています.

Xs, ys = make_blobs(500, centers=[[0, 0], [0, 1]], cluster_std=0.2)
Xt, yt = make_blobs(500, centers=[[1, -1], [1, 0]], cluster_std=0.2)

描画すると次のような感じです.

f:id:usaito:20190413060233p:plain — 入力の初期分布

このうち学習時にsource domainの入力とラベル, target domainの入力のみを用いて, テストデータにおけるラベルを精度よく予測したいというのがUDAの目標でした. いよいよDANNを学習します. 学習とテストは8:2で分け, OptimizerはMomentum (learning_rate=0.01, momentum=0.6), batchサイズは32, epoch数は5,000としました.

結果は次の通りです. 表の結果は, テストデータにおける最終epochの結果です. ちゃんとvalidationを用意して検証すればもう少し良い結果が出ると思いますが, target domainのラベルを学習時に全く用いていないのにも関わらず, 90%以上の精度を達成しています.

	Source	Target	Domain
Cross Entropy	0.03359	0.20099	0.68040
Accuracy (%)	99.019	90.815	55.371

f:id:usaito:20190413060745p:plain — 学習の様子

一方で, domainの判別はうまくいっていないことから, representation layerでdomainの判別が付かないような（ $d_{\mathcal{H}}$ が小さいような）入力表現を得ることができていそうです. 実際, representation layerでの表現を抜き出してPCAで2次元に圧縮して描画してみると次のようになりました.

f:id:usaito:20190413060320p:plain — representation layerにおける特徴表現

これを見ると, source domain (赤, 薄赤) と target domain (青, 緑) が上と下に分かれていそうですが, 初期表現と比べるとかなり判別しにくくなっていることがわかります. 一方で, class 0とclass 1は綺麗に左右に分かれており, source domain target domainに関わらず, labelの判別はうまくいきそうなことがわかります. もちろんかなりシンプルな人工データを使ったからうまくいっているのですが, DANNのイメージが湧きやすい結果が出たのではないでしょうか.

さいごに

今回は, [Ganin+ 2015]で提案されたDomain Adversarial Neural Networksのarchitectureを理論背景も含めて整理し, 人工データを用いた追試を行ってみました. 個人的なモチベーションとしてはDANNそのものではなく, その別の分野への応用です. その話題についても今後触れようと思います.

参考

[Ben David+ 2007] Ben-David, S.; Blitzer, J.; Crammer, K.; and Pereira, F. 2007. Analysis of representations for domain adaptation. In NIPS, 137–144.
[Ben David+ 2010] Ben-David, S.; Blitzer, J.; Crammer, K.; Kulesza, A.; Pereira, F.; and Vaughan, J. W. 2010. A theory of learning from different domains. Machine Learning 79(1-2):151– 175.
[Ganin+ 2015] Ganin, Y.; Ustinova, E.; Ajakan, H.; Germain, P.; Larochelle, H.; Laviolette, F.; Marchand, M.; and Lempitsky, V. 2016. Domain-adversarial training of neural networks. Journal of Machine Learning Research 17(1):2096–2030.
[Kota Matsui 2019] Recent Advances on Transfer Learning and Related Topics. (https://www.slideshare.net/KotaMatsui/recent-advances-on-transfer-learning-and-related-topics)

2019-04-07

EconMLパッケージの紹介 (meta-learners編)

はじめに

近年計量経済学と機械学習の融合分野の研究が盛り上がりを見せています. 例えば, KDD2018やNeurIPS2018で関連のTutorialが開催されるなどしています. その流れの一つとしてMicrosoft ResearchがEconMLというパッケージを公開していて非常に有用だと思ったので簡単に紹介します.

Conditional Average Treatment Effects Estimation

ある特徴量で条件付けた際の介入の因果効果の期待値を Conditional Average Treatment Effects Estimation (CATE)と呼び, 次のように表されます.

$\begin{aligned} \tau(X) = \mathbb{E} \left[ Y^{(1)} - Y^{(0)} \, | \, X \right] \end{aligned}$

ここで, $Y^{(1)}, Y^{(0)}$ はpotential outcomesです. 怪しい方は, 自分が以前書いた記事等をご参照いただけたらと思います.

CATEを推定することができれば, 嬉しいことがたくさんあります. 例えば, 因果効果がプラスであるような特徴量を持つ人だけに広告を打つことで商品の購入確率を最大化したり, 投薬計画を最適化することで生存率を改善できるかもしれません.

似たような目的を持つ分野にUplift Modelingと呼ばれるものがあります（参考1, 参考2）が, Uplift ModelingはA/Bテスト (RCT)によって収集された学習データがあることを前提とします. しかし多くの場合, A/Bテストを走らせて学習データを集めるようなことはコストの面から望ましくなく, 容易に実適用可能な技術とは言えないでしょう.

今回紹介するEconMLパッケージはより安価に手に入るobservational data (過去の介入方策が観測されている特徴量に依存しているようなデータ)から CATEを推定するための手法が豊富に実装されており, 低コストに個別化された介入施策を導くための非常に有用なツールになりうると思います.

EconMLとは

このパッケージについてはTwitterでも共有させていただきました.

Microsoft Researchの研究グループが開発中の計量経済学と機械学習を融合した手法が収録されているパッケージ。
Observational dataからConditional Average Treatment Effect (≒ ITE) を推定する手法が数多く実装されていて、非常に有用だと思います。https://t.co/PFpb5Cfj3e
— usaito (@moshumoshu1205) April 7, 2019

github repositoryはこちら, documentはこちらにあります. documentにはCATE推定手法の概要も掲載されており, 分野を概観するのにも役立つでしょう. 今後blogでも何回か扱っていけたらと思っています.

Meta-Learners

今回はEconMLに収録されているCATE推定方法の中でも最もシンプルなMeta-Learnearsモジュールを使ってみます. このモジュールは, 既存の機械学習アルゴリズムを内部で用いるMeta的なCATEの推定方法を提供します. 収録されているMeta-Learnersは5つです. 以下簡単に説明を付しますが, documentを読んだ方が早い可能性があります. また, 機械学習アルゴリズム $M$ で $Y$ を $X$ に回帰することで構築された予測器を $M \left( Y \sim X \right)$ と記します.

T-Learner

Potential Outcomes ( $Y^{(1)}, Y^{(0)}$ )をそれぞれ個別にモデリングします.

$\begin{aligned} \hat{\tau}(x) & = \hat{\mu}_1 (x) - \hat{\mu}_0(x) \end{aligned}$

ここで, $\hat{\mu_0} = M_1 \left( Y^{(0)} \sim X^{(0)} \right)$ , $\hat{\mu}_1 = M_2 \left( Y^{(1)} \sim X^{(1)} \right)$ です. また, $X^{(0)}, X^{(1)}$ はそれぞれ, $X$ を $T=0, T=1$ で条件付けた時の分布と一致する確率変数とし, 傾向スコアを $e(X) = \mathbb{P} \left( T = 1 \, | \, X \right)$ としました.

S-Learner

特徴量に介入有無を表す変数 $T$ を含めます.

$\begin{aligned} \hat{\tau}(x) & = \hat{\mu} (x, 1) - \hat{\mu}(x, 0) \end{aligned}$

ここで, $\hat{\mu} = M \left( Y^{obs} \sim \left( X, T \right) \right)$ です.

X-Learner

X-Learnerは少し複雑な手順を踏みます. [Kunzel+ 2017]で提案されているようです (まだ, ちゃんと読んでません).

$\begin{aligned} \hat{D}^{(0)} & = \hat{ \mu }_1 (X^{(0)}) - Y^{(0)}, \quad \hat{D}^{(1)} = Y^{(1)} - \hat{ \mu }_0 (X^{(1)}) \\ \hat{\tau}_0 & = M_3 \left( \hat{D}^{(0)} \sim X^{(0)} \right) \\ \hat{\tau}_1 & = M_4 \left( \hat{D}^{(1)} \sim X^{(1)} \right) \\ \hat{\tau}(x) & = e(x) \hat{\tau}_0 (x) + (1 - e(x)) \hat{\tau}_1(x) \end{aligned}$

T-Learnerの時と同様に, $\hat{\mu_0} = M_1 \left( Y^{(0)} \sim X^{(0)} \right)$ , $\hat{\mu}_1 = M_2 \left( Y^{(1)} \sim X^{(1)} \right)$ です.

DA-Learner (Domain Adaptation Learner)

DA-Learnerは, X-Learnerにおける $\hat{\mu_0}, \hat{\mu}_1$ の学習に共変量シフトを用いた手法です. 具体的には,

$\begin{aligned} \hat{\mu_0} & = M_1 \left( Y^{(0)} \sim X^{(0)}, weights = \frac{e \left(X^{(0)} \right)}{1 - e \left( X^{(0)} \right) } \right) \\ \hat{\mu}_1 & = M_2 \left( Y^{(1)} \sim X^{(1)} , weights = \frac{1 - e \left(X^{(1)} \right)}{e \left( X^{(1)} \right) } \right) \\ \hat{D}^{(0)} & = \hat{ \mu }_1 (X^{(0)}) - Y^{(0)}, \quad \hat{D}^{(1)} = Y^{(1)} - \hat{ \mu }_0 (X^{(1)}) \\ \\ \hat{\tau} & = M_3 \left( \left( \hat{D}^{(0)}, \hat{D}^{(1)} \right) \sim \left( \hat{X}^{(0)}, \hat{X}^{(1)} \right) \right) \end{aligned}$

$\hat{\mu_0}, \hat{\mu}_1$ の学習の際に傾向スコアに依存する重みを考慮に入れた損失を用いています. この重みは, importance weightと呼ばれることもあるやつです.

DR-Learner (Doubly Robust Learner)

DR-Learnerは, Doubly Robustを用いてCATEを代替するようなsurrogate outcomeを作り, それを $X$ に回帰する方法です. $Y_{i,t}^{DR}$ を次のように定義します.

$\begin{aligned} Y_{i,t}^{DR} & = \hat{E} \left[ Y \, | \, T = t, x_i \right] - \mathbb{I} \{ T_i = t \} \cdot \frac{ Y_i^{obs} - \hat{E} \left[ Y \, | \, T = t, x_i \right] }{e (x) } \\ \hat{\tau} & = M \left( \left( Y_{*, 1}^{DR} - Y_{*,0}^{DR} \right) \sim \left( \hat{X}^{(0)}, \hat{X}^{(1)} \right) \right) \end{aligned}$

hatが付いている部分は, 自分たちでモデリングする必要があります.

用法と簡易実験

EconMLパッケージは, scikit-learnと同じようなインターフェースで実装されており, とても扱いやすいです. 例えば,

# T-learnerを初期化.
controls_model = GradientBoostingRegressor(n_estimators=100, max_depth=6, min_samples_leaf=15)
treated_model = GradientBoostingRegressor(n_estimators=100, max_depth=6, min_samples_leaf=15)
T_learner = TLearner(controls_model, treated_model)
# 学習 (fit methodの引数に介入有無を表す変数Tがあるのがsklearnとの違い)
T_learner.fit(y_train, t_train, X_train)
# CATEを推定.
cate_pred = T_learner.effect(X_test)

EconMLに収録されている5つのMeta-Learnersの予測性能を, [Powers+ 2017]で用いられている8つの人工データセットを用いて評価してみます．ただし今回はこのパッケージを触ってみたという意味合いが強いので, ハイパーパラメータチューニングはしておらず, 正確な性能評価ではないのでご注意ください. 非常に簡単に使えるので, 実際に触ってみるのが良いと思います.

結果は次の通りです. 人工データを使ったため, 真のCATEに対するRMSEで評価しました. 学習データ, テストデータは数はともに1,000で, 同様の実験を15回繰り返し箱ひげ図をplotしました.

f:id:usaito:20190407205402p:plain

f:id:usaito:20190407210453p:plain

X-Learnerが良さそうな雰囲気が漂っているので, 論文 ([Kunzel+ 2017])を調査してみる必要がありそうです. また, 今回はoutcomeのモデリングにはGradient Boosting Regressorを, 傾向スコアのモデリングにはRandom Forest Regressorを用いました. scenarioごとにこれらのモデリング方法を変えた方が良いと思われるので, 実際はちゃんとチューニングしましょう.

さいごに

EconMLパッケージを簡単に触ってみました. まだ, 実装されている手法やアルゴリズムが提案された論文を読みきれていないのでちゃんと追っていこうと思います. 今回はMeta-Learnersを扱いましたが, 今後より複雑なアルゴリズムを理解しながら触っていくつもりです.

参考

[Kunzel+ 2017] Sören R Künzel, Jasjeet S Sekhon, Peter J Bickel, and Bin Yu. Meta-learners for estimating heterogeneous treatment effects using machine learning. arXiv preprint arXiv:1706.03461, 2017.
[Powers+ 2017] Scott Powers, Junyang Qian, Kenneth Jung, Alejandro Schuler, Nigam H. Shah, Trevor Hastie, and Robert Tibshirani. Some methods for heterogeneous treatment effect estimation in high-dimensions. arXiv:1707.00102.
[usaito 2018] Uplift Modelingで介入を最適化する
[Mr.Sakaue 2019] Uplift Modeling用のパッケージtools4upliftを使ってみた

はじめに

目次

Jensen's inequality

Markov's inequality / Chebyshev's inequality

Hoeffding's inequality

McDiarmid's inequality

さいごに

参考

はじめに

目次

定式化のおさらい

Radomized Policy下でのNaive Loss

Causal Embeddings (CausE)

簡易実験

実験設定

実験結果

さいごに

参考

はじめに

目次

Toy Example

推薦アルゴリズムの定式化

Naive Lossに存在するBias

UnbiasedなLossの構築

Propensity Matrix Factorization

簡易実験

実験設定

実験結果

さいごに

参考

はじめに

目次

Unsupervised Domain Adaptationとは

H-divergenceを用いた汎化誤差上界

Domain Adversarial Neural Networks (DANN)

簡易実験

さいごに

参考

はじめに

目次

Conditional Average Treatment Effects Estimation

EconMLとは

Meta-Learners

T-Learner

S-Learner

X-Learner

DA-Learner (Domain Adaptation Learner)

DR-Learner (Doubly Robust Learner)

用法と簡易実験

さいごに

参考