はじめに
機械学習に関連する諸分野では何かしらの統計量(期待判別誤差やリグレットなど)を上から評価したい場面が多くあります. そのような場面で大活躍するのが確率不等式と呼ばれる不等式の数々です. 今後本ブログでもこれらの不等式を多用することが予想されるため, 一度まとめておきます. いくつかの不等式は証明もします. 証明は, MLPシリーズの『統計的学習理論』のAppendix Aを参考に, 自分なりに行間を埋めてみました.
目次
- はじめに
- 目次
- Jensen's inequality
- Markov's inequality / Chebyshev's inequality
- Hoeffding's inequality
- McDiarmid's inequality
- さいごに
- 参考
Jensen's inequality
まず, 凸関数の定義を確認します.
を満たす時, を凸関数という.
ここで, 以降のHoeffding's ineqの証明などでも用いられる期待値演算にJensen's ineqを適用した形を紹介します.
Markov's inequality / Chebyshev's inequality
ここでは, Markov's ineqとChebyshev's ineqを紹介します. これらは統計学の教科書にもだいたい掲載されていると思います.
導出
特に, を, と置いた時の形をChebyshev's ineqと呼びます.
この不等式は, 確率変数がその期待値から大きく外れた値をとる確率を分散を用いて評価しています.
Hoeffding's inequality
ここで紹介するHoeffding's ineqは機械学習の論文で頻出なので, かなり重要です.
これを示す前に, 一つ補題 (Hoeffding's lemma) を示します.
導出
を満たすようなについて, を次のように置きます.
これを変形すると, です. は凸関数なので,
両辺の期待値をとると,
の期待値が0であることを用いました.
ここで, と置くと, なので,
と表されます. また, と置き, についての関数を次のように定義しておきます.
このとき,
したがって, テイラーの定理より, となるが存在して,
だったことを思い出すと,
これにて, Hoeffding's lemmaを得ました.
このHoeffding's lemmaを用いて, Hoeffding's ineqを導出します.
導出
まず, と置く. このとき, であり, が成り立つので,
確率変数はHoeffding's lemmaの仮定を満たす. ここで,
よりtightなboundを得るため, (1)を最小化するを代入すると,
ここで, を代入し, 両辺をで割ることで, Hoeffding's ineqを得ます.
Hoeffding's ineqは, 有限仮説集合の汎化誤差解析やバンディット問題におけるリグレット解析など至る所で出てくる印象です. 定理自体, が独立であれば成り立ちますが, 実際はiidが仮定されていることが多いと思います. (iidの仮定がある場合, の部分が単にとなります.)
McDiarmid's inequality
最後に, McDiarmid ineqを紹介します.
これは, 後に紹介する予定のRademacher Complexityに関連する不等式を導くときなどに役立ちます.
これを示す前に, 一つ補題 (Azuma's ineq) を示します.
導出
まずについての部分和をとしておきます. ここでを用いて,
Hoeffding's lemmaの部分は, 仮定よりで条件付けたときの期待値が0であることからlemmaの仮定を満たします.
最後の不等式は, Hoeffding's lemmaを繰り返し用いることで得ます. 最後に, (2)を最小化するを代入することで,
を得ます.
さて, これを用いてMcDiarmid's ineqを示します.
この時, 任意のに対して, 次の不等式が成り立つ.
導出
最初にをと表しておきます. また, を
とします ().
ここで, 今定義したがAzuma's ineqの仮定を満たすことを確認します.
まず, の第1項はで条件付けた時の期待値なので, これらの確率変数の関数です. さらに,
ここで, boundedness conditionより
を満たします.
ここで, とすると, がAzuma's ineqの仮定を満たします.
最後に,
と見て, これにAzuma's ineqを適用すれば, MacDiamid's ineqを得ます.
さいごに
さて, 本記事では機械学習の周辺分野でよく使われる確率不等式(特に, Hoeffding's inequalityとMacDiamid's inequality)を導出してみました.
一見どのように役立つかわからないかもしれませんが, 今後本ブログで記事にするつもり内容と密接な関連があります.
なお, 導出部分で私が勘違いして誤った記述をしている可能性が大いにあります. 誤りを見つけた場合, ご指摘いただけたら幸いです.
参考
[金森 (2015)] 金森敬文. 2015. 統計的学習理論. 講談社 機械学習プロフェッショナルシリーズ.
[Duchi] John Duchi. Probability Bounds. URL: http://www.cs.berkeley.edu/~jduchi/projects/probability_bounds.pdf.