「カーネル法」とは？「サポートベクターマシン」などの基礎となるカーネル法に入門したいあなたは、こちらはいかがでしょうか【カーネル多変量解析】

「カーネル法」とは？

カーネル法は、データ分析手法の１つです。

データ分析では、データの中から「規則」を見つけ出したりしますが、

規則性には、「線形」的なものだけでなく、「非線形」的なものもあります。

線形・非線形ってなに？

ということなんですが、すごくザックリというと、

線形は、「直線的な関係」のようなイメージで、

非線形は「非直線的な関係」と理解しておけばとりあえずはいいかと思います。

中学生の頃にならった、直線の式「y = a x + b」のグラフが線形のイメージで、

放物線の式「y = a x²」のような曲線が非線形のイメージと思ってもらえるといいかと思います。

もう少しキチンと書くと、以下のようになります↓

「線形」というのは、次の２つの性質も満たすものをいいます。

写像 f について、任意の x, y , α について、

(1), f(x+y) = f(x) + f(y)

(2), f(αx) = α f(x)

が成り立つことをいいます。

そして、これに当てはまらないものが、「非線形」ということになります。

なんだそりゃ？という方は、線形代数を学ぶとスッキリしますよ！

『「線形代数」を独学したい人はチェックしてほしい良書、１３冊はこちらです』

でもこれが、カーネル法とどう関係あるの！？

というところなんですが、

カーネル法を使うと、データの中の非直線的な関係を、”手軽に” 調べることができるんです。

（ちなみに（重）回帰分析はデータの中の直線的な線形関係を調べることができます。）

なので、カーネル法は、（重）回帰分析の拡張版で、

複雑なデータの中から、データの非線形的な特徴を調べるのに使える方法、

と思ってもらうとわかりやすいかと思います。

あ〜そうなの〜

でも、「複雑なデータ」なら、「複雑な式」を使って分析すればいいんじゃないの？

と思われるかもしれません。

たしかに複雑な式（非線形な関係式）を使って分析するとよさそうですが、

実際はむしろ、複雑な式をつかう（＝次元が高くなる）と、データ分析しにくくなるんです。

（なぜかというと、データ分析のアルゴリズムの中には、「最適化」を行う部分があるんですが、非線形な関係式の最適化は、一般に難しくなります。

なので、出来るだけ線形の関係式の方が最適化しやすく、データ分析もしやすくなります）

データの複雑な（直線関係ではない）規則性を見つけ出したい！

でも、線形的な式で調べた方が、データ分析的にはラクなんだよなぁ〜

となるわけですが、

カーネル法はこのような状況で真価を発揮する方法の１つなんです。

なぜかというと、カーネル法を使うと、

データの中の複雑な（非線形的な）規則性を、”線形な” 関係式で調べることができるからです。

え！ほんとに〜！

カーネル法ってなんかすごそう！

なぜ、そんなことができちゃうの？

など疑問に思われるかもしれません。

その秘訣が、「カーネルトリック」と呼ばれるアイデアになります。

「カーネルトリック」とは？

上で少し書いたのですが、一般的に、次元が高くなるとデータ分析しにくくなります。

なので通常は、次元はできるだけ高くしないようにするのが定石です。

ところが、カーネル法では、データをあえてより高次元に移すということをします。

え！？もっと高次元に！

そうなんです。データを高次元に移すんです。

なぜ、そんなことするの？

って思いますよね。

その答えは、直線的な関係式で分析できるようにするため、なんです。

え！？なにそれ、よくわからないなぁ〜

って思っちゃいますよね。

あまりイメージがわかないかもしれませんので、ちょっと例を出してみますね。

例えば、１枚の紙に白丸と黒丸がたくさん書かれていて、白丸と黒丸を２つに分ける境界線を引きたいとします。

それらの白丸と黒丸を分けるためには、ぐにゃぐにゃの曲線を使えば、きちんと分けることができるはずです。

でもここでは、それらをうまく分ける線を ”直線で” 引きたいと考えてみます。

この発想は、上で少し書いたように、ぐにゃぐにゃした曲線（高次元の式）を使うとデータ分析しにくいので、シンプルな直線を使いたい！という欲求がもとになっています。

よし直線を探してみるぞ！

と頑張ってみるものの、実際は都合良くそんな直線が見つかるとは限りません。

むしろ、見つからないのが一般的です。

そこで役立つのが、「カーネルトリック」なんです。

カーネル法では、データを高次元に移す、といいましたが、

紙の上の白丸や黒丸の例だと、これらの丸は、２次元上に存在しています。

この紙をぐしゃっとしたらどうなるでしょうか？

紙は３次元になりますよね。

これがデータを高次元に移すという操作に対応します。

そして、２次元の紙を ”うまい具合に” “いい感じに” ぐしゃっと３次元にすると、

白丸と黒丸を分ける”直線”が引けるんじゃないの？

それを探してみようよ！

というのが、カーネル法の発想なんです。

うーん、２次元を３次元にすると、ほんとに直線がみつかるのかな？

って思われる方もおられるかもしれません。

紙をぐしゃっとして３次元にする例えは、この本でも説明されていて、それを参考にさせていただきました。

機械学習入門ボルツマン機械学習から深層学習まで

オーム社

「カーネル法」とは？

線形・非線形ってなに？

「カーネルトリック」とは？

「カーネル法」の理解に役立つ３つの特徴とは？

本書の構成は以下の通りです

第１章 現代の多変量解析とは

第２章 カーネル多変量解析の仕組み

第３章 固有値問題を用いたカーネル多変量解析

第４章 凸計画問題を用いたカーネル多変量解析

第５章 カーネルの設計

第６章 カーネルの理論

第７章 汎化と正則化の理論

A, 付録

関連図書

索引

第１章　現代の多変量解析とは

第２章　カーネル多変量解析の仕組み

第３章　固有値問題を用いたカーネル多変量解析

第４章　凸計画問題を用いたカーネル多変量解析

第５章　カーネルの設計

第６章　カーネルの理論

第７章　汎化と正則化の理論