さいきん、様々なニュースで、
「 ビッグデータの時代に、データ分析によって、利益が○○%上がりました! 」
というように、ビジネスにデータを活用していく考え方が普及しつつあります
集めたデータは解析したり、統計モデリングを施すことで、これまで見えなかった
- 自社ビジネスの強みや弱みを発見したり
- ビジネスモデルの改良
- 販促戦略の立案
など、具体的なアイデアとして活用することが可能です
ハードディスクなどのIT機器の価格が安くなったことや、スマホが普及したことで、ヒトの行動に関するデータは、収集・管理・保存することが容易になってきています
データを収集・保存したら、それらを利用して、役に立つ知見を抽出することが大事です
そこで本記事では、データ解析や統計モデリングを基礎からサクッと学ぶのに役立つ考え方をまとめてみました
本記事の概要
新しいアイデアの発見には、「データ解析」や「統計モデリング」が役に立つ
とはいっても、データから何かアイデアを見出すって、どうやるの?ってなりますよね~
その際のキーワードは、「データ解析」や「統計モデリング」です
「データ解析」とは、データを詳細に解体して分析することで、データの特徴や性質を見出すことを目的にしています
「モデリング」とは、データを表現する「モデル」をつくることです。じゃあ「モデル」ってなに?ですが、世の中をリアルを表現したデータはたいてい複雑ですが、その中からシンプルな本質的な部分と思われるところを抽出します。この本質部分をモデルと呼びます。統計的な手法を使ってモデルを作るときに、それを「統計モデリング」といいます。モデリングによって、データの背景にある「現象を理解すること」が促進されます
なるほど!自社のデータを活かすには、データ解析や統計モデリングができるようになるといいんだね!
とわかってもらえたかと思います
でも、データ解析や統計モデリングと簡単に言いましたが、
関連する本は、書店でもアマゾンでも多くの本がありますし、
- そもそも、なにを、どう、学んだらいいの?
- 初心者でもわかる?
- 数学とか統計とかあんまり得意じゃないんだけど~
など、迷ってしまい、手がつかない方もおられるかもしれません
データ解析や統計モデリングをサクッと身につけるための、2つの考え方
データ解析や統計モデリングは、数学や統計学を基礎にしています。これらが得意である必要はありません。でも、データ解析をきちんと適切に活用していくには、データ分析手法の背景などの理論を理解することも大事です。理論を知ることで、その方法の限界がわかったりするからです
また、実際のデータは、そのまま分析できるほど単純ではなく、一見するとなんの意味もないようにみえるほど混沌として複雑なものもあります。こういう場合には、データを解析しやすくするために、分析する間に、データを前もって処理します。これをデータ前処理(データクレンジング)と呼びますが、これには一定のノウハウが必要になります。
データ解析や統計モデリングを行うには、上のようなポイントがありますが、これらを身につけるには、(おおまかにですが)以下の2通りが考えられます
- 数学・確率・統計などを学びながら、基礎から理解を深める(ボトムアップ)
- 自分の課題に似た例題を通じて身につけていく(トップダウン)
ボトムアップでは、基礎となる理論を学びながら、典型例のデータ解析を通じて、データ分析の理解を深めていきます。きちんとした知識が身に付くメリットがある半面、多くの手法があるデータ解析をマスターするまでには多くの時間がかかってしまうデメリットがあります
トップダウンでは、必要なデータ分析手法から優先的に学びます。数学的な背景などは置いておきます。目の前の自分のデータを解析するために、それと似た典型的なデータ分析例をやってみるわけです。その例をデータ解析してみる過程で、解析からこのような結果になり、これはこう解釈できる・・・みたいな流れを体験するわけです。このやり方のメリットは、比較的短時間で自分のデータを解析することです。デメリットとしては、課題ごとに(行き当たりばったりで)理解することになるので、体系的な知識にはなりにくくなることがあります
たしかに、どっちの方法にも一長一短があるなぁ~
と思ってもらえたのではないでしょうか
でもどっちにすればいいの?っておもったあなた、
選ぶ必要はありません!
トップダウンとボトムアップのいいとこどりをすればいいからです
- データ解析を例題を通じて手を動かしながら学び、
- その背景となる数学や統計の知識も同時に学べる
と一番いいですよね~
でも、そんな都合のいいことなんて無理じゃない!?
と思われるかもしれません
じつは、そんな夢のようなことを実現している本があるんです
データ解析と統計モデリングを基礎から応用までサクッと学べるのがこちらです
本書「データ 解析のための統計モデリング入門」は、データ解析や統計モデリングに基礎から入門するのに最適です。初学者でも分かりやすいように、シンプルで理解しやすいモデリングの説明から始まって、段階を踏んでだんだん複雑なモデリングに進んでいきます。それぞれのモデリングのポイントや、長所・短所もしっかり理解することができます
忙しいあなたも、データ分析と統計モデリングの全体像をサクッと俯瞰することも可能です
あなたが学生さんなら、大学での理系・文系に関わらず、理解しやすい内容となっています。データ解析やモデリングに関係する講義を受けていなくても、十分理解できる構成になっています。
ちなみに、統計については、高校数学での確率統計の知識を仮定しています。もしそちらに不安がある方は、他書で補うとなお理解が深まります。統計検定2級の知識があれば申し分ありません
本書で学べるモデリング手法には、以下のものもあります
- 一般化線形モデル(Generalized linear model (GLM))
- 一般化線形混合モデル(Generalized linear mixed model (GLMM))
- ベイズ統計モデルとマルコフ連鎖モンテカルロ(MCMC)法
- 階層ベイズモデル
応用範囲のひろい統計モデルを学べるのが、うれしいですね
統計解析のフリーソフト「R」も学べます
実際のデータ解析では、統計解析のフリーソフトである「R」を使っています
無料で使えるソフトなので、PCにダウンロードしてインストールすればすぐに使用可能です
Rは無料なのに、多くの手法が網羅されていて、非常に優れた解析ソフトです
実際に、研究者やデータ解析の専門家であるデータサイエンティストも現場で使っていますので、Rの性能は保証済みです
仕事や研究室で統計解析が必要になったり、データサイエンティストを目指したり、統計解析をしたいあなたなら、Rは必ず役に立つので、学んでおいて損はありません!
本書の特徴は、例題のデータにもあります
「データ 解析のための統計モデリング入門」著者の久保拓也先生は、北海道大学の研究者で、生態学を専門にされています。
そういった関係で、例題のデータには(架空のデータですが)植物の種子数が扱われています。それらが肥料や環境によってどう変わるか?といったことを、モデリングを通じて考察していきます。
わたしたちも小学校の花壇でうまく育ったものと育たなかったものがありましたが、その原因はなんだったんだろう?と考えてみると、データ解析や統計モデリングが使えれば調べることができたわけです。(そんなことができる小学生がいたら怖いですが笑)
このように、身近なデータ例を使って学べるので、取り組みやすいはずです
本書の構成は以下の通りです
第1章 データを理解するために統計モデルをつくる
統計モデル:なぜ「統計」な「モデル」?
「ブラックボックスな統計解析」の悪夢
この本の内容:一般化線形モデルの導入とそのベイズ的な拡張
第2章 確率分布と統計モデルの最尤推定
例題:種子数の統計モデリング
データと確率分布の対応関係をながめる
ポアソン分布とは何か?
ポアソン分布のパラメーターの最尤推定
統計モデルの要点:乱数発生・推定・予測
確率分布の選びかた
第3章 一般化線形モデル(GLM):ポアソン回帰
例題:個体ごとに平均種子数が異なる場合
観測されたデータの概要を調べる
統計モデリングの前にデータを図示する
ポアソン回帰の統計モデル
説明変数が因し型の統計モデル
説明変数が数量型+因子型の統計モデル
「何でも正規分布」「何でも直線」には無理がある
第4章 GLMのモデル選択 AICとモデルの予測の良さ
データはひとつ、モデルはたくさん
統計モデルのあてはまりの悪さ:逸脱度
モデル選択基準 AIC
AICを説明するためのまた別の例題
なぜAICでモデルを選択してよいのか?
第5章 GLMの尤度比検定と検定の非対称性
統計学的な検定のわくぐみ
尤度比検定の例題:逸脱度の差を調べる
2種類の過誤と統計学的な検定の非対称性
帰無仮説を棄却するための有意水準
「帰無仮説を棄却できない」は「差がない」ではない
検定とモデル選択、そして推定された統計モデルの解釈
第6章 GLMの応用範囲をひろげる ロジスティック回帰など
さまざまな種類のデータで応用できるGLM
例題:上限のあるカウントデータ
二項分布で表現する「あり・なし」カウントデータ
ロジスティック回帰とロジットリンク関数
交互作用項の入った線形予測子
割算値の統計モデリングはやめよう
正規分布とその尤度
ガンマ分布のGLM
第7章 一般化線形混合モデル(GLMM) 個体差のモデリング
例題:GLMでは説明できないカウントデータ
過分散と個体差
一般化線形混合モデル
一般化線形混合モデルの最尤推定
現実のデータ解析にはGLMMが必要
いろいろな分布のGLMM
第8章 マルコフ連鎖モンテカルロ(MCMC)法とベイズ統計モデル
例題:種子の生存確率(個体差なし)
ふらふら試行錯誤による最尤推定
MCMCアルゴリズムのひとつ:メトロポリス法
MCMCサンプリングとベイズ統計モデル
補足説明
メトロポリス法と定常分布の関係
ベイズの定理
第9章 GLMのベイズモデル化と事後分布の推定
例題:種子数のポアソン回帰(個体差なし)
GLMのベイズモデル化
無情報事前分布
ベイズ統計モデルの事後分布の推定
MCMCのサンプルから事後分布を推定
複数パラメーターのMCMCサンプリング
第10章 階層ベイズモデル GLMMのベイズモデル化
例題:個体差と生存種子数(個体差あり)
GLMMの階層ベイズモデル化
階層ベイズモデルの推定・予測
ベイズモデルで使うさまざまな事前分布
個体差+場所差の階層ベイズモデル
第11章 空間構造のある階層ベイズモデル
例題:一次元空間上の個体数分布
階層ベイズモデルに空間構造をくみこむ
空間統計モデルをデータにあてはめる
空間統計も出るを作りだす確率場
空間相関モデルと欠測のある観測データ
となっています。
データモデリングの書籍のおすすめは以下のものがございます↓
統計学入門 (基礎統計学)
一般化線形モデル入門 原著第2版
統計モデル入門 (医学統計学シリーズ)
統計モデル入門―回帰モデルから一般化線形モデルまで
データ解析のためのロジスティック回帰モデル
たのしいベイズモデリング: 事例で拓く研究のフロンティア
ゼロからはじめる統計モデリング
Rによるデータサイエンス データ解析の基礎から最新手法まで
ちなみに、こちらには新版が出版されます。
統計的学習の基礎 ―データマイニング・推論・予測―
その他に、こちらの記事もございます。
『Pythonに関する記事を一覧(目次)はこちらにございます』
Rを使いながら統計を学べる1冊です↓
「統計解析フリーソフト「R」で、楽しみながら統計を学びたいあなた、こちらはいかがでしょうか【Rで楽しむ統計 (Wonderful R 1)】」