最近、「ビッグデータが~」、「人工知能が〜」といったニュースをよく耳にするのではないでしょうか。
じつはこういった技術の裏には、「定性的データ分析」が活躍しています。
たとえば、スマホに搭載されている対話アプリだと、
- 近所のおいしいお店を教えてくれたり
- 目的地までの経路を案内してくれたり
- 好みの音楽をかけてくれたり
さまざまな使い方があります。
こういったアプリには「定性データ」の分析が欠かせないんです。
どういうことかというと、対話アプリにイタリアンのおいしいお店を聞いてみたとします。
アプリの中ではイタリアンを希望しているので、
まず、イタリアンのお店といった該当する「カテゴリ」のデータ集合を検索対象にします。
このカテゴリーごとのデータは、「定性データ」と呼ばれます。
さらに、おいしいかどうかの評価は、さまざまな口コミの評価が高いお店(たとえば5段階だったら、とてもおいしい・おいしい・ふつう・おいしくない・とてもおいしくない)のようなデータを参考にするかもしれません。
この評価を表すデータも「定性データ」です。
最終的に、これらの定性データをうまく処理することで、イタリアンのおいしいお店を返答することができます。
このように、「定性データ」を収集して分析・活用することで、
たとえば、人工知能を使ったアプリケーションの開発が可能です。
逆にそういったアプリを作りたいなら、どこかで定性的データ分析に出くわす、ということになります。
さらに「定性的データ分析」を実行することで、
- 「新しい知見」が生まれ、
- それが企業の「競争優位の源泉」にもなる、
といっても過言ではありません。
よし!じゃあ定性的データ分析で、自社ビジネスを盛り上げていこう!
と思われた方もおられるかもしれません。
- でも、定性的データ分析ってなに?
- 専用の分析ソフトをつかうの?
- どう、ビジネスに活かしたらいいの?
なんて思われる方もおられるのではないでしょうか。
そこで本記事では、「定性的データ分析」の概要と、サクッと手を動かしながら身につけられる網羅的な本をあわせてご紹介します。
本記事の概要
定性的データ分析をサクッと実行するにはこちら
定性的データ分析を行うには、統計解析ソフトをインストールします。
そのソフトにデータを与えることで分析を実行します。
ソフトには様々なものがありますが、
おすすめなのはズバリ「R」です。
なぜかというと、統計解析ソフト「R」は「フリーソフト」なんです。
- つまり無料、ただで誰でも使えます。
- しかも機能が充実していて、高価格の商用ソフトと変わらないような分析が可能です。
- また、統計的なデータ分析だけでなく、「機械学習」のアルゴリズムも手軽に実行することができます。
Rにはこういった特徴があり、多くの統計専門家や研究者、データサイエンティストが現場でつかっている、信頼できるソフトです。
データ分析をやるのにこれを使わない手はない!というくらい王道のソフトと言えます。
Rのダウンロード・インストールなど本ブログでも記事を書いています↓
『統計解析フリーソフト「R」で統計学に入門する②【Rをダウンロードしよう】』
でも、
- 定性的データ分析ってよくわからない!
- 定性的データ分析手法って、どんなものがあるの?
- 「R」で定性的データ分析ってどうやるの?
なんて思われるかもしれません。
そこで、定性的データ分析手法の基礎から応用までを幅広く網羅し、さまざまな手法の使い方を学べる本をご紹介します。
「R」による実行手順も身につくように作られているので、一石二鳥となっています。ふとしたときに辞書のように調べることもでき、末永く愛用できる1冊となっています。↓
定性的データ分析、目的いろいろ、手法もいろいろ
本書は、著者の金明哲先生が開講されている同志社大学での講義をもとに、一般向けに拡張されたものになります。
定性データで表現されたデータの解析手法が網羅されており、分厚い充実の1冊となっています。
中身の方は、講義で使われているだけあって、統計を学んだことがない初学者でも理解できるように、丁寧にわかりやすく書かれています。
人文社会系の方や、数式が苦手な方も理解しやすいように、「数式」と「Rのコード」の両方が示されていて、対応させて学ぶことでより一層理解が深まります。
本書の構成はおおきく3部構成になっています。
第1部では、カテゴリカルデータの操作や、推測統計の基礎的な部分について、「比率検定」や分割表の「独立性分析」などが扱われています。
第2部では、カテゴリカルデータの「モデリング」が解説されていて、
- 重回帰分析
- 一般化線形モデル
- 対数線形モデル
- ツリーモデル
- アンサンブル学習
- 数量化I類
などが扱われています。
第3部では、カテゴリカルデータの「述的分析方法」が示されています。
- 対応分析
- 主成分分析
- 因子分析
- クラスター分析
- ネットワーク分析
- アソシエーション分析
などが扱われています。
とても幅広い内容を網羅していることがわかっていただけるかと思います。
といっても、これだけではどんな内容かわかるのは難しいので、各章ごとの概要をまとめました(長いな!って方は下の目次をごらんください)
各章では、このような内容が学べます
<第1章>では、定性データの基礎を学べます。
定性的データとは?からはじまり、定性的データの形式について、名義尺度・順序尺度や、それらをまとめたクロス表(二元分割表)のみかたが説明されます。その後、Rによる読み込みや、データの要約集計が丁寧に示されています。分割表の視覚化のテクニックとして、帯グラフや棒グラフから、円グラフ、モザイクグラフ、網グラフなどが紹介されています。
<第2章>では、比率の推測ということで、推測統計の基礎である母集団や標本、推測とはなにか、確率分布にはどういう性質があるかがまず示されています。その後、確率密度関数、累積密度関数(確率分布関数)、分位数関数、乱数関数などが紹介されます。そして正規分布、二項分布、t分布の性質が説明されています。
これらをもとにして、比率の検定として理論を学んだ後、例として、政権支持率の結果の95%信頼区間を求める例題などがあり、身近な例で理解が深まります。
尤度や尤度関数、最尤推定法や推定量、不偏性、有効性、一致性などの説明で締めくくられています。
<第3章>では、仮説検定・比率の検定がまとめられています。
仮説検定の仕組みや、第一種・第二種の誤り、有意水準の意味がグラフなどをふんだんに使用して分かりやすく解説されています。P値の意味がよくわからなかった方も、これをみれば「そういうことなのか!」と理解できるはずです。検定のプロセスもひとつずつ示されていて、自分のデータにもすぐに適用できます。
その後、比率の検定の説明があります。母比率の検定を二項分布や正規分への近似で行う方法や、比率差の検定が治療薬の実験データの例から学べます。カイ2乗検定やオッズ比の検定・区間推定など、Rのコードだけでなく、どのように計算されているのかまでシッカリ理解させてくれます。
<第4章>では、I×J二元分割表ということで、適合度検定や順序なしのI×J分割表独立性検定、連関係数、フィッシャーの正確確率検定、順序ありのI×J分割表の独立性検定などが学べます。例として、サイコロが正常かどうかを検定したり、世帯年収と生活満足度のクロス表の独立性の検定など、具体的に理解できます。
<第5章>では、仮説検定での効果量や検出力、t検定や独立性検定の効果量、効果量を求める関数、比率検定やカイ2乗検定の検出力、必要な標本サイズの計算などが学べます。フィッシャーの紅茶実験データについてカイ二乗検定の検出力を求める例などがあります。またこのデータでは検出力が低いので、標本サイズをどのくらいにすればいいのか調べられています。
<第6章>では、三元分割表とは?から、その作成方法、層別分析、シンプソンのパラドックス、完全独立な場合と条件付き独立の場合の三元表の独立性検定や、共通オッズ比とオッズ比の均一性の検定などが学べます。例として、アメリカのカリフォルニア大学バークレー校の大学院入試において性差別があったかどうかの検討がされています。その過程で、全体での結果と層別の結果が背反するシンプソンのパラドックスが説明されています。
<第7章>では、モデルとは?から、二元分割表のモデリング方法、さまざまな情報量規準(AIC, BIC)に基づいたモデル選択、三元分割表の対数線形モデル、モデルの差異の比較、モデルのグラフ表現、食べん分割表の対数線形モデルなどが学べます。モデルの選択では変数の選択として、変数増加法、変数減少法を行うステップワイズ法の説明があります。また三元分割表の対数線形モデルのグラフ表現などあり、視覚的に理解できます。
<第8章>では、回帰分析とは?から変数の選択、多重共線性、残差分析、交互作用、カテゴリカルデータの回帰モデル、数量化I類、それと回帰モデルの関係などが説明されます。
<第9章>では、ロジットモデルの概念や、集計データのモデリング、ロジットモデルとオッズ比の関係、素データのモデリング、多項ロジットモデル、交差確認などが学べます。一般化線形モデルを計算する関数glmの使い方が丁寧にまとめられています。
<第10章>では、ポアソン分布やその分布でのモデリング、ポアソン回帰モデル、オフセットポアソン回帰モデル、過分散データの回帰モデル、ゼロ過剰データの回帰モデルなどカウントデータの扱いを学べます。平均と分散が等しいポアソン分布において、分散が平均よりかなり大きい現象を扱うときには、過分散をかんがえなければならない点や、ゼロが過剰にあるデータを扱うときの注意点などが説明されています。
<第11章>では、一般化線形モデルとして、回帰モデル、ロジットモデル、ポアソン回帰モデルを指数分布族に基づいて統一的に整理して、計算のしかたも示されます。例としてクーポンの使用率について、二項分布によるロジスティック回帰や、加重最小2乗法による係数の推定値の産出、関数glmによる対応残差やピアソン残差などの算出方法が示されていて、マーケティングにたずさわる方はとくに参考になります。
<第12章>では、1つのデータセットに複数の確率分布が混合されていると考える線形混合効果モデルと、それを離散分布に拡張した一般化線形混合効果モデル(Generalized Linear Mixed Model:GLMM)が説明されています。
<第13章>では、決定木・回帰木などツリーモデルが説明されます。
ツリーモデルの変数は定性的でも定量的でも扱うことができます。ツリーモデルの代表的なパッケージCARTのアルゴリズムや操作法、木の生長とそのコントロール・剪定などを学べます。図示のための関数も示されています。CARTで分割基準であるジニ分散指数やシャノンのエントロピー(情報量エントロピー)の説明や、ツリーモデルの図示関数が丁寧に示されています。
<第14章>では、決定木・回帰木を機械学習の方法で精度を高めるアンサンブル学習について学べます。
アンサンブル学習の代表的なアルゴリズムのバギング、ランダムフォレスト、ブースティングについて擬似コートや事例をつうじた実践的なポイントが示されています。アルゴリズムの長所もまとめられており、使い分ける際の参考にもなります。
<第15章>では、目的変数なしのデータ解析の方法である対応分析(または、コレスポンデンス分析)の考え方や、そのアルゴリズム、多重対応分析、多元分割表の対応分析などが説明されています。
<第16章>では、定量的データではよく使われる相関係数に対応するものを、定性的データでも定義しています。名義尺度でのファイ係数・Jaccard係数、順序尺度でのスペアマン相関係数・ケンドル相関係数・ポリコリック相関係数、混合データでのポリシリアル相関係数などが説明されます。それらを用いた主成分分析や因子分析法についても学べます。変数間の相関係数を利用して少ない合成変数にデータを縮約する主成分分析(PCA: Principal Component Analysis)についてもシッカリまとめてあります。
<第17章>では、距離の概念や距離と相関係数との関係、距離測度(ユークリッド距離、市街距離、ジャッカード距離、KL距離、重みつきユークリッド距離)やこれらの距離を用いた階層的データ分析や非階層的クラスター分析が説明されています。これらの結果を図示するデンドログラムを描く方法も学べます。非階層的クラスター分析では、k-means法が説明されています。
<第18章>では、ネットワークの概念、ネットワークの作成・操作、ネットワークの統計量、ネットワークの比較やコミュニティ分析、テキストマイニングにおけるネットワーク分析の応用、ベイジアンネットワークなどが説明されています。ネットワークの統計量である密度・中心性・クラスター係数・次数の相関係数・パスの長さがまとめられ、グラフの比較による考察の方法が、3つの地域での生物間の補食と被食関係の有向グラフを例にして示されています。テキスト分析では語句間の関連性などのネットワーク構造が示されています。
<第19章>では、アソシエーション分析とは?からはじまり、相関ルール抽出の指標とアルゴリズム、相関ルールの操作や相関ルールを用いたクラスタリングや頻出パターンの抽出などが示されています。POS(Poiint Of Sales:販売時点情報)データをイメージしたデータをつかって、マーケット・バスケット・トランザクションについて学べます。相関ルール抽出のアルゴリズムAprioriが示され、例として食料雑貨店のPOSデータを例に、相関スールの抽出などが学べます。
このように本書は、定性的データ分析手法を網羅しています。この定性データに使える手法ないかな?ってときに辞書的に使えたりします。
加えて、Rを使った分析例の問題解説を学びながら、自分のデータでもすぐに試せるように工夫されています。週末に新しい手法を勉強したら月曜日にはすぐに業務で活かすことも可能です!
なので手元にあって損のない1冊です。
(ちなみにコードを打ち込みたくない!って方は、使われているRコードは出版社のホームページからダウンロードできるようになっています)
本書の構成は以下の通りです
第1章 定性的データの操作と視覚化
1−1 定性的データとは
1−2 定性的データの形式
1−3 カテゴリカルデータの集計
1−4 分割表の視覚化
第2章 比率の推測
2−1 母集団と標本
2−2 推測とは
2−3 確率分布
2−4 比率の区間推定
2−5 尤度と最尤推定
第3章 仮説検定と比率の検定
3−1 仮説検定
3−2 比率の検定
3−3 比率の検定と2×2分割表のカイ2乗検定
3−4 オッズ比の検定
3−5 フィッシャーの正確確率検定
第4章 I×J二元分割表
4−1 適合度検定
4−2 独立性の検定(順序なしの場合)
4−3 連関係数
4−4 フィッシャーの正確確率検定
4−5 順序尺度の独立性検定
第5章 効果量と検出力
5−1 効果量とは
5−2 平均差の検定の効果量
5−3 比率差の検定の効果量
5−4 独立検定の効果量
5−5 効果量を求める関数
5−6 検出力とは
第6章 三元分割表
6−1 三元分割表
6−2 三元表の表記と操作
6−3 層別分析とシンプソンのパラドックス
6−4 三元分割表の独立性検定
第7章 分割表の対数線形モデル
7−1 分割表のモデリング
7−2 関数loglmによる対数線形モデルの計算
7−3 モデルの選択
7−4 三元分割表の対数線形モデル
7−5 モデルのグラフ表現
7−6 多元分割表の対数線形モデル
第8章 回帰分析と数量化I類
8−1 回帰分析とは
8−2 回帰分析
8−3 カテゴリカルデータの回帰分析
8−4 数量化I類
第9章 ロジットモデル
9−1 モデリングと確率分布
9−2 関数glmによるモデルの推測
9−3 素データのモデリング
9−4 多項ロジットモデル
9−5 交差確認
9−6 ロジットモデルとその他
第10章 ポアソン回帰
10−1 ポアソン分布
10−2 ポアソン分布によるモデリング
10−3 ポアソン回帰
10−4 過分散の問題と負の二項回帰モデル
10−5 ゼロ過剰の回帰モデル
第11章 一般化線形モデル
11−1 指数分布族
11−2 一般化線形モデルとリンク関数
11−3 最大対数尤度推定と加重最小2乗解
11−4 一般化線形モデルの残差
第12章 一般化線形混合効果モデル
12−1 線形混合効果モデル
12−2 一般化線形混合効果モデル
第13章 ツリーモデル
13−1 ツリーモデルとは
13−2 分割基準
13−3 R上でのツリーモデルの操作
13−4 回帰木
13−5 その他
第14章 アンサンブル学習モデル
14−1 アンサンブル学習とは
14−2 バギング
14−3 ランダムフォレスト
14−4 ブースティング
14−5 その他
第15章 対応分析
15−1 対応分析とは
15−2 対応分析のアルゴリズム
15−3 対応分析関数とデータ解析
15−4 多重対応分析
15−5 多元分割表の対応分析
15−6 その他
第16章 類似度によるデータ解析
16−1 多変量データ解析と類似度
16−2 定性的データの関連係数
16−3 主成分分析
16−4 因子分析
第17章 距離データの解析
17−1 距離とは
17−2 階層的クラスター分析
17−3 非階層的クラスター分析
17−4 その他
第18章 ネットワーク分析
18−1 ネットワーク分析とは
18−2 ネットワークの作成
18−3 ネットワークの統計量
18−4 コミュニティ分析
18−5 テキスト分析におけるネットワーク分析
18−6 その他
第19章 アソシエーション分析
19−1 アソシエーション分析
19−2 相関ルール
19−3 頻出アイテムの抽出
19−4 頻出結果の補助分析
索引
となっています。
本書は、姉妹書である「Rで学ぶデータサイエンス」や本シリーズ「Useful R」の中でも、もっとも内容の濃い本の1つです。厚さも2センチ程度あり、Rによる定性的データ分析手法の辞書といっても過言ではありません。
身近にあれば、いつでもサクッと調べることができ、重宝すること間違いなしです。
統計の理論だけでなく、Rのコードの説明も充実しており、手を動かしながら学べるので、自然と頭に入ってきてシッカリ身につきます。
定性的データ分析を身近な例とともに効率的に身につけれ、末永く活用していける1冊です。おすすめします↓
定性的データ分析には、こちらの書籍もございます↓
カテゴリカルデータ解析 (Rで学ぶデータサイエンス 1)
質的データ分析法―原理・方法・実践
初学者のための質的研究26の教え
質的研究入門―“人間の科学”のための方法論
質的研究のピットフォール: 陥らないために/抜け出るために
Rで学ぶ統計データ分析
統計分析の手法を一覧:統計解析ハンドブック
ベイズ統計分析ハンドブック
データ解析ならこちらもおすすめです↓
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
詳しくはこちらにございます↓
『「データ解析」や「統計モデリング」を基礎から体系的に学びたいあなた、こちらはいかがでしょうか【データ 解析のための統計モデリング入門】 』
こちらの記事もございます↓
「統計解析フリーソフト「R」で、楽しみながら統計を学びたいあなた、こちらはいかがでしょうか【Rで楽しむ統計 (Wonderful R 1)】」
「高校数学の「ベクトル」を、サクッと学び直したいあなた、こちらはいかがでしょうか【なるほど高校数学 ベクトルの物語】」
『「R(統計解析フリーソフト)」のチュートリアルはこちらです』
『「Python」に関する記事のまとめ(目次)はこちらです』