「定性的データ分析」と統計解析のフリーソフト「R」をサクッと身につけたいあなた、こちらはいかがでしょうか

2016.12.292020.03.02

最近、「ビッグデータが～」、「人工知能が〜」といったニュースをよく耳にするのではないでしょうか。

じつはこういった技術の裏には、「定性的データ分析」が活躍しています。

たとえば、スマホに搭載されている対話アプリだと、

近所のおいしいお店を教えてくれたり
目的地までの経路を案内してくれたり
好みの音楽をかけてくれたり

さまざまな使い方があります。

こういったアプリには「定性データ」の分析が欠かせないんです。

どういうことかというと、対話アプリにイタリアンのおいしいお店を聞いてみたとします。

アプリの中ではイタリアンを希望しているので、

まず、イタリアンのお店といった該当する「カテゴリ」のデータ集合を検索対象にします。

このカテゴリーごとのデータは、「定性データ」と呼ばれます。

さらに、おいしいかどうかの評価は、さまざまな口コミの評価が高いお店（たとえば５段階だったら、とてもおいしい・おいしい・ふつう・おいしくない・とてもおいしくない）のようなデータを参考にするかもしれません。

この評価を表すデータも「定性データ」です。

最終的に、これらの定性データをうまく処理することで、イタリアンのおいしいお店を返答することができます。

このように、「定性データ」を収集して分析・活用することで、

たとえば、人工知能を使ったアプリケーションの開発が可能です。

逆にそういったアプリを作りたいなら、どこかで定性的データ分析に出くわす、ということになります。

さらに「定性的データ分析」を実行することで、

「新しい知見」が生まれ、
それが企業の「競争優位の源泉」にもなる、

といっても過言ではありません。

よし！じゃあ定性的データ分析で、自社ビジネスを盛り上げていこう！

と思われた方もおられるかもしれません。

でも、定性的データ分析ってなに？
専用の分析ソフトをつかうの？
どう、ビジネスに活かしたらいいの？

なんて思われる方もおられるのではないでしょうか。

そこで本記事では、「定性的データ分析」の概要と、サクッと手を動かしながら身につけられる網羅的な本をあわせてご紹介します。

Amazonで「定性的データ分析 (シリーズUseful R)」に関する詳細を見る

Amazonで探す

楽天で探す

本記事の概要

定性的データ分析をサクッと実行するにはこちら

定性的データ分析を行うには、統計解析ソフトをインストールします。

そのソフトにデータを与えることで分析を実行します。

ソフトには様々なものがありますが、

おすすめなのはズバリ「Ｒ」です。

なぜかというと、統計解析ソフト「R」は「フリーソフト」なんです。

つまり無料、ただで誰でも使えます。
しかも機能が充実していて、高価格の商用ソフトと変わらないような分析が可能です。
また、統計的なデータ分析だけでなく、「機械学習」のアルゴリズムも手軽に実行することができます。

Ｒにはこういった特徴があり、多くの統計専門家や研究者、データサイエンティストが現場でつかっている、信頼できるソフトです。

データ分析をやるのにこれを使わない手はない！というくらい王道のソフトと言えます。

Ｒのダウンロード・インストールなど本ブログでも記事を書いています↓

『統計解析フリーソフト「R」で統計学に入門する②【Rをダウンロードしよう】』

でも、

定性的データ分析ってよくわからない！
定性的データ分析手法って、どんなものがあるの？
「Ｒ」で定性的データ分析ってどうやるの？

なんて思われるかもしれません。

そこで、定性的データ分析手法の基礎から応用までを幅広く網羅し、さまざまな手法の使い方を学べる本をご紹介します。

「R」による実行手順も身につくように作られているので、一石二鳥となっています。ふとしたときに辞書のように調べることもでき、末永く愛用できる１冊となっています。↓

Amazonで「定性的データ分析 (シリーズUseful R)」に関する詳細を見る

Amazonで探す

楽天で探す

定性的データ分析、目的いろいろ、手法もいろいろ

本書は、著者の金明哲先生が開講されている同志社大学での講義をもとに、一般向けに拡張されたものになります。

定性データで表現されたデータの解析手法が網羅されており、分厚い充実の1冊となっています。

中身の方は、講義で使われているだけあって、統計を学んだことがない初学者でも理解できるように、丁寧にわかりやすく書かれています。

人文社会系の方や、数式が苦手な方も理解しやすいように、「数式」と「Rのコード」の両方が示されていて、対応させて学ぶことでより一層理解が深まります。

本書の構成はおおきく３部構成になっています。

第１部では、カテゴリカルデータの操作や、推測統計の基礎的な部分について、「比率検定」や分割表の「独立性分析」などが扱われています。

第２部では、カテゴリカルデータの「モデリング」が解説されていて、

重回帰分析
一般化線形モデル
対数線形モデル
ツリーモデル
アンサンブル学習
数量化I類

などが扱われています。

第３部では、カテゴリカルデータの「述的分析方法」が示されています。

対応分析
主成分分析
因子分析
クラスター分析
ネットワーク分析
アソシエーション分析

などが扱われています。

とても幅広い内容を網羅していることがわかっていただけるかと思います。

といっても、これだけではどんな内容かわかるのは難しいので、各章ごとの概要をまとめました（長いな！って方は下の目次をごらんください）

各章では、このような内容が学べます

<第１章>では、定性データの基礎を学べます。

定性的データとは？からはじまり、定性的データの形式について、名義尺度・順序尺度や、それらをまとめたクロス表（二元分割表）のみかたが説明されます。その後、Rによる読み込みや、データの要約集計が丁寧に示されています。分割表の視覚化のテクニックとして、帯グラフや棒グラフから、円グラフ、モザイクグラフ、網グラフなどが紹介されています。

<第２章>では、比率の推測ということで、推測統計の基礎である母集団や標本、推測とはなにか、確率分布にはどういう性質があるかがまず示されています。その後、確率密度関数、累積密度関数（確率分布関数）、分位数関数、乱数関数などが紹介されます。そして正規分布、二項分布、t分布の性質が説明されています。
　これらをもとにして、比率の検定として理論を学んだ後、例として、政権支持率の結果の95％信頼区間を求める例題などがあり、身近な例で理解が深まります。
尤度や尤度関数、最尤推定法や推定量、不偏性、有効性、一致性などの説明で締めくくられています。

<第３章>では、仮説検定・比率の検定がまとめられています。

仮説検定の仕組みや、第一種・第二種の誤り、有意水準の意味がグラフなどをふんだんに使用して分かりやすく解説されています。P値の意味がよくわからなかった方も、これをみれば「そういうことなのか！」と理解できるはずです。検定のプロセスもひとつずつ示されていて、自分のデータにもすぐに適用できます。
　その後、比率の検定の説明があります。母比率の検定を二項分布や正規分への近似で行う方法や、比率差の検定が治療薬の実験データの例から学べます。カイ２乗検定やオッズ比の検定・区間推定など、Rのコードだけでなく、どのように計算されているのかまでシッカリ理解させてくれます。

<第４章>では、I×J二元分割表ということで、適合度検定や順序なしのI×J分割表独立性検定、連関係数、フィッシャーの正確確率検定、順序ありのI×J分割表の独立性検定などが学べます。例として、サイコロが正常かどうかを検定したり、世帯年収と生活満足度のクロス表の独立性の検定など、具体的に理解できます。

<第５章>では、仮説検定での効果量や検出力、t検定や独立性検定の効果量、効果量を求める関数、比率検定やカイ２乗検定の検出力、必要な標本サイズの計算などが学べます。フィッシャーの紅茶実験データについてカイ二乗検定の検出力を求める例などがあります。またこのデータでは検出力が低いので、標本サイズをどのくらいにすればいいのか調べられています。

<第６章>では、三元分割表とは？から、その作成方法、層別分析、シンプソンのパラドックス、完全独立な場合と条件付き独立の場合の三元表の独立性検定や、共通オッズ比とオッズ比の均一性の検定などが学べます。例として、アメリカのカリフォルニア大学バークレー校の大学院入試において性差別があったかどうかの検討がされています。その過程で、全体での結果と層別の結果が背反するシンプソンのパラドックスが説明されています。

<第７章>では、モデルとは？から、二元分割表のモデリング方法、さまざまな情報量規準（AIC, BIC）に基づいたモデル選択、三元分割表の対数線形モデル、モデルの差異の比較、モデルのグラフ表現、食べん分割表の対数線形モデルなどが学べます。モデルの選択では変数の選択として、変数増加法、変数減少法を行うステップワイズ法の説明があります。また三元分割表の対数線形モデルのグラフ表現などあり、視覚的に理解できます。

<第８章>では、回帰分析とは？から変数の選択、多重共線性、残差分析、交互作用、カテゴリカルデータの回帰モデル、数量化I類、それと回帰モデルの関係などが説明されます。

<第９章>では、ロジットモデルの概念や、集計データのモデリング、ロジットモデルとオッズ比の関係、素データのモデリング、多項ロジットモデル、交差確認などが学べます。一般化線形モデルを計算する関数glmの使い方が丁寧にまとめられています。

<第10章>では、ポアソン分布やその分布でのモデリング、ポアソン回帰モデル、オフセットポアソン回帰モデル、過分散データの回帰モデル、ゼロ過剰データの回帰モデルなどカウントデータの扱いを学べます。平均と分散が等しいポアソン分布において、分散が平均よりかなり大きい現象を扱うときには、過分散をかんがえなければならない点や、ゼロが過剰にあるデータを扱うときの注意点などが説明されています。

<第11章>では、一般化線形モデルとして、回帰モデル、ロジットモデル、ポアソン回帰モデルを指数分布族に基づいて統一的に整理して、計算のしかたも示されます。例としてクーポンの使用率について、二項分布によるロジスティック回帰や、加重最小２乗法による係数の推定値の産出、関数glmによる対応残差やピアソン残差などの算出方法が示されていて、マーケティングにたずさわる方はとくに参考になります。

<第12章>では、１つのデータセットに複数の確率分布が混合されていると考える線形混合効果モデルと、それを離散分布に拡張した一般化線形混合効果モデル（Generalized Linear Mixed Model:GLMM）が説明されています。

<第13章>では、決定木・回帰木などツリーモデルが説明されます。

ツリーモデルの変数は定性的でも定量的でも扱うことができます。ツリーモデルの代表的なパッケージCARTのアルゴリズムや操作法、木の生長とそのコントロール・剪定などを学べます。図示のための関数も示されています。CARTで分割基準であるジニ分散指数やシャノンのエントロピー（情報量エントロピー）の説明や、ツリーモデルの図示関数が丁寧に示されています。

<第14章>では、決定木・回帰木を機械学習の方法で精度を高めるアンサンブル学習について学べます。

アンサンブル学習の代表的なアルゴリズムのバギング、ランダムフォレスト、ブースティングについて擬似コートや事例をつうじた実践的なポイントが示されています。アルゴリズムの長所もまとめられており、使い分ける際の参考にもなります。

<第15章>では、目的変数なしのデータ解析の方法である対応分析（または、コレスポンデンス分析）の考え方や、そのアルゴリズム、多重対応分析、多元分割表の対応分析などが説明されています。

<第16章>では、定量的データではよく使われる相関係数に対応するものを、定性的データでも定義しています。名義尺度でのファイ係数・Jaccard係数、順序尺度でのスペアマン相関係数・ケンドル相関係数・ポリコリック相関係数、混合データでのポリシリアル相関係数などが説明されます。それらを用いた主成分分析や因子分析法についても学べます。変数間の相関係数を利用して少ない合成変数にデータを縮約する主成分分析（PCA: Principal Component Analysis)についてもシッカリまとめてあります。

<第17章>では、距離の概念や距離と相関係数との関係、距離測度（ユークリッド距離、市街距離、ジャッカード距離、KL距離、重みつきユークリッド距離）やこれらの距離を用いた階層的データ分析や非階層的クラスター分析が説明されています。これらの結果を図示するデンドログラムを描く方法も学べます。非階層的クラスター分析では、k-means法が説明されています。

<第18章>では、ネットワークの概念、ネットワークの作成・操作、ネットワークの統計量、ネットワークの比較やコミュニティ分析、テキストマイニングにおけるネットワーク分析の応用、ベイジアンネットワークなどが説明されています。ネットワークの統計量である密度・中心性・クラスター係数・次数の相関係数・パスの長さがまとめられ、グラフの比較による考察の方法が、３つの地域での生物間の補食と被食関係の有向グラフを例にして示されています。テキスト分析では語句間の関連性などのネットワーク構造が示されています。

<第19章>では、アソシエーション分析とは？からはじまり、相関ルール抽出の指標とアルゴリズム、相関ルールの操作や相関ルールを用いたクラスタリングや頻出パターンの抽出などが示されています。POS（Poiint Of Sales:販売時点情報）データをイメージしたデータをつかって、マーケット・バスケット・トランザクションについて学べます。相関ルール抽出のアルゴリズムAprioriが示され、例として食料雑貨店のPOSデータを例に、相関スールの抽出などが学べます。

このように本書は、定性的データ分析手法を網羅しています。この定性データに使える手法ないかな？ってときに辞書的に使えたりします。

加えて、Rを使った分析例の問題解説を学びながら、自分のデータでもすぐに試せるように工夫されています。週末に新しい手法を勉強したら月曜日にはすぐに業務で活かすことも可能です！

なので手元にあって損のない1冊です。

Amazonで「定性的データ分析 (シリーズUseful R)」に関する詳細を見る

Amazonで探す

楽天で探す

（ちなみにコードを打ち込みたくない！って方は、使われているRコードは出版社のホームページからダウンロードできるようになっています）