統計解析フリーソフト「R」で、楽しみながら統計を学びたいあなた、こちらはいかがでしょうか【Rで楽しむ統計 (Wonderful R 1)】

enjoy R recommended book R

 

  • データ分析を業務に活かしたいんだけど、「エクセル」しか使ったことないんだよね~
  • 簡単な統計解析だけでなく、「高度な手法」も使ってみたいなぁ~
  • 統計解析なら「R」がいいって聞いたんだけど、難しそうだなぁ~

など、統計解析やデータ分析のスキルアップをしたい方は多いのではないでしょうか。

 

本記事の概要

データ分析なら、Excelつかってるけど?

エクセルでの統計解析はかんたんにできる半面、データ分析の手法の選択が限られることがあります。

競合他社が高度な手法をもちいてデータ分析を用いて成果をあげているとします。

自社でも同様の手法を使ってみよう!となりました。

担当になったあなたは、ふだんエクセルで統計解析をおこなっています。

でもExcelには高度な手法は標準では使うことができません。

なので、VBA などにより、自分でプログラミングをすることで、高度な手法を実装することができます。

しかし、とりあえず試しに解析してみたいとか、

いくつかの手法を比較してみたい、

などの場合には、そのためだけに高度な手法を実装するのは、時間的にも大変ですよね~

じゃあどうするか!?

そんなときにとても重宝するのが「R」なんです^^

 

 

 

 

 

 

高度な手法もサクッと実行できる、それが「R」。しかも無料です

統計解析ソフト「R」は、かれこれ25年以上にわたり開発が続いている信頼のおけるソフトです。

基本的な統計処理から、機械学習など高度なアルゴリズムまで手軽にサクッと実行できるのがRの大きなメリットです。

最先端の研究者やデータサイエンティストと同じ手法を無料で使うことができるのが「R」なんです。

でもRは、エクセルに比べると、すこし敷居が高いと感じる方がおられるかもしれません。

Rは敷居が高い?Rに慣れるにはコツがあります

Rは、プログラミングの感覚がすこしだけ必要です

けっして難しくはないのですが、普段なじみのない方からすると、ん??となるかもしれません。

たとえば、統計解析を行うときには、まずデータをRに取り込んで、データがどんな様子なのか「可視化」をします。

このとき、データをプロットするのですが、エクセルの場合は、マウスをクリックしていくとグラフが書けますよね。

それに対してRの場合は、マウスでクリックではなく、

「命令をキーボードから打ち込む」必要があるんです

(これをコマンドライン入力と言ったりします)。

なので、キーボードから打ち込むことに慣れていない方は、最初はむずかしく感じるかもしれません。

それが敷居の高さになってしまっているかもしません。でも難しいことをやるわけではないので、

最初はお手本を真似しながら打ち込んでみて、少しずつ慣れていけば大丈夫です!

 

Rによる統計処理は、「関数」を使います

Rではデータ分析を行うための関数を使います。

ある分析を行いたかったら、それを実行するための関数が用意されています。つまり、

Rでのデータ解析では、分析したいデータを、分析したい方法の関数に丸投げすればいいんです

 

え!それだけなの!?

 

そうなんです!意外と簡単でしょ?

Rによるデータ分析は、拍子抜けするくらいシンプルなんです。

丸投げすると、あとは関数が処理してくれて、結果を渡してくれます。

あなたがすることは、計算された結果を変数(オブジェクト)とよばれる入れ物にいれて受け取ればそれで分析は終了です。

あとはその結果を詳しく見ながら、マーケティングならマーケティング施策を、

在庫管理ならその予測をしたり、実務に活かす形で使えばいいわけです。

基本的には、Rによるデータ分析は、

単純な線形回帰も、複雑なディープラーニングも、

データを関数に渡す」 ということをすればできる仕組みになっています。

(ただし、ディープラーニングなどは計算時間が非常に長いので注意されてください。

その他の分析手法は、データ量がよほど莫大でないかぎり、数秒から数分で終了するはずです)

 

 

 

 

 

 

Excelでできることは、Rでも簡単にできます

Rの使い方って意外とシンプルだと感じていただけたのではないでしょうか?

これまでエクセルでやってきたデータ分析はもちろんのこと、

それと同じ手間で、最先端の手法もサクッと使うことができるのがRなんです

すごくないですか!?

しかも、無料でつかえちゃうんです!

パソコンにダウンロードしてインストールすれば、誰でもすぐに使うことができます。

新しいパソコンを買う時にソフトの代金を払う必要もありません。

ただインストールすればいいだけです。家計にもやさしいですよね。

 

ちなみに、Rのダウンロードの詳細はこちらの記事にございます↓

統計解析フリーソフト「R」で統計学に入門する②【Rをダウンロードしよう】

 

Rのメリットは他にもあります

データ分析は分析するだけでなく、分析結果をビジネスに活かすフェーズも重要です。

上司を説得したり、顧客と商談する際には、綺麗な図を使えるといいですよね。

Rの図を作成するためのグラフィックス機能は進化していて、

訴求力のある図など、比較的手軽に描けるようになっています。

Excel に備わっている図も綺麗ですが、Rで作る図はより柔軟で、

オリジナルな図が作成しやすいように感じています。

ほかにも過去の解析をキチンと再現できるための「分析スタイル」も注目されています

(再現可能な分析(Reproducible data analysis)と呼ばれたりします)。

以前の担当者が行った分析結果と、再度自分が行った分析結果が食い違えば困りますが、

データ分析には細かなところが異なると結果が違ってくることがあり、一致しないケースが出てきます。

そういった食い違いが起こらないように、

使ったデータや分析手法の詳細などを細かく記述して残しておくようにしよう、

というのが再現可能な分析の発想です。

Rではこういった再現可能な分析を行いやすいような仕組みが備わっています。

解析の再現性をキチンと保つことで、現場の引継ぎなどもスムーズに行えますし、

なによりノウハウの蓄積には必須となるはずです。

 

 

 

 

Rをはじめてみたい!

とおもった方は、

  • Rに慣れること
  • Rで統計解析を行う操作

の2方面から攻めるのがおすすめです。

Rに慣れるには、「Rコードを打ってみる」のがオススメ

できるだけ丁寧な説明を見ながら、1つ1つ真似しながら打ちこんでいきます。

プログラミング経験がないと、最初は戸惑うかもしれませんが、

分からなくてもいいので、ひととおりキーボードから打ち込んでみてください。

すると、続けているうちに、

あ~そういうこと!

という瞬間が必ず訪れます。なので、それまで(わからなくても)とにかく続けてみてくださいね

Rの統計解析では、「関数の使い方」に慣れるといい

Rでは統計処理に関数を使うことは上で説明しました。

Rを使うには関数の使い方に慣れるのが1番です。

関数を使うときには、データや関数それぞれのパラメータを指定して実行することが多いです。

そのときのデータには、関数ごとに決まったデータ形式があるので、

使いたい関数に合うように、データを前もって整形する必要があるかもしれません

(これを「データの前処理」と言ったりします)。

パラメータについては、関数によって様々なので、

使いたい関数をよく調べてほしいのですが、

基本的には指定が必須のものと必須でないものがあります。

指定が必須のものはデータと一緒にパラメータの値を指定して関数を実行します。

指定しない場合はエラーか、デフォルトで決められた値が使われることになります。

必須でないパラメータは、指定してもいいし、指定しなくてもいいです。

指定すればその値が使われ、指定しなければデフォルトの値が採用されます。

このように、関数を使うには、データ(形式)と、

パラメータを前もって知っておくことがポイントになります。

例を示しておくと、ヒストグラムをつくりたいときには、hist()関数を使えます。

ヒストグラムを描くには、

hist()関数に適したデータ形式のデータと、

hist()関数のパラメータ(1つの区間(ビン)の幅や、

区間の数を何個にするかなど)を渡すことになります。

(hist()関数の場合は、パラメータを指定しなくてもデフォルトの値が採用されるので関数はエラーを出さずに実行されて結果を返してくれます。

ただしヒストグラムなどは、ビンの幅によって見栄えが大きく変わるので、

デフォルトだけでなく、自分で幅を変えてみることも役に立つかと思います。)

このように、Rで統計解析を行うには、

それぞれの「関数の特徴」をきちんとつかむのが大事です。

そして関数の特徴をきちんと理解するには、統計解析の理論的な理解も必要になってきます。

パラメータの意味や正しい設定の仕方などは、やはり統計解析の理論的なところの勉強も大事になってきます。

 

というわけで、Rをつかった統計解析を身につけるには、

  • キーボードに打ち込んでやってみながら、
  • (必要に応じて)統計解析の理論的な中身を合わせて勉強すること

が効率的です。

 

今回はそういったときに重宝する、わかりやすい例で打ち込みながら学べ、

統計解析の理論も学べる教科書のような1冊をご紹介します↓

本書では、Rの基本的な操作から、統計解析の基礎や代表的な分析手法について、

わかりやすく、楽しみながら学べる構成となっています。

統計をRで楽しみながら学ぶというタイトルどおり1冊となっています。

とくに、R初心者の方が、本書のコードを打ち込んで練習していけば、

気づくと基本的な統計解析ができるようになる1冊です。

本書の構成は以下の通りです

Chapter 1    Rで遊ぶ

    Rとは
    簡単な計算
    ヘルプと終了
    データの入力
    データフレーム
    ファイルの読み書きと文字コード
    図の描き方
    パッケージの例:Excelファイルを読む

 

Chapter 2    統計の基礎

  尺度水準
    代表地
    確率変数、乱数、母集団、標本
    分散と標準偏差
    中心極限定理と正規分布
    コーシー分布
    正規分布から導かれる分布

 

Chapter 3    2項分布、検定、信頼区間

  2項分布
    統計的仮説検定の考え方
    統計的仮説検定に関する議論
    多重検定
    信頼区間
    2項分布から正規分布へ
    検定の例:PISAの「盗難事件」問題
    信頼区間の例
    尤度と最尤法
    止め方で結果が変わる?

 

 

Chapter 4    事件の起こる確率

    富の分布
    地震の確率
    「ランダムに事象が起きる」という考え方
    バックグラウンドのある場合のポアソン分布
    カウンタの感度
    ポアソン分布の信頼区間とその問題点
    Feldman-Cousinsの信頼区間

 

Chapter 5    分割表の解析

    分割表
    フィッシャーの正確検定
    カイ2乗検定
    オッズ比、相対危険度
    相対危険度・オッズ比の求め方
    ファイ係数、クラメールのVなど
    マクネマー検定

 

Chapter 6    連続量の扱い方

    誤差、不確かさ、検定
    2標本の差のt検定
    一元配置分散分析

 

Chapter 7    効果量、検出力、メタアナリシス

    効果量(effect size)
    コーエン(Cohen)のd
    αとβと検出力
    カーリー(Currie)の検出限界
    メタアナリシス

 

Chapter 8    相関

    準備体操
    相関係数
    ピアソンの相関係数
    順位相関係数
    エピローグ
    自己相関があるデータの相関係数

 

Chapter 9    回帰分析

    最小2乗法
    息抜き体操
    例:第5の力
    ポアソン回帰
    ポアソン回帰と似た方法、等価な方法
    ポアソン回帰のあてはまりの良さ
    ロジスティック回帰
    ROC曲線

 

重回帰分析、ロジスティック回帰については、こちらの記事もございます↓

「重回帰分析」を学びたいあなたにチェックしてほしい良書、10冊はこちらです

「ロジスティック回帰分析」を学びたいあなたにおすすめの良書13冊はこちらです

 

Chapter 10    ピークフィット

    簡単な例題
    フィッティング
    一般化線形モデル
    非線形一般化線形モデル
    度数分布を使わないフィッティング

 

一般化線形モデルなど、多変量解析については、こちらの記事もございます↓

「多変量解析」を独学したいあなたにチェックしてほしい良書、12冊はこちらです

「多変量解析」でよく使われる、7つの「ソフトウェア」をまとめました(「フリーソフト」もどうぞ)

 

Chapter 11    主成分分析と因子分析

    多変量データ
    主成分分析
    例:中野・西島・ゲルマンの方法
    因子分析

 

主成分分析や因子分析には、こちらの記事もございます↓

「主成分分析」を学びたいあなたにチェックしてほしい良書、12冊はこちらです

「因子分析」を学びたいあなたにチェックしてほしい良書、12冊はこちらです

 

Chapter 12    リッカート型データとノンパラメトリック検定

    リッカート型データ
    ウィルコクソン検定(順位和検定)
    ブルンナー・ムンツェル検定
    並べ替え検定
    並べ替えブルンナー・ムンツェル検定
    ブートストラップ
    ほかの方法

 

Chapter 13    生存時間解析

    プロローグ
    生存時間解析

 

参考文献

となっています。

Rが初めての方や、統計の代表的な手法を、楽しみながら身につけたい方におすすめの1冊です。

 
その他にも以下のものもおすすめです。
 
R初心者のあなたにはこちらもおすすめです。Rのダウンロードからインストールなども丁寧に説明されています↓

はじめてのR: ごく初歩の操作から統計解析の導入まで

 
 
 
Rではじめて統計を学ぶあなたにはこちらがおすすめです↓

Rによるやさしい統計学

 
 
Rで統計解析だけでなく、機械学習もやってみたいあなたにはこちがおすすめです↓

 Rによるデータサイエンス データ解析の基礎から最新手法まで

 
ちなみに本書は2007年出版ですが、こちらは新版が出版されています↓
 
 
データ分析の専門家「データサイエンティスト」がRをどう使っているか知りたいあなたにはこちらがおすすめです↓

データサイエンティスト養成読本 R活用編 【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)

 
 
データ分析には視覚化やキレイな図の作成は必須です。
Rでキレイな図を描きたいあなたには、こちらがおすすめです↓

Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集

こちらもございます↓

基礎から学ぶ統計学

データ分析に必須の知識・考え方 統計学入門 仮説検定から統計モデリングまで重要トピックを完全網羅

Rによる統計解析の基礎 (Computer in Education and Research)

Rによるやさしい統計学

Rによる統計解析

Rによるノンパラメトリック検定

 Rで楽しむベイズ統計入門しくみから理解するベイズ推定の基礎 (Data Science Library)

Rクックブック

SPSSによるやさしい統計学

コマンドラインではじめるデータサイエンス ―分析プロセスを自在に進めるテクニック

データサイエンティスト養成読本 ビジネス活用編 (Software Design plusシリーズ)

 Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理

仕事ではじめる機械学習

前処理大全データ分析のためのSQL/R/Python実践テクニック

直感 Deep Learning ―Python×Kerasでアイデアを形にするレシピ

こちらの記事もございます

 

Rのダウンロード・インストールから、基本的な使い方はこちらでもまとめています↓

「R」チュートリアル

 

Pythonに関する記事の一覧(まとめ)はこちらです

 

 

 

↓こちら無料で読めます