昨今、IT技術の進歩によって、様々なデータが大量に蓄積されるようになってきました。
Twitter や facebook などのSNSや、Amazon や楽天などのネットショッピングでは、
- いつ
- だれが
- どんなもの・ことに
- どんな印象をもったのか
など、今後のビジネスのヒントになるような情報があふれています。
こういった膨大な情報は、そのままでは役に立てることはできません。
本記事の概要
大量のデータの中から役に立つ知見をみつけだす
統計学や機械学習の手法をもちいて解析することで、膨大な情報の中から、有用な知見を見出すことができます。
さきほどの例では、ネット上でのデータの蓄積でした。
わたしはSNSもネットショップも使わないよ~って方もおられると思います。
たとえば、よくいくスーパーを考えてみます。
スーパーではポイントカードを発行して、いくら買うごとにポイントをつけてくれます。
支払いをするときは、お金とポイントカードを差し出すわけです。
このときには、
- 会員○○さんが、
- いつ・どの店舗で
- どのようなものを・いくつ買った
のような情報がコンピュータに蓄積されています。
このデータはPOSデータ(Point Of Salseの略です)と呼ばれています。
POSデータを分析すると、
例えば、水曜日の夕方にはお客が減る傾向があるというのがわかったりします。
すると、それが販促企画のヒントにすることができます。
販促をするにも、これまでのやり方通りに計画するだけでなく、
データ分析から得られた知見を合わせて使うことも有効です。
販促したい時間帯のお客さんの年齢や性別・買い物の傾向を考えて、
よく買う商品をピックアップしたり、それと一緒に買われやすい商品もチェックすることおできます。
そのとき売れやすい商品と一緒に買われやすいものを隣に並べて陳列したり、
一緒に買うと割引しますよ~といった企画などを考えることもできます。
データ分析は、無料で・誰でもできる
こういったデータ分析は、エクセル(Excel)を使ってやられてる方も多いかもしれません。
エクセルでもデータ分析をすることは可能ですが、使える手法が限られるデメリットがあります。
基本的なデータ分析手法は使えても、高度なものや最先端の手法はなかなか使えません。
それに対して、「Python」などのプログラミング言語を使うと、無料で使うことができる上に、
最先端で高度な手法が、ライブラリとして、すぐに使える形で配布されています。
Pythonはプログラミング言語の中でもとっつきやすく、理解しやすい言語のひとつです。
プログラミング経験がない方でも、習得しやすい言語となっています。
Pythonを学びたいあなたはこちらもございます↓
『「Python」に関係する記事の一覧(目次)はこちらです』
データ分析を行うには、統計学や機械学習といった知識も必要
プログラムを書いてデータを渡せば、なんらかの答えはかえってきます。でも、
- その答えがどこまで信頼できるのか
- 得られた答えから、ビジネスにどう活かせるか
- そもそもそのデータに対して使った手法は妥当なのか
などを判断するには、手法についての知識も重要になります。
Pythonを勉強して、データ分析の知識も必要なんて、
なんだか大変だなぁ~
って思われた方もいるのではないでしょうか。
今回はそんなあなたが、データ分析の全体像を、Pythonを使いながらサクッと効率的に学べる本がこちらです↓
本書では、データ分析に必要となる、
- データの可視化
- データの集計
- 統計解析
- 機械学習
をこれ1冊で網羅できます。
おもな想定読者は、ITエンジニアとのことですが、Pythonがなんとなくわかる方であれば、
例を1つ1つ見ていくことで、十分に理解可能です。
手法ごとに例があるので、同じ手法を自分のデータでも試すことができます
また、最初から読まなくても、やってみたい手法からサクサク学べるのも魅力の1つとなっています。
本書の構成は以下の通りです。
1、データサイエンスの概要
1-1、メンデルもケプラーもデータサイエンティストだった
1-2、データサイエンスの手法の要点
1-3、データサイエンスの実業務への適用
1-4、本書の内容
2、Pythonとデータサイエンス
2-1、データサイエンスで用いられるソフトウェア
2-2、データサイエンスに使えるPythonのライブラリ
2-3、Pythonの環境構築
2-4、numpy、pandasの基本操作
2-5、Pandas
3、データの読み込み、可視化、集計
3-1、データの読み込み
3-2、matplotlibによる可視化
3-3、集計
3-4、RDBMSとの連携
4、様々な統計分析
4-1、ヒストグラム分析
4-2、2つのグループを比較する(検定)
4-3、分散分析
5、回帰分析
5-1、線形回帰分析
5-2、単回帰分析
5-3、重回帰分析
6、教師なし学習
6-1、次元削減
6-2、クラスタリング
7、教師あり学習
7-1、データセットの準備
7-2、k最近傍法
7-3、ナイーブベイズ
7-4、ロジスティック回帰
7-5、各手法の比較
8、機械学習のWebAPI
8-1、Webサービスの基本とFlask
8-2、線形回帰API
8-3、Webアプリのソースコード
付録1、基本的な統計量
1-1、平均値
1-2、分散、標準偏差
1-3、共分散、相関係数
1-4、中央値
1-5、Numpyを使用した計算
付録2、機械学習の手法の分類
2-1、クラス判別
2-2、回帰分析
2-3、クラスタリング
2-4、次元削除
索引
となっています。
統計学の基本や、機械学習の手法についての説明が付録についていて、
初学者にはうれしい内容です。
Pythonになじみのある方から、バリバリのITエンジニアまで、
データ分析を一通り学んでおきたいあなたが、サクッと全体像をつかめるおすすめの1冊となっています↓
こちらもございます↓
東京大学のデータサイエンティスト育成講座 ~Pythonで手を動かして学ぶデ―タ分析~
Pythonで理解する統計解析の基礎 (PYTHON×MATH SERIES)
Pythonで学ぶあたらしい統計学の教科書 (AI & TECHNOLOGY)
Pythonによる統計分析入門
Pythonによるあたらしいデータ分析の教科書 (AI&TECHNOLOGY)
ゼロからはじめるデータサイエンス ―Pythonで学ぶ基本と実践
Rではじめるデータサイエンス
世界標準MIT教科書 Python言語によるプログラミングイントロダクション 第2版:データサイエンスとアプリケーション
Pythonによるテキストマイニング入門
Python言語によるビジネスアナリティクス 実務家のための最適化・統計解析・機械学習
データサイエンス教本 Pythonで学ぶ統計分析・パターン認識・深層学習・信号処理・時系列データ分析
Pythonで動かして学ぶ! あたしい機械学習の教科書
Pythonで動かして学ぶ!あたらしい深層学習の教科書 機械学習の基本から深層学習まで
Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理
現場で使える!NumPyデータ処理入門 機械学習・データサイエンスで役立つ高速処理手法
Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
Numerical Python: Scientific Computing and Data Science Applications with Numpy, SciPy and Matplotlib
こちらもございます↓
『「テキストマイニング」に関係する記事の一覧(目次)をまとめました』
『機械学習に入門したいあなたにチェックしてほしい良書、10冊はこちらです』