空間統計とは、位置情報が付属したデータに対する統計分析・解析です。
空間統計は幅広い分野で利用されています。
そこで本記事では、
- 空間統計を幅広くサクッと学びたい
- 手を動かしならが学びたい
- フリーの統計解析ソフト「R」を使えるようになりたい
といったあなたにおすすめの本をご紹介します。
本記事の概要
空間統計を「R」で手を動かしながら学びたいあなたにオススメの本はこちらです
Rによる空間データの統計分析 (統計科学のプラクティス)
本書は、副題として統計科学のプラクティスとある通り、
実践面にも重点を置いて書かれているのが特徴の空間統計の教科書です。
大学生が講義で学ぶ内容を書籍化したものです。
- 講義内容として、理論的な解説
- 実習内容として、Rによるプログラミング演習
の2本立てで、インプットしてアウトプットを繰り返しながら、サクッと身につけていくことができます。
1つの項目について1、2ページでまとめられているので、
- 1日1項目
のように、忙しいあなたも
- 進めやすい構成
となっています。
空間統計について基礎から丁寧に解説され理解しやすく、
Rによるコードを演習することで、
自分のデータに対して実践力もつく1冊となっています。
本書では以下の内容を学べます↓
空間データとは?
空間データとは?から始まり、
空間データの基本構造や操作方法など、通常のデータ分析と違う部分の解説が、
シッカリわかりやすくされています。
空間データの統計量、差の検定・格差とは(地域間比較)
次に地域間の比較について、空間データでの密度、
- 統計量(平均・分散・標準偏差)
- 標準化
- 歪度や尖度
などが解説されています。
また一般的な統計学にもあるように、
- 差の比較についての検定方法
- 地域格差の算出方法
などもまとめられています。
Rのコードを読む・実行することで、さらに理解が深めることができます。
空間データの分類とは?可視化はどうすればいいの?
空間データの可視化で重要となる「主題図」の作成のための方法を学べます。
主題図とは、何かのテーマに沿って空間データをまとめて表示した地図のことです。
主題図には、例えば、人口や土地の利用、交通などがあります。
空間データを地図情報として可視化したものと言えます。
- 地図情報にするために必要なデータの分類方法
- 階級区分図(コロプレスマップ)
- カラーパレットの準備
などが解説されています。
階級区分の方法として
- クラスタリング
など、様々な方法も学べます。
また、自分のデータがあれば可視化してみると、充実感も得られるかと思います。
空間的な相関を見る(空間的自己相関とは)
「空間的な(自己)相関」とは、
- ある地域と別の地域で、似たような値を示すかどうか
といった指標になります。
例えば、
A市の人口が増えた時、隣接するB市の人口も増えている・減っている
といった関係のことです。
ここでは、空間的自己相関分析をするための道具立として、
- 空間隣接行列
- ドロネー三角形
- 空間重み付け行列
などの解説があり、
それぞれRコードとともに手を動かしながら空間的自己相関分析が試せるように工夫されています。
この他にも、
確率地図・空間集積性
事象の発生が稀な場合や、空間疫学やリスク分析などでよく使われる、
- 確率地図
が解説されており、
- 相対リスクのベイズ推定法
とともに、空間クラスタを発見したい場合に有効な方法を学べます。
加えて、事象の発生が、空間的に特定の地域に集まっているかを調べる
- 空間集積性
が説明されています。
- 空間データがランダムに分布しているかどうか調べる方法
- 類似する地区が集まっているか調べる方法
- 空間上のクラスタの位置を検出する方法
などを用いて集積性を調べることができるようになります。
空間点過程データの扱い方(ランダム性)
空間点過程データのパターン分析の解説があります。
ポイントデータは、非常に多くの分野で活用されています。
例えば、空閑疫学、生態学、地震工学、都市工学、人間工学、天体物理学などがあります。
3種類の点過程のランダム性の検証方法が解説されています。
- 一様なポアソン過程を仮定する方法
- 一様でないポアソン過程を仮定する方法
- 距離に基づく関数を用いる方法
また、点過程のランダム性を調べるための、モンテカルロシミュレーションによる分析方法も解説されています。
観測データがない地点の値を推定する方法(空間補間)
データを集めるのは一苦労です。
空間データでも、データがない地域や観測できない地点が存在することがあります。
- データがない地点だからこそ知りたい
場合も多いのではないでしょうか。
観測データがない地点の値について、
観測できた地点のデータを使って推定する方法があります。
それを「空間補間」と言います。
空間補間を使うことで、データの漏れをなくして、
- 綺麗に可視化
- 完全な空間的な分布の作成
といったことができるようになります。
- 空間補間による可視化では「カーネル密度関数」を使う方法、
- 完全な空間分布を推定するための「クリギング法」
などの解説がされています。
空間的な回帰モデル(空間計量経済モデル)
空間データには自己相関を持つ場合があります。
また時系列空間データであれば時系列相関もある場合があります。
統計学でよく使う「回帰モデル」について、
- 空間統計ではどう使うの?
- 地理的な特徴を反映した回帰モデルの表現方法は?
といったことを学べます。
応用面では、経済モデルと書きましたが、
- 医学分野の空間疫学
- 生態学分野の生物の個体・群衆の分析
など、他分野でもよく活用されているモデルになります。
手法面では、以下の項目を学べます。
- 通常の最小二乗法
- ベイズ推定
- 一般化線形モデル
- 自己回帰モデル
- 空間的自己相関モデル
- マルチレベルモデル
- 地理的加重回帰モデル
可変単位地区問題とは
可変単位地区問題とは、地区の形や大きさ・規模によって密度などが変わってしまうことです。
空間データを扱う際に注意する必要があります。
例えば、上記のモデルパラメータを推定する場合にも、使うデータのメッシュの規模に依存して変わる場合があります。
集計単位を小さく・細くすればいいんじゃない?
という場合でも、
- 小さい局所地域での空間的自己相関が現れる
- データがない領域が出てくる
- 小さすぎると(地理情報など)個人情報との関わりが出てくる
といった問題が出てきます。
解決策の1つとしては、異なる単位で、パラメータの安定性について、モンテカルロシミュレーションなどで調べる方法などがあります。
空間統計では、分析する単位を適切に設定することが重要になります。
リスクデータの可視化・分析(計数・カウントデータ)
例えば、感染症の罹患率や死亡者数などを空間的に分析したい時など、
発生件数は、カウントデータ(計数データ)と呼ばれます。
この計数が多い地域はリスクが高いと言えます。
カウントデータをモデル化することで、リスクの要因を分析することができます。
カウントデータのモデル化ではよく使われる
- ポアソン回帰モデル
- 負の二項分布モデル
発生件数ゼロが多い場合は、
- ゼロ強調ポアソン回帰モデル
- ゼロ強調負の二項分布モデル
といったモデルの最尤推定やベイズ推定が解説されています。
まとめ(本書のメリット・デメリット)
本書の特徴として、
- 理論と演習の2本立てで、手を動かしながら学べる
- Rのコードを実行しながら実践力がつく
- 幅広い手法を一通り学べる
といったメリットがあります。
サクッと学べる反面、1項目ごとに1例の感じなので、
空間統計の応用範囲の一部の紹介にとどまっています。
空間統計の幅広い応用分野を考えると、
その他の具体例などは他書を参照する必要があるかと思います。
とはいえ、空間統計の初学者の方が、全体像と実践力の基礎をサクッと効率よく身につけれる良書となっています。
というわけで、
本記事では、空間統計について基礎から学べ、Rコードを実行しながら実践的な力がつく1冊をご紹介しました。
Rを使ったことがないなら、Rの使い方と空間情報の両方学べるお得な1冊はこちら↓
Rによる地理空間データ解析入門
より多くの具体例から、手を動かしながら体得したいあなたはこちら↓
地理空間データ分析 (Rで学ぶデータサイエンス 7)
- 空間統計をRでさらに極めたい
- Rでの演習をさらに積みたい
- 地理空間データへのRの使い方を学びたい
といったあなたにはこちらもおすすめです
より詳細な理論的側面や、多くの手法を学びたいならこちら↓
空間解析入門 都市を測る・都市がわかる
こちらもございます↓
こちらもございます↓
『「空間統計」とは?空間データとは?Rによる空間統計解析・モデル、空間統計学の応用例など、空間統計を学びたいあなたにおすすめの本(教科書・参考書)もこちらです』
『統計解析フリーソフト「R」で、楽しみながら統計を学びたいあなた、こちらはいかがでしょうか【Rで楽しむ統計 (Wonderful R 1)】』
『『統計解析フリーソフト「R」の使い方』のまとめはこちらです』
『「クラスター分析(クラスタリング)」を学びたいあなたにチェックしてほしい良書、6冊はこちらです』
『「機械学習」に入門したいあなたにチェックしてほしい良書、10冊はこちらです』
↓こちら無料で読めます