「地理空間情報」とは、地理的情報(位置)に依存する情報のことです。
例えば、病気・犯罪・公害など、地理的な位置が関係する事象です。
- インフルエンザの発生とコロナの発生は、空間的に関係はある?
といった分析ができれば、疾病の予防や対策に有効です。
「地理空間情報データ解析」は、
- 地理的な情報が関係する事象(イベント)のデータ分析手法
として、様々な分野で活用されています。
本記事では、
- 地理空間情報をサクッと分析できるようになりたい
- 手を動かしならが学びたい
- フリーの統計解析ソフト「R」を使えるようになりたい
- 独学でも挫折せず、学びやすいものがいい
といったあなたにおすすめの本をご紹介します。
本記事の概要
「地理空間情報」とは?地理空間情報データの可視化、統計モデル作成など、「R」の使い方とともに、基礎から手を動かしながら学びたいあなたにおすすめの本はこちらです
Rによる地理空間データ解析入門
本書は、地理空間情報データの分析について、統計解析フリーソフト「R」を使って、手を動かしながら学べます。
基礎理論や難しい数式などは最小限にされており、
Rのコードを実行しながら学ぶことを前提に作られています。
- Rの使い方がわからないんだけど・・・
といった、R初心者のあなたもだいじょうぶです。
Rの使用法について、
- Rのインストール
- Rの仕組みや使い方
- Rプログラミング
なども、基礎からシッカリ解説されています。
本書は、
- 地理情報データ分析ができるようになる
- Rの操作やプログラミングができるようになる
と、1冊で両方学ぶことができる、お得な教科書・演習本となっています↓
以下は本書の詳しい内容になります。
本書の内容は、大きく2つに分けられます。
- Rの使い方についての解説
- Rを使った地理情報データ解析の解説
Rについての解説部分
地理空間情報の本なはずなのに、
なんと!
Rの操作方法も身につけることができるんです。
お得ですよね。
Rを使ったことがない初心者の方も安心して取り組めるのが本書のいいところです。
本書の第1章、2章、4章、9章について、ぜひ手を動かしてみてください。
Rの経験者の方は、地理空間情報データに関係する部分のみやって、データ解析の方に進まれるといいかと思います。
1章では、環境構築と準備として、
- Rの入手・インストール・実行方法
- Rの機能の拡張方法・ライブラリ
などについて学べます。
2章では、Rでのデータの扱い方・プロット・データの読み書きが解説されます。
- 変数、代入、データ型、データクラス
- 可視化(プロット)
- データの読み書き
といった基本操作を身につけることができます。
6章では、Rでのプログラミングがサクッと学べます
- Rでのプログラムの基本的な内容(条件文、ループ)
- 関数の定義方法
などが学べ、最後に
- 空間データに関する関数の記述方法
を学べ、地図の塗り分けなどができるようになります。
9章では、インターネット上のデータをRで自動収集する方法が学べます
データ解析を行う上で、最初に必要となるのが
- データの準備
です。
データ分析手法は、理論や数式、分析・可視化などを綺麗な世界(?)だとすると、データの準備は泥臭い世界と言えます。
生データは、データを解析するまでに様々な工夫や手間がかかります。
本章では、それらを改善するための方法として、
Rを使ったデータの収集の効率化手法が学べます。
通常のデータアクセスだけでなく、グーグルマップへのアクセスなど、
- 地理空間情報特有のデータのダウンロード方法
などもRコードとともにわかりやすく解説されています。
以上4つの章だけで、Rについての基本操作を身につけることができます。
空間データ以外の分析でも、Rを活用できるようになるわけです。
Rを使った地理情報データ解析の解説
地理情報のデータ解析についての解説は、以下の構成になっています。
- 地理情報データについて
- Rを地理空間情報システム(GIS)として活用する方法
- ポイントパターン解析
- 地理空間属性分析
- 局所的な地理空間分析
地理情報データについて
本章では、地理情報データについて
- 操作のやり方
- 地図の表示方法
- 空間データの記述統計、プロット
をRで手を動かしながら学べます。
まず、地図表示のやり方が、
- 地理情報の重ね合わせ(オーバーレイ)
- 地図の装飾
- 地図の保存
として解説され、例えば、地図上に道路を重ね合わせる、といった操作を学べます。
地理情報データの基本操作を身につけることができます。
次に、地図表示の一歩先として、
- 地図上に属性を表示する方法
について解説されています。
属性表示では、
- 地図上のある区域の人口や収入
- 犯罪の起きた場所
といった空間情報を地図とともに表示する方法が学べます。
地図情報と自分が表示した空間データを用意したら、
これらの知識で、複数の空間情報データを1枚の地図に重ねて可視化することができるようになります。
Rを地理空間情報システム(GIS)として活用する方法
地理情報データの解析では、生データをGISを用いて前処理することがあります。
GISにはArcGISやQGISなどがあります。
Rを用いて同様の前処理を実行することができます。
例えば、
- 複数の地理空間情報から共通する部分を抽出する
- 対象領域の周囲も含めて解析にゆとりを持たせる(バッファの追加)
- 対象領域中の点データの数や対象領域の面積の取得と距離の計算
など、地理情報データ解析で必要となるデータの前処理ができるようになります。
また、地理空間情報データの形式には、ベクター形式とラスター形式があるのですが、
- ベクターとラスターの相互変換のやり方
も解説されています。
どちらかの形式のデータがある場合に、分析しやすい形式へ変換してから解析することができるようになります。
ポイントパターン解析
ポイントパターン解析とは、
- ポイントデータ(点データ)について、
- 空間的パターン(ランダムなのか、クラスターがあるのか、など)
を調べる方法です。
「カーネル密度推定」は、
ランダムなポイントパターンについて、
その強度を、なめらかに表示する方法
の1つです(それぞれのデータは互いに独立と仮定しています)。
データ数が比較的少なくても使えるメリットがあります。
データ数がもう少し多ければ、ヘキサゴナルビニングが使えます。
「ヘキサゴナルビニング」は、ポイントデータを6角形の区域に分けてカウントします。
通常の統計でのヒストグラムのイメージで理解すると分かりやすいかと思います。
ヒストグラムでの各階級が、ヘキサゴナルビニングでの6角形に対応しています。
カウントした数の大小で色を変えて地図上に表示します。
地図上でのポイントデータの分布を可視化することができます。
加えて、二次解析について解説があります。
「二次解析」とは、各データの空間的な関連性を分析する方法です(各データが独立でなく、強度は一定と仮定しています)。
二次解析でわかることとしては、例えば、
ある地域で特定の伝染病が起きた時、その近辺で伝染病が起こりやすいかどうか
を調べることができます。
近場で伝染するのは当たり前じゃん
と思われるかもしれませんが、私たちが思いもよらない
- 特有の地理的要因があぶり出される
ことがあるかもしれません。
また、仮説があればそれが正しいかを調べることもできます。
このように、疾病の空間的な分析は「空間疫学」と呼ばれています。
他にも、
- マーク付きポイントデータへの二次解析
- データにない地点でのマークの補間
- クリギング補間
について、Rのコードとともにわかりやすく解説されています。
「マーク付きポイントデータ」とは、マークがついたポイントデータのことです。
「マーク」とは、場所や時間などのデータの基本変数の他の属性データのことです。
例えば、野生動物の発見場所の地理空間情報データがあったとします。
そのデータには、発見された場所というデータ以外にも、
- どんな動物だったか
- 何頭だったか
- いつだったか
のような情報も合わせて記録されているかもしれません。
(東京都多摩市・シカ・1頭・2016/6/8)
のようなデータです。
このポイントデータは、場所以外の情報(シカ、1頭、2016/6/8)を持っているので、マーク付きポイントデータと呼ばれます。
手元にあるデータの中には、属性の値がない地点が含まれることがあります。
例えば、以下のデータがあるとします。
(東京都多摩市・シカ・1頭・2016/6/8)
(東京都大田区・クマ・1頭・2016/10/21)
(東京都中央区・なし・1頭・2017/11/1)
・・・・・
(東京都荒川区・シカ・1頭・2018/3/11)
2017/11/1のデータには、どんな野生動物だったかが記録されていません。
属性値がない地点のマークの属性を、他のデータから推定するための手法が「補間」になります。
A市の山にこれだけの野生動物がいるなら、
隣のB市の山には、〇〇頭いるだろう
といった感じです。
この空間補間にはいろいろな手法があり、
ここでは逆距離補間法やクリギング補間法などが解説されています。
本章をやることで、マーク付きポイントデータの地理空間データの解析ができるようになり、
データがない場所での属性を推定できるようになります。
地理空間属性分析
「地理空間属性分析」とは、
- 地理空間と関連付けられたデータの属性についてのデータ分析
です。
ポイントパターン解析では、データはランダムで動的と考えていました。
地理空間属性は、非ランダムで静的とみなします。
非ランダムとは相関があるということです。
地理空間なので、空間的な相関がある、とも言えます。
地理空間属性分析では、非ランダム・静的なデータとして解析が行われます。
地理空間属性分析について大きく2つ解説があります。
(1), 地理空間属性値のモデル化
地理空間情報データ(観測値)は、位置によってモデル化することができます。
例えば、ある地点の不動産価格は、
位置を考慮した平均値と分散を持つ正規分布としてモデル化
することができる場合があります。
(2), 地理空間情報データ同士の相関をモデル化
地理空間情報データ(観測値)の相関は、
- 位置同士の距離に依存するとしてモデル化
- ポリゴン同士の隣接関係に基づいてモデル化
といった方法があります。
一般的な統計モデルでは、各観測値は互いに独立していると仮定されていることが多いかと思います。
一方、地理空間情報データの場合は、各観測値は、空間的な相関を持つことがあるため、そこに注意してモデル化する必要があります。
- 空間的な自己相関があるかどうか
- あるならどの程度あるのか
- どの地域とどの地域には相関があるのか
といったことを考慮しながらモデル化します。
空間的自己相関を調べるには、例えば、
- 隣接ポリゴンの観測値の加重平均(平均値ラグ)のプロット
(Moranプロット または Moran 散布図とも呼ばれます)
をすることで、
- 空間的自己相関を視覚的にも調べることができます。
他にも、空間自己相関の指標である
- 「Moran I 統計量」
(通常の統計でのピアソンの相関係数のようなもの)の求め方などが解説されています。
加えて、空間的自己相関がある場合のデータについての回帰モデル
- 「空間自己回帰モデル」
の解説がされています。
空間自己回帰モデルとは、例えば、地域 m の属性値を、m が隣接する地域(2, 3, 4,・・・・n)から回帰するためのモデルです。
実例を通じて説明され、手を動かしながら学べます。
局所的な地理空間分析
上で説明した分析では、地理的な影響は均一と仮定されていました。
しかじ現実には、地域によって影響が異なることが考えられます(異質性といいます)。
異質性があるかどうかを調べるには、「ローカル Moran I 統計量」を計算する方法があります。
異質性を考慮したモデルには、「地理的加重回帰モデル」などがあります。
これは空間回帰モデルの各係数を地域ごとに異なるとしてモデル化する方法になります。
これらがRでの計算方法など、具体例とともみわかりやすく解説されています。
各章には練習問題がついており、各章の内容の理解度を確かめることができます。
加えて、練習問題の解答が巻末に丁寧にわかりやすく解説されています。
- 教科書的な部分で理論的な考え方を学び
- Rのコードを理解しながら手を動かして学び
- 練習問題とわかりやすい解説で理解を確かめる
のように、独学の方でもつまづかずにやり通すことができます。
さらに、付録も充実しています。
- sfパッケージの解説
- 型の変換
- 座標参照系の変換
- コロプレス図の描き方
といった地理空間情報データ分析で重要となる基礎知識もシッカリと解説されています。
というわけで、本書は、
- Rの使い方
- Rによる地理空間情報データ解析の方法
の両方学べるお得な1冊で、
初心者のあなたの独学にもおすすめの本となっています。
こちらもございます↓
こちらもございます↓
『「空間統計」とは?空間データとは?Rによる空間統計解析・モデル、空間統計学の応用例など、空間統計を学びたいあなたにおすすめの本(教科書・参考書)もこちらです』
『空間統計を「R」で手を動かしながら学びたいあなたにオススメの本はこちらです』
『統計解析フリーソフト「R」で、楽しみながら統計を学びたいあなた、こちらはいかがでしょうか【Rで楽しむ統計 (Wonderful R 1)】』
『『統計解析フリーソフト「R」の使い方』のまとめはこちらです』
『「クラスター分析(クラスタリング)」を学びたいあなたにチェックしてほしい良書、6冊はこちらです』
『「機械学習」に入門したいあなたにチェックしてほしい良書、10冊はこちらです』