Sorry, you have Javascript Disabled! To see this page as it is meant to appear, please enable your Javascript!

１冊の本に出会うことで、人生が大きく変わることがあります。良い品物に出会ったことで幸せになれることもあります。とはいっても、多様な商品があふれる中で、より価値の高いものを選び出すのは大変です。そこでこのブログでは、忙しいあなたの代わりに、史上最強の「良い本・良いくらし」の提案をさせていただきます。

忙しいあなたの代わりに、史上最強の良い本・良い暮らしのご提案

統計解析フリーソフト「R」で統計学に入門する⑮ 【要因のデータ型を調べる】

R チュートリアル

2016.12.092023.01.04

こんにちは、ミントです

オブジェクトを使うと、数値や文字などを再利用することができました

オブジェクトをきちんと扱うには、オブジェクトの「データ型」を意識することが大事でした

今回は、データ型を意識する例として、定性的データ（カテゴリカルデータ）分析でやる処理を考えてみましょう

本記事の概要

定性的データってなに？

定性データというのは、（男・女）や、（りんご・みかん・バナナ）のような、数値ではなく、カテゴリーなどを表現したデータのことをいいます

また、定性データを区別する基準（男・女など）のことを「要因（Factor）」といいます

要因を含むデータについて統計分析するには、そのまま処理するわけではありません

要因は文字で表現されたものが多いので、文字を数値にして処理します。これをデータの前処理といいます

今回は定性データ分析で必要となる前処理をしながら、データ型がどう変わっているかをみてみたいと思います

まず、要因を表現するデータをつくります

りんご・みかん・バナナというデータを、kudamono というオブジェクトに代入しています

Ｒで要因型のデータ型を調べる

この「 c ( ) 関数 」というのは、複数のデータを一括してまとめて定義する関数です

りんご、みかん、バナナは全角文字で、その他は半角文字ということに注意してくださいね

c ( ) 関数については、おいおい説明しますので、今回は、「りんご・みかん・バナナ」をオブジェクトに代入できたことがわかってもらえばオッケーです 🙂

オブジェクトの型を調べてみる

では、このkudamono オブジェクトの型を調べてみましょう

Ｒで要因のデータ型を調べる

すると、このデータ型は character ということがわかりました

このkudamono オブジェクトを、「　factor( ) 関数　」で処理します

factor () 関数をつかった変換した結果を、kudamono2 オブジェクトに代入しています

Ｒで要因型のデータ型を調べる

kudamono2 オブジェクトのデータ型を調べてみると、numeric になっています！（先ほどは、character でしたね）

そして、データの内部表現は、 integer になっています

つまり、factor( )関数をつかうことで、character　だったものが、numeric になりました。

これで数値処理しやすくなったわけです

また numericの内部表現は整数型となっています

オブジェクトの中身を調べてみる

kudamono2 の中身の情報を、「　 str () 関数　」をつかってみてみましょう

Ｒで要因のデータ型を調べる

すると以下のように、要因（Factor）が３つのレベル（levels）になっていて、

バナナ・みかん・りんご（りんごは略されてますが）の順に、３，２，１という整数が割り当てられて表現されています

このように、定性データ分析では、要因をfactor() 関数で数値に変換してから統計処理されます

統計解析では、オブジェクトのデータ型を正しく変換しておかないと、思わぬエラーを招いてしまうことがあるわけです

わかりやすさのために省いていましたが、データ型を確かめるには、「　class () 関数　」も使えます

Ｒで要因型のデータ型を調べる

class () 関数を使うと、kudamono2　のデータ型は、factor型と表示されます

あれ！？mode()関数をつかうと、numeric型だったのにな？？

って思われた方するどいです！

同じオブジェクトのデータ型でも、目的に応じて、表現の仕方を選んで調べることができるのです

mode (), typeof () は、コンピュータの仕組みに近いデータ型
class( ) は、統計解析をするときに意識するデータ型

のような違いがあるのかなぁと思っています

調べたい目的によって、使い分けてみましょう～

というわけで、今回は、オブジェクトのデータ型を意識しておく例として、 factor () 関数での変化をみてみました。

Rには、「作業ディレクトリ」というのがあります。

ファイルを扱ったりするなら、必須です↓

『統計解析フリーソフト「R」で統計学に入門する⑯
【作業ディレクトリを調べたり変更したりする】』

『「R」チュートリアル　のまとめはこちらです』

こちら無料で読めます↓

R　チュートリアル: 無料でサクッと高機能データ分析 (ミント出版)

R　チュートリアル: 無料でサクッと高機能データ分析 (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

Amazonで「人工知能　１番最初の入門書: ディープラーニングの祖先を理解する (ミント出版)」に関する詳細を見る

Amazonで探す

楽天で探す

Amazonで「サクッとわかる人工知能第２巻: ディープラーニングの祖先を「改良」する (ミント出版)」に関する詳細を見る

Amazonで探す

楽天で探す

Amazonで「画像処理　０番目の入門書: Python/OpenCV　環境構築編 (ミント出版)」に関する詳細を見る

Amazonで探す

楽天で探す

Amazonで「画像処理　１番最初の入門書」に関する詳細を見る

Amazonで探す

楽天で探す