カテゴリカルデータと数値(連続)データ
こんにちは。ゆうせいです。
データには大きく分けて2つの種類があります。それは「カテゴリカルデータ」と「数値データ(または連続データ)」です。この2つはデータを扱う際の基本中の基本なので、ぜひ覚えてくださいね!それでは、それぞれについて詳しく見ていきましょう。
カテゴリカルデータとは?
カテゴリカルデータとは、文字通り「カテゴリー」を表すデータのことです。これは数字ではなく、いくつかのグループや分類に分けられるデータを指します。
例:
- 血液型(A型、B型、O型、AB型)
- 性別(男性、女性)
- 色(赤、青、緑)
これらは「数値として計算できない」という特徴があります。例えば、血液型を「A = 1, B = 2」としても、それを足したり引いたりすることには意味がありませんね。
特徴
- 質的データとも呼ばれる。
- 通常、文字列や記号で表される。
- 比較やグループ分けはできるが、数学的な演算は意味がない。
数値データ(連続データ)とは?
一方、数値データは「数量」を表すデータです。これらは実際に計算や比較ができるものですね。さらに、数値データは「連続データ」と「離散データ」に分けられます。
例:
- 身長(170.5 cm)
- 年齢(25歳)
- 体重(60.2 kg)
特徴
- 数値で表され、数学的な演算が可能。
- 通常、連続的な範囲を持つ(例えば、0.1cmの差も意味がある)。
カテゴリカルデータと数値データの違い
下の表で違いを簡単にまとめました!
項目 | カテゴリカルデータ | 数値データ |
---|---|---|
データの種類 | グループやラベル | 数値そのもの |
計算可能性 | × | ○ |
例 | 血液型、性別、色 | 身長、体重、年齢 |
グラフの種類 | 棒グラフ、円グラフ | ヒストグラム、散布図 |
応用編:この2つのデータの組み合わせ
実際のデータ分析では、カテゴリカルデータと数値データの両方を組み合わせて使うことが多いです。例えば、「性別(カテゴリカルデータ)」ごとの「平均身長(数値データ)」を比較する、といった分析です。
なぜ分類が大事なのか?
データを分析する際には、どちらのタイプなのかを最初に判断することが重要です。なぜなら、使える統計手法やグラフの種類が異なるからです。
これからデータ分析を学び始める方は、まずこの2つのデータの違いをしっかり理解してください。そして、データを見たときに「これはどっちかな?」と考える癖をつけましょう!次は、それぞれのデータに適した分析手法やグラフ作成についても学んでいきましょうね。