カテゴリカルデータと数値(連続)データ

こんにちは。ゆうせいです。

データには大きく分けて2つの種類があります。それは「カテゴリカルデータ」と「数値データ(または連続データ)」です。この2つはデータを扱う際の基本中の基本なので、ぜひ覚えてくださいね!それでは、それぞれについて詳しく見ていきましょう。


カテゴリカルデータとは?

カテゴリカルデータとは、文字通り「カテゴリー」を表すデータのことです。これは数字ではなく、いくつかのグループや分類に分けられるデータを指します。

例:

  • 血液型(A型、B型、O型、AB型)
  • 性別(男性、女性)
  • 色(赤、青、緑)

これらは「数値として計算できない」という特徴があります。例えば、血液型を「A = 1, B = 2」としても、それを足したり引いたりすることには意味がありませんね。

特徴

  • 質的データとも呼ばれる。
  • 通常、文字列や記号で表される。
  • 比較やグループ分けはできるが、数学的な演算は意味がない。

数値データ(連続データ)とは?

一方、数値データは「数量」を表すデータです。これらは実際に計算や比較ができるものですね。さらに、数値データは「連続データ」と「離散データ」に分けられます。

例:

  • 身長(170.5 cm)
  • 年齢(25歳)
  • 体重(60.2 kg)

特徴

  • 数値で表され、数学的な演算が可能。
  • 通常、連続的な範囲を持つ(例えば、0.1cmの差も意味がある)。

カテゴリカルデータと数値データの違い

下の表で違いを簡単にまとめました!

項目カテゴリカルデータ数値データ
データの種類グループやラベル数値そのもの
計算可能性×
血液型、性別、色身長、体重、年齢
グラフの種類棒グラフ、円グラフヒストグラム、散布図

応用編:この2つのデータの組み合わせ

実際のデータ分析では、カテゴリカルデータと数値データの両方を組み合わせて使うことが多いです。例えば、「性別(カテゴリカルデータ)」ごとの「平均身長(数値データ)」を比較する、といった分析です。

なぜ分類が大事なのか?

データを分析する際には、どちらのタイプなのかを最初に判断することが重要です。なぜなら、使える統計手法やグラフの種類が異なるからです。


これからデータ分析を学び始める方は、まずこの2つのデータの違いをしっかり理解してください。そして、データを見たときに「これはどっちかな?」と考える癖をつけましょう!次は、それぞれのデータに適した分析手法やグラフ作成についても学んでいきましょうね。

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。