カテゴリカルデータと数値(連続)データ
こんにちは。ゆうせいです。
データには大きく分けて2つの種類があります。それは「カテゴリカルデータ」と「数値データ(または連続データ)」です。この2つはデータを扱う際の基本中の基本なので、ぜひ覚えてくださいね!それでは、それぞれについて詳しく見ていきましょう。
カテゴリカルデータとは?
カテゴリカルデータとは、文字通り「カテゴリー」を表すデータのことです。これは数字ではなく、いくつかのグループや分類に分けられるデータを指します。
例:
- 血液型(A型、B型、O型、AB型)
- 性別(男性、女性)
- 色(赤、青、緑)
これらは「数値として計算できない」という特徴があります。例えば、血液型を「A = 1, B = 2」としても、それを足したり引いたりすることには意味がありませんね。
特徴
- 質的データとも呼ばれる。
- 通常、文字列や記号で表される。
- 比較やグループ分けはできるが、数学的な演算は意味がない。
数値データ(連続データ)とは?
一方、数値データは「数量」を表すデータです。これらは実際に計算や比較ができるものですね。さらに、数値データは「連続データ」と「離散データ」に分けられます。
例:
- 身長(170.5 cm)
- 年齢(25歳)
- 体重(60.2 kg)
特徴
- 数値で表され、数学的な演算が可能。
- 通常、連続的な範囲を持つ(例えば、0.1cmの差も意味がある)。
カテゴリカルデータと数値データの違い
下の表で違いを簡単にまとめました!
項目 | カテゴリカルデータ | 数値データ |
---|---|---|
データの種類 | グループやラベル | 数値そのもの |
計算可能性 | × | ○ |
例 | 血液型、性別、色 | 身長、体重、年齢 |
グラフの種類 | 棒グラフ、円グラフ | ヒストグラム、散布図 |
応用編:この2つのデータの組み合わせ
実際のデータ分析では、カテゴリカルデータと数値データの両方を組み合わせて使うことが多いです。例えば、「性別(カテゴリカルデータ)」ごとの「平均身長(数値データ)」を比較する、といった分析です。
なぜ分類が大事なのか?
データを分析する際には、どちらのタイプなのかを最初に判断することが重要です。なぜなら、使える統計手法やグラフの種類が異なるからです。
これからデータ分析を学び始める方は、まずこの2つのデータの違いをしっかり理解してください。そして、データを見たときに「これはどっちかな?」と考える癖をつけましょう!次は、それぞれのデータに適した分析手法やグラフ作成についても学んでいきましょうね。
投稿者プロフィール
-
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。
最新の投稿
- 新人エンジニア研修講師2024年12月20日バイト言葉とは何か? 新人エンジニア向けに解説
- 新人エンジニア研修講師2024年12月20日ワークフローシステムとは何か? 新人エンジニア向けに解説
- 新人エンジニア研修講師2024年12月17日新人エンジニア研修で教えたい「正しい生成AIの使い方」 新人研修講師の方に向けて解説
- 新人エンジニア研修講師2024年12月17日新人エンジニア向けの「ビジネス文書の書き方」について、新人研修講師の方に向けて解説