【単位を持つデータと持たないデータ:意味を見失わないための基本原則】

こんにちは。ゆうせいです。

前回は、共分散と相関係数の違いを学びましたね。
割り算によって「比較可能な形」に変換するというアイデアが、そこでも活きていました。

今回は、その続きとして、データ分析をするうえでとても重要な視点をお伝えします。

それが、「単位を持つデータと、持たないデータの違いを見極める」というテーマです。

一見地味に思えるかもしれませんが、この違いを意識することで、

  • どのデータをそのまま使ってよいか
  • どれを変換・標準化すべきか
  • 意味のある計算・意味のない計算を見分ける

といった判断がグッと的確になります!


1. 「単位」とは何か?

まず、単位とは「量の大きさや種類を示す記号」のことです。

たとえば:

  • 身長 → cm(センチメートル)
  • 体重 → kg(キログラム)
  • 時間 → 秒(second)
  • 価格 → 円(JPY)

これらはすべて「物理的な意味や測定の基準」を持っています。
つまり、数字そのものだけでなく、何を測っているのか?が分かるのが「単位のあるデータ」です。


2. 単位のないデータとは?

一方で、次のようなデータには単位がありません。

  • 標準化されたzスコア
  • 相関係数(r)
  • 正規化された値(0〜1の範囲)
  • カテゴリを表す数(例:男性=0、女性=1)

これらは「相対的な位置や関係性」を表しています。
つまり、意味の中心が“関係性”や“位置”にあり、“実際の大きさ”ではないのです。


3. 単位がある/ないデータの違いを表で確認!

種類単位使い方の例
身長cm人間の平均身長と比較
体重kgBMIを計算する
標準得点(z)なしテストの成績を比較する
相関係数(r)なし関連性を測る
価格売上や支出を計算する
正規化された値なし(0〜1)データのスケーリングに利用

4. どう使い分けるの?

● 単位があるデータ

実体のあるものを測っているので、「そのまま意味を持つ」

例:身長が160cm → その人がどのくらいの高さなのか、直感的に理解できる。

● 単位がないデータ

比較・分析のために「変換されたもの」なので、単独では意味が弱い

例:zスコアが2.1 → 「平均よりかなり高い」という相対的な意味。

つまり、

単位があるデータ → “何”を表しているかに注目
単位がないデータ → “どの位置にあるか”“どう比較できるか”に注目


5. 割り算で単位が消えることに注意!

前回の相関係数でも出てきましたが、割り算をすると単位が消えることがあります。

たとえば:

\frac{\text{身長(cm)}}{\text{標準偏差(cm)}}

これは「zスコア」の計算と同じですが、cm/cm = 1(無次元)となり、単位が消えます。

つまり、「比率」「相対値」「位置づけ」を示すときには、単位がなくなるという特徴があるのです。

これは便利でもありますが、「元の意味が薄れる」というデメリットもあるので、扱いには注意が必要です!


6. 例えで理解しよう!

たとえるなら……

  • 単位のあるデータ:体温計の実測値(36.5℃)
  • 単位のないデータ:「今日熱っぽいな〜」という感覚を数値化したもの

後者は比較には便利ですが、実体がないので、医者に見せるにはちょっと物足りないですよね?


まとめ

  • 単位があるデータは「何を測っているか」が明確
  • 単位がないデータは「位置・関係性・スケーリング」が主目的
  • 割り算で単位は消えるが、それには「意味を抽象化する」という利点と危険がある

次回予告:ログ変換と割り算の関係

次は、「ログ変換」という、統計でも機械学習でもよく出てくる操作を取り上げます!

「なんでいきなり“対数”をとるの?」
「掛け算や割り算が、足し算や引き算になるって本当?」

そんな疑問を一つひとつ解消しながら、割り算との関係にも切り込んでいきます!

どうぞお楽しみに!

生成AI研修のおすすめメニュー

投稿者プロフィール

山崎講師
山崎講師代表取締役
セイ・コンサルティング・グループ株式会社代表取締役。
岐阜県出身。
2000年創業、2004年会社設立。
IT企業向け人材育成研修歴業界歴20年以上。
すべての無駄を省いた費用対効果の高い「筋肉質」な研修を提供します!
この記事に間違い等ありましたらぜひお知らせください。