データとは何か? ~計数値 と 計量値~

私たちはたくさんのデータ(標本)を採ることで、データのばらつき具合や傾向を調べようとします。

 

データは次の2つの型: 計数値計量値 に分類されます

 

計数値と計量値の違いを一言でいえば、

計数値 は 「数えるもの

計量値 は 「量るもの」であります。

 

言いかえると、計数値は「離散値」、計量値は「連続値」であります。

 

統計解析では標本から母集団を推定しますが、標本の型によりあてはめられる統計手法が異なってきます。

 

また、官能値などのように、加法性がないデータにもかかわらず、足したり引いたり平均を求めたりしているとちょっとかっこ悪いことになってしまうので、自分がこれから解析しようとしてるデータがどのような性質を持つのか理解しておく必要があるでしょう。

 

 

計数値とは

離散的な値しか取り得ない値であり、例えば、商品の価格、一日の売上、故障回数、不良品数など通常は1個、2個、3個、・・・と通常は数えられるものが多いです。

 

誤解しやすいポイントですが、計数値は自然数(1, 2, 3, …)である必要はなく、測定精度に依存しない値のことです。

 

計数値は離散的な値であるため、例えば 1.5, 2.5, 3.5, … というように小数点以下をとる離散値ということもあり得ますが、適用事例は少ないでしょう。

 

計数値で分布を仮定するとすれば、二項分布、多項分布、ポアソン分布などの離散分布が適用されます。

 

ただし、データの最小単位が実際に扱う数字の大きさと比べて十分小さいときは正規分布に近似してしまうやり方もあります。

 

例えば、「一か月あたりの売上」であれば最小単位は1円であり厳密には離散値であると言えますが、実際のデータは数百万円オーダーとなる場合であれば、正規分布に近似しても誤差は十分小さいと考えることができるのです。

 

 

いろいろな計数値

単純計数値

故障回数、不良品数などのように単純に1個、2個、3個と数えられるデータのことで、普通は自然数であることが多いです。

ほぼ加法性があると言えるので、計数値の中ではもっと扱いやすいデータです。

 

計数分類値

ある部品をn=100個作って、その品質に応じて 優・良・可の3つのグループに分類したとします。

すると例えば、優のグループはn1=20個、良のグループはn2=70個、可のグループはn3=10個というふうに選別します。

このときn=n1+n2+n3の関係がありますので、n1, n2, n3のとり得る上限値はnです。

このように、全体をn個として、n個のうち、それぞれのグループに分けた個数n1, n2, n3, …を計数分類値といいます。

累積法と云われる方法で解析します。

ヒント: 優・良・可 や グレード1級, 2級, 3級 などの指標は品質特性と云われることがあります。このような品質特性には当然のことながら加法性はありませんので足したり引いたりできません。
さすがに 優+良 を計算する人はいませんが、グレード1 + グレード2 を計算している人はよく見かけます。
本来加法性がない品質特性に、グレード1級, 2級, 3級 のように「数字」を使ってしまうと、このような不幸が起こりやすいと言えるでしょう。

 

多計数値

計数分類値と似た概念ですが、n1, n2, n3のとり得る上限値が不定なデータのことを多計量値といいます。

1個目の製品を作って外観検査をおこない、「大きい」キズの個数n1、「中」のキズの個数n2、「小さい」キズの個数をn3だったとします。

すると1個目の製品のキズの総数nは結果的にn=n1+2+n3で計算できます。

次に、2個目の製品を作って外観検査をおこなって同じようにキズの総数を数えたとしても、先ほどのnと同じ個数になるとは限りませんし、そもそもキズの数というものは何個までとり得るのか不定です。

3個目の製品もまた同様です。このようにとり得る上限値が不定なデータのことを多計量値といいます。これも累積法での解析となります。

 

 

計量値とは

無限に連続する値であり、重さ、長さ、時間、寿命、速度、温度、電流、音量など測定器を用いて計測される値のことです。

 

測定精度が高度であればあるほど無限の桁数を取ることができますので、実際に得られる値は何らかの制限により丸められた値となります。

 

真値を知っているのは神様だけであり、人間が知ることができるのは「真値と推定される値」です。

 

計数値で分布を仮定するとすれば、正規分布、指数分布、ワイブル分布などの連続分布が適用されます。

 

いろいろな計量値

単純計量値

一般的な物理量や工業量のことであり、寸法、表面粗さ、長さ、体積、質量、時間、エネルギーなどです。

もちろん加法性があり、もっとも質が良い(=情報量が多い)データの型です。

何をするにせよ、まずは単純計量値でサンプリングすることを目指したいものです。

 

計量分類値

上記で説明した計数分類値は各グループに分類した「個数」でしたが、計量分類値は個数ではなく「百分率」で表したデータのことです。

これまた厄介な累積法の出番となります。

 

多計量値

上記で説明した多計数値は上限値不定のグループごとの「個数」でしたが、多計量値は個数ではなく「単純計数値」で表したデータのことです。

多計量値も収穫量や水揚げ量などのように上限値が不定なデータで、農業や漁業などで適用されることが多いです。

工業の世界ではあまり見かけません。多計量値の場合もまたあまりお世話になりたくない累積法での解析となります。

コメントは受け付けていません。