数据的计量与类型
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
Part I 数据的计量与类型 一、数据的计量尺度 (一)定类尺度 又称类别尺度,按事物的某种属性对其进行平行的分类或分组。(只能测度事物之间的类别差,其他差别无法得知)例:按照性别将人口分为男、女两类,按肤色分为白种人、黄种人、棕种人、黑种人四类,按洲别分为亚洲人、欧洲人、美洲人、非洲人、澳洲人五类。 (二)定序尺度 又称顺序尺度,是对事物之间等级差别和顺序差别的一种测度。它不仅可以测度类别差,还可以测度次序差。(不能测量类别之间的准确差值,只能比较大小,不能进行加、减、乘、除数学运算)例:人可以根据年龄分为幼年、少年、青年、中年、壮年、老年等类。满意程度可分为非常满意、比较满意、没有不满、不满意、很不满意几类。 (三)定距尺度 又称间隔尺度,是对事物类别或次序之间距离的测度。该尺度通常使用自然或物理单位作为计量尺度。例:30°C和20℃之间相差10℃,-30°C和-20℃之间也是相差10℃。再比如,1等星比2等星亮10倍,0等星比1等星亮10倍,-1等星又比0等星亮10倍。定距数据可以进行加、减运算,不能进行乘、除运算。其原因为定距尺度中没有绝对零点(定距尺度中的“0”是作为比较的标准,不表示没有)。 (四)定比尺度 又称比率尺度,由于定比尺度有绝对零点(定比尺度中的“0”表示没有,或者是理论上的极限)。因此,不仅可以进行加减运算,还可以进行乘除运算。例如,绝对温度300K(27℃)时理想气体的体积273K(0℃)时的1.1倍,温度比也是1.1倍,则绝对温度和体积都是定比尺度。一般来说,定比尺度的数据不可能取负值。一般也不会取零值,因为要么就是不存在了,要么就是极限情况。如,绝对零度只能无限接近,不可能完全达到。如果一个物体的体积为零,那么它要么不存在,要么是数学中的抽象概念,比如,几何中的点、线、面的体积都为零。而一个人的年龄为0时呢?作为社会学意义上的人,可以认为它是极限(开始);作为生物学上的人,则是定距尺度的。 通常:定比尺度的数据取对数,就会变成定距尺度的数据。比如,声音的频率,人感觉到的是声音高多少,不是频率之差,而是频率之比:高1个八度就是频率变为原来的2倍,高2个八度就是频率变为原来的4倍,高3个八度就是频率变为原来的8倍;低1个八度就是频率变为原来的1/2,低2个八度就是频率变为原来的1/4;[高1个五度就是频率变为原来的3/2,高2个五度就是频率变为原来的9/4(按照五度相生律),五度的频率比不要求掌握]。声音的强度与分贝的关系也是这样。声音每增加20分贝,强度就增加10倍。 二、数据的类型 统计数据大体上分为两种类型:定性的数据和定量的数据。 定性数据也称品质数据,它说明的是事物的品质特征,是不能用有一个统一单位的数值来表示的,这类数据由定类尺度和定序尺度计量形成。 定量数据也称数量数据,它说明的是事物的数量特征,是能够用有一个统一单位的数值(比如,身高可以用cm,m或英寸等,体重可以用kg或磅,温度可以用℃或K,声音的频率可以用赫兹或弧度/秒;这里的“统一单位”是指对不同的变量值都可以使用这个单位,而不是一定要使用这个单位)表示的,这类数据由定距尺度和定比尺度计量形成。 在本质上来说,定性数据的取值是文字性的,描述性的;定量数据的取值是数字性的,度量性的。我们也经常用数字来区别定性数据,比如,用“1”表示性别为“男”,用“2”表示性别为“女”,表面上看它们也是用数字来表示的,但我们可以看到,这只是一种规定,对应关系具有随意性,如果用“1”表示性别为“女”,用“2”表示性别为“男”,也是一样可行的,并不会影响这个问题的结果,就是用“0”表示性别为“男”,用“1”表示性别为“女”也可以。而定量数据的取值直接反映了其属性,是不能随便改变的,比如,你说我规定用1来表示2℃,用2来表示1℃,那你怎么来比较温度差?1<2,所以2℃比1℃低?再规定,数值小表示温度高,这不是自找麻烦吗?也就是说,它的取值不是可以随便规定的(定比数据只有一个单位可以变换,定距数据还有一个零点可以相对自由地定义,但这些变换都是线性变换,对定距数据来说,y=kx+b,截距不为零;对定比数据来说,y=kx,是成比例的)。 同样表示身高,用cm数就是定量数据,用“很高、中等、不矮、矮个”来描述就是定性数据。同样表示成绩,用分数就是定量数据,用“优、良、中、差”来描述就是定性数据。但一般来说,定量的数据容易用定性的语言来描述,而且也多是定序的(即使不严格);但定性的数据就不容易用定量的语言来描述,定序数据还好一点,可以给它规定一个对应的数值,比如,用绩点来代替“优、良、中、差”,就成了定量数据。而要把定类数据变成定量数据就非常困难,原因是定类数据是无序的,而定量数据无论如何都有一个自然的序关系包含在里面(并且其差异主要都是由其数值大小的差别决定的),这就是“无中生有”的难度。 定性数据的取值与数字的对应关系,一旦做出规定,在使用的过程中就要保持一致,不能一会“1”表示“男”,一会“1”又表示“女”。就像定量数据的单位(以及定距数据的零点)一旦选定就必须保持一致,不能一部分数据这个单位,另一个数据用另一个单位,而把它们的数值拿来直接进行比较或计算。 可取不同值的属性(比如年龄、性别、身高、体重等)称为变量,其取值即为变量值。变量可分为连续型变量和离散型变量。离散变量只能取有限个数,而且其取值都以整位数断开,如企业个数、职工人数等;连续变量可以取无穷个数值,其取值是连续不断的,不能一一列举,如零件尺寸、年龄、温度等。 但实际取值时,连续变量往往也有可能只取整数值,比如履历表上的年龄、天气预报的温度、考试时的分数等。这说明离散变量和连续变量的差别不是截然分开的,特别是在实际统计中,经常会有交叉。比如,离散变量的平均值,一般来说都不再是整数,像家庭中的孩子数的平均值。 本文来源:https://www.wddqw.com/doc/7e6b935d8d9951e79b89680203d8ce2f00666512.html