连续型数据分析(连续型数据”的描述性统计)
在《概念数据化的四种“统计尺度”》一文中,我们提到了“名义尺度”“顺序尺度”“间距尺度”以及“比例尺度”等四种“统计尺度”。在确定了要取的是哪一类型的数据之后,我们就要进行实际取数阶段,即科学研究中的“体力劳动”阶段。在取回各种类型的数据之后,最核心的问题是,我们怎么对这些数据进行分析?通过对数据的分析,我们又能得出什么研究意义?这就回到了我们此前给大家讲的统计的“两大功能”——“概括特征”与“推断总体”。“概括特征”应该用“描述数据”和“效果数据”这两类数据去概括。比如,我们统计的某一群体,这一被试群体的特征是怎么样的,“描述数据”和“效果数据”就可以反映这个功能。本节,我们就“连续型变量”的描述统计中的相关问题展开分享。
一、什么是“描述数据”
举例来说,我们统计某校体育教育专业的一个专项班。这个学校很强,有足球学院、排球学院、篮球学院。让这三个学院的学生来选我主讲的“田径普修”这门专项课。这样一来,这些选课的学生就会有不同的专项、性别,他们的身高和体重都会不一样。在这里,我们可以看到它会涉及到包括专项和性别在内的这些典型的“名义尺度”的变量。
而“比例尺度”的变量,就是身高和体重这些我们所谓的“连续型变量”和“离散型变量”。对于“连续性变量”和“离散型变量”或者叫“非连续性变量”,我们对它们的特征进行描述的时候,往往是不一样的。所谓的“描述数据”,就是我们统计学用到的第一类数据。它是典型的“单变量数据”,也即反映某一项变量或者某一项指标中多个数值的某一方面特征的数据。比如,我们刚才提到的这个案例,其中有42位同学,因为专项都不一样,就会有42个专项的数据。这42名学生的性别是不一样的,并且,他们有各自的身高、体重。如果我们只是单纯地把这些原始数据收集回来,它们没有任何价值。这就是我此前说的,“大家讨厌数据”中所指的那种数据。这样的数据看上去好像很规律,其实是没有价值的。在这种情况下,我们就需要从中提炼出有价值的数据。
二、“描述数据”中的两种趋势
第一步就是描述反映某一项指标的某一方面。如果该指标或变量属于“连续型变量”,我们就可以反映它的两个趋势——“集中趋势”与“离散趋势”。
(一)“集中趋势”
“集中趋势”可以用“平均值”“分位数”和“众数”来反映。所谓的“集中趋势”,我们以体重为例,这是一个典型的“连续型变量”。在此,“集中趋势”所表示的就是,大多数人都会趋向集中于某一个体重的数值。换言之,大多数人体重的数值都会在某一个数据上下浮动,这就叫作“集中趋势”。“集中趋势”最好用“均数”来反映。所谓“均数”,就是我们一般意义上的“算术平均数”。当然,有的时候也会偶尔用到“几何平均数”。
第一个概念“算术平均数”很简单,比如将每个人的身高或体重相加,再除以样本个数42,得出平均数66.3kg,那么,66.3kg就是这一群人体重的“平均数”。
第二个概念叫作“分位数”。“分位数”的概念其实有很多,它包括“中位数”“三分位数”“四分位数”“五分位数”“百分位数”“千分位数”“万分位数”等等。只要样本量够大,做到“千万分位数”都是没问题的。“分位数”的概念,就是指将我们测得的数值从小到大(也可以从大到小)依次进行排列。比如,我们将这42个体重数值,从最小的60kg到最大的89kg依次排列。在此之后,我们将它从中间一分为二。那么,位于中间的这个分隔两边数据的数字,就叫作“中位数”。如果我们将42个样本一分为二,左边21个,右边21个,那么就不会有中间的数字,因为它是双数的。这种情况,我们就取第21位和第22位这两个数字的平均值作为“中位数”。比如,这里的66kg和67kg是位于中间的两个数字,那么,我们就取二者的平均数(66.5kg)作为“中位数”。以此类推,“三分位数”“四分位数”“五分位数”和“百分位数”都是一样的概念。
第三个概念叫作“众数”。所谓“众数”,就是“连续型变量”的观测值中出现次数最多的数据。这是因为,有些人的体重是一样的。比如,多个人的体重都是71kg,或者说,体重数值出现次数最多的就是71kg。那么,这个“众数”就是71kg。
这几个概念,都可以反映对一组“连续型变量”特征的数据的描述。这就是“描述数据”所反映的“集中趋势”。
(二)离散趋势
除了上述“集中趋势”,“描述数据”还可以反映“离散趋势”。“集中趋势”中,大多数人都会趋向于某个数据,比如趋向于某个体重数值。而“离散趋势”正好是反过来的,即大多数人都是接近“平均数”。但这个群体,是不是每个人都等于平均数呢?肯定不是,有的人是高于平均数的,也有的人是低于平均数的。
“离散数据”所反映的是在“平均数”出现后,我们可以借此观察样本数据与“平均数”之间,是分得很散还是聚得很拢。这就叫“离散趋势”。如果分得很散,那么,它的“方差”“标准差”“标准误”等“变异系数”就会很大,因为它分得很散。而聚得很拢,大家都很接近“平均数”,那么,方差、标准差等这些“变异系数”就会比较小。关于“方差”“标准差”“标准误”以及“变异系数”的概念及其计算,我们可以参见下图:
图1
比如,我们的平均体重是66.3kg,但每一个人的数据都跟“平均数”有一个差别,比如,这个人的体重可能是72kg,另一个人则是69kg等等。它们与“平均值”的差值就不一样。如果用自己的体重减去平均体重的话,所得差值可能高于平均体重,也可能低于平均体重。如果我们直接求和,可能“负负得正”就等于零了。所以,我们用了一个平方,经过平方之后再加起来,那就叫“方差”。“方差”再除以“n-1”(见图1)。“方差”计算出来之后,我们发现它的单位是“千克”的平方。所以,我们还要对它进行开根号计算,“标准差”就变成了平方,对它开根号计算之后就变成“千克”。所以,“标准差”是我们经常用到的。
对于“连续型变量”,大家一定要记住,“描述性数据”一定要展示“平均值”和“标准差”,这是我们需要去做出来的。如果我们的研究中涉及到“连续型变量”,那么,“平均值”和“标准差”务必要展示出来。传统的统计学教材会告诉大家:只有符合正态分布的数据,才展示“平均数”和“标准差”,或者说才用“平均值”和“标准差”去反映“描述数据”的特征;不符合正态分布的数据,要用“中位数”和“四分位间距”去反映。
我告诉大家,这其实是不科学、不合理的。这里有个“四分位数间距”。“四分位数间距”就是“上四分位数”和“下四分位数”之差。当然,还有一个极差(range),也叫作“全距”,即最大值和最小值之差。“中位数”也好,“极差”也好,“四分位数间距”也好,它们都是单个数据,或者最多是2-3个数据。仅凭这一两个数据去反映整体的数据,其实并不合理。而“标准差”和“平均值”,是将这一组样本中的每一个数据都综合起来了,所以它们往往更适合反映一组“连续型变量”的描述数据。
另外,还有一个非常重要的概念,叫作“正态分布”。如果一组数据符合“正态分布”,其“平均值”一定等于“中位数”。比如,下图是关于体重的坐标轴,横轴是体重,纵轴是对应某一体重的人数分布。
图2
由图可见,它是一个“钟形分布”,即左右两边是对称的。中间的“平均值”,意味着大多数人都处于这个体重数值。那么,“平均值”加“标准差”和“平均值”减“标准差”就是这个范围。比如,“平均值”是65kg,如果标准差是10kg的话,那么其范围就是55kg-75kg。如果在这个范围内的个体总数为1000人,处在这个区间中的样本个体就占比68%。如果加减两个“标准差”,体重范围就是45kg-85kg,这个人数就占到95%。如果加减三个“标准差”。那就是35-95kg之间,这时的人数占比就达到99%。如果我们展示了“平均值”和“标准差”,我可以告诉你,“平均值”减三个“标准差”到“平均值”加三个“标准差”的这个范围,就足以覆盖被试的99%。只要是样本量足够,所有的“连续型变量”都可以当作近似“正态分布”来处理。
关于样本量足够,有很多说法。有人认为样本量不能少于1000;有人说样本不能少于30;也有人说样本量不能少于50。那么,我们取最小的,即只要有30个以上的样本量,我们基本上都可以把它当作近似“正态分布”来进行分析。因为,“平均值”和“标准差”是比“分位数”和“分位数间距”更适合反映“连续性变量”的“描述数据”。所以大家记住,如果我们的研究中得到的数据是“连续型变量”,那么,务必要展示“平均值”加减“标准差”。有了这两个数据,就可以非常清晰地知道,我们测的这个样本数据的“集中趋势”是怎么样的,“离散趋势”又是怎么样的。
三、小结
以上就是对于“连续型变量”的描述统计的介绍。我们可以用下面这种形式去展示“连续型变量”的“描述数据”:比如,有两个变量,我们对它们进行分组,有女性组和男性组。有的是没有分组的,我们直接统计所有人,也没问题。这个时候,我们可以减这个身高、体重的“平均值”“标准差”。这里的最小值、最大值都可以做出来。我们可以用表格的形式去展示,表格一般会用到“平均值”加减“标准差”的形式去展示。当然,我们也可以用柱状图的形式来展示。柱子的长度代表“平均值”(见图3)。
图3
图中的误差线代表“标准差”。另外,我们也可以用散点图中的黑点代表“平均值”,而这个误差线代表“标准差”。大家可以看到,这个柱状图和散点图其实是一样。大家一定要记住,二者不要同时出现。有很多硕博论文做了一个表,觉得还不好、不清晰,还要再做个图,做完后又觉得柱状图也不太好看,就又做一个散点图,散点图还不够好看,再做个雷达图等等,有很多这样的情况。千万不要这样做。我们选择了用表,就用表格;选择了用图,就用图片;选择了柱状图,就不要用散点了;选择了散点图,就不要再做柱状图了。千万不要重复数据,这在审稿人眼中是要减分的。
相关文章:
相关推荐: