推断统计怎么做(浅谈统计推断与数据收集)
谈到用统计学进行决策,离不开所谓的“统计推断”,即用样本去推断总体的信息,进而指导决策。在现今的大数据时代,统计学作为一门学习和认知的哲学,成为了连接“数据”与“信息”这两大热门概念的坚实桥梁。统计学的认知基于对测度的客观认识,即承认我们所观测到的都是“信号”与“噪声”的结合,在正视和量化“噪声”的过程中,统计学发展出了一系列从“噪声”中提取“信号”的工具,而假设检验、线性模型等经典统计推断方法论就是其典型代表。
在当今的时代,所有人都应该明确的一点是“数据≠信息”,只有经过合理统计学方法论处理过的数据才能得出尽可能准确且能正确指导决策的信息。而这些统计学方法论的运用绝不仅仅局限于对已有的数据进行分析。事实上,统计学思维在数据收集过程中与数据分析过程中同样重要。既然“好”的数据是获得有用信息的基础和前提,那么究竟什么样的数据才是好的呢?以下是笔者所以的数据收集7原则:
01 理解统计意义与测量层面的重复
任何统计分析,都离不开“重复试验”以获得足够的样本量,但应注意的是统计意义上的重复与“重复测量”在很多情况下并不等同。例如在临床试验中,对同一例患者反复多次获得测量数据,并不等同于对多个患者获得的数据。因此在任何统计分析中,我们关注的“样本量”不能只看观测值的个数,而应了解数据收集方式以确认具有统计意义的样本量。
02 理解数据类型
正确识别或定义数据类型是一切统计分析的基础,这影响了我们如何选择适用的统计学假设和统计推断方法。在有些情况下,数据类型并非显而易见,需要我们根据不同情况提出不同的前提假设。也就是说,同一组数据,根据研究的实际需要,可以视为不同的数据类型。常见的数据类型可分为计量型(连续型)、定序型和计数型(定类型),不同的数据类型包含的信息量有所不同,通常来说,如果一组原始数据是信息量较高的数据类型(如计量型),其可以依照某种原则转化或被重新定义为信息量较低的数据类型(如计数型),但是这样的转化可能会造成不必要的信息流失。
03 确保样本对需要研究的总体“有代表性”
样本对研究总体的代表性直接决定了统计推断的有效性,因此任何研究者和数据分析人员都应该在数据收集阶段进行自审和自查,如尝试找出如下问题的答案:
通过这组样本得出的结论真的能反映我关注的总体吗?
我的样本与总体具有怎样的相似性?
不要为了收集数据而收集数据;
不要先有数据,再去想问题;
不要先收集数据,然后强行用这个数据去回答某一问题;
当数据收集过程并未严格按计划执行,请谨慎思考是否它还能被用来回答你想要研究的问题。
原则上来说,如果能确定收集到的样本对总体有代表性,如何获得他们并不重要。然而在实际研究过程中,很多时候我们无法确切地知道样本对总体的代表性,因此能做的就是尽可能地确保随机性。原因在于,不随机的抽取会导致样本对于总体是“有偏的”,例如“研究全校学生平均身高的时候抽取其中某个专业的学生作为样本”或用“自愿参与”调查问卷了解民众对某一项政策的意见。
04 确保消除数据的潜在偏差
与确保样本的代表性类似,随机抽样和试验顺序的随机性也是消除数据潜在偏差的重要手段。如在临床试验中每一个试验单元的顺序都应尽可能随机,其目的在于尽可能地消除潜在的影响因素(它们可能是未知或不可控的),如“学习效应” 或时间造成的影响,这一类的“随机化”可以被理解为一项针对“意外变量” 的“保险”。需要注意的是,随机性是常常是有代价的,没有绝对完美的随机。在实践中,我们应认识到,随机化是手段而不是目的,需要综合考虑随机性与一些其他试验的重要方面,如分布的平衡性和操作便利性等。
消除数据偏差的另一个重要手段是“设盲”,通过对研究者和受试者设置盲态可以在很大程度上消除“安慰剂效应”或其他一些潜在偏差,这在临床试验中显得尤其重要。
当然,数据偏差的消除同样离不开数据收集本身的规范性,针对这一方面,常见的做法是在数据收集中运用作业指导书与SOP或在正式试验之前通过试运行来观察潜在的数据收集干扰因素,如需将不同数据源的数据汇总分析,则应十分谨慎,因为他们很有可能来自不一致的收集方式。
05 在数据收集前决定样本量
合理计算样本量是试验规划和试验设计的重要一环,合理的样本量计算要基于对试验目标和统计学相关假设的明确。任何统计学研究都应避免在获取观测值后出于改变结论的目的再次收集数据,即所谓的“二次抽样”。
06 认清非一手数据的局限性
如果数据不是你收集的,那么极有可能它们是被收集来回答不同的问题的(否则你的问题应该已经有答案了)。可能的不同与改变包括并不限于:SOP的改变,工艺流程的改变,测试系统的改变等等。
07 确保数据跟研究的问题相吻合
针对这一点,我们应特别注意如下方面:
相关文章:
相关推荐: