数据陷阱怎么做(带你识别9种常见的数据陷阱)
在产品的工作中经常需要用到数据和对数据进行分析,但在这个过程中其实隐藏着很多陷阱。数据来源、解读人的观点,都有可能造成很大的偏差。这篇文章,作者统计了9个常见且容易操作的数据陷阱,希望能对大家的数据分析工作有所帮助。
数据,正逐渐成为一种重要的生产资料。我们在进行产品开发,运营活动效果复盘,都需要数据辅助决策,而看起来人畜无害的客观数据,却在各种各样的场合,以各种意想不到的情况欺骗大家的眼睛。
下面就让我们一起看下在什么样的场景下,会出现这种情况,我们又如何避免呢?
一、九种数据陷阱
01 数据可视化陷阱
先看下面两组数据:
(1)
(2)
从直观上来说,第二组数据的图形显示比起第一个图的震撼要更大些,或者说,问题似乎‘更严重些’,因为两个柱子的差距比第一个图的差距要小。
而实际上,他们都在描述同一个事实:2023年上半年总营收同比2022年上半年减少200万;
那么,问题出在哪里?
真相只有一个,就是纵坐标的刻度线,第一张图纵坐标的起点是0,而第二张是3200w。
这里图一通过调整坐标轴的刻度,改变数据的视觉效果,从而误导观众对数据的理解。
02 相关性与因果
下图是夏天西瓜的销量与溺亡人数之间的相关关系图,通过计算得知,两者之间的相关系数达到了0.96(等于1为完全相关)。
有人得出结论:夏天游泳溺亡跟西瓜销量有直接关系,应该禁止西瓜销售。
有常识的人一眼就可以看出这是个笑话:夏天天气热,游泳人数多,所以溺亡人数变多,同时,夏天也会带来西瓜销量的提升。
这里为什么会闹出这种令人啼笑皆非的笑话,主要是混淆了相关性和因果性。
相关性与因果关系的混淆:当两个变量之间存在相关性时,不能简单地得出其中一个变量是另一个变量的原因的结论。
同时相关性并不意味着因果关系,因为可能存在其他未知的变量或潜在的混淆因素。在分析数据时,我们需要进行更深入的研究和控制变量,以确定是否存在真正的因果关系。
03 放大有利数据
只看下图,可以得出:我们的销售额稳中有升,形式似乎一片大好:
但是如果我们将今年所有月份的数据取出,结果与我们之前的结论完全相反:销售额随着月份的变化一直在走低,业务部门得想想办法了。
这里是因为一开始的图只放了4-6月销售额有上升的时间段,放大了有利数据,用短期波动代替长期效应。给我们造成了错觉。
放大有利数据:在报告数据时,有可能选择性地呈现某些结果,而忽略其他结果。这种情况下,数据的误导性来自于信息的不完整性或不平衡性。为了避免选择性报告的问题,我们应该全面、客观地呈现数据,或者使用可信的数据来源。
其实在汽车行业就有这种惯例。汽车行业在公布数据时,如果增长的好,一般就说增长率;如果增长的不好,就会提排名;排名还不好的话,就开始说细分市场排名。而且还会把市场细分到几乎只有这款车的范围,这样就可以说自己在细分市场排名前几。
04 样本偏差
大家应该都听过一个段子:过年返乡的列车上,记者向着车厢问到:买到票的朋友请把手举起来!刹那间,车厢里的乘客都将手举了起来,记者激动的播报着:从这里可以看出,群众们乘车难的问题已得到解决,每个人都有火车票!
这里其实是犯了样本偏差的错误,从一个有限的样本中推断总体特征时,样本可能不具有代表性,导致对总体的错误认识。这种情况下,数据的陷阱来自于样本的选择或采集方法。解决这个问题的方法之一是使用随机抽样来确保样本的代表性。
一个实际案例:
某公司要评估某款新产品在市场上的受欢迎程度。他们决定在购物中心进行了一次问卷调查,收集了500份调查问卷。
调查结果显示有80%的受访者对新产品表示喜欢和有意愿购买。基于这个结果,市场调研公司得出结论认为新产品在市场上将受到广泛欢迎,并投入大量资源进行市场推广。
然而,结果显示新产品的销量远不及预期。公司内进行复盘,发现问卷调查可能有问题。
因为,调查问卷仅发放给购物中心的访客,未能涵盖更广泛的消费者群体,包括其他渠道或者不常去购物中心的消费者,他们的观点可能不同。这可能导致市场调研公司过度估计了新产品的市场潜力。
为了避免样本偏差导致结论出错的情况发生,市场调研应该采用多种渠道和方法,以确保样本具有代表性。可以在购物中心之外的其他地方进行调查,或者使用在线调查等方式进行数据收集,以覆盖更广泛的消费者群体。这样可以更全面地了解市场对新产品的态度和需求,并制定更准确的决策。
05 数据口径问题
假设有两个机构A和B,它们都在报告某个国家的失业率。
机构A使用广义定义上的失业率,包括所有正在寻找工作但没有找到的人,并将其与劳动力总数相除。根据机构A的统计数据,失业率为5%。
机构B使用狭义定义上的失业率,仅包括那些正在寻找工作但没有找到的人,并将其与就业人口相除。根据机构B的统计数据,失业率为3%。
由于机构A和机构B使用了不同的统计口径,导致了失业率的差异。机构A的统计方法更加宽泛,包括更多的人群,因此失业率较高。
而机构B的统计方法较为严格,只计算特定群体的失业率,因此失业率较低。
这种差异可能会对政策制定和经济分析产生重要影响。例如,机构A可能会认为需要采取更多的就业刺激措施,而机构B可能会认为就业市场已经相对健康。
这个案例表明,即使数据都是正确的,但是因为数据统计口径不同,进行解释时,结论不一致的情况也会发生。
06 基数问题
(1)某件商品在50%折扣的基础上再打20%折扣,我们容易以为会有70%的折扣。
实际上,折扣只有60%——因为后面20%的折扣实在50%即五折的基础上折算的。
(2)A基金年化收益率对比去年增加了100%!容易让人热血沸腾,下一秒就想梭哈。
实际情况可能是:A基金去年的年化收益率只有1%,今年达到了2%,而同期的银行利率可能高于这个数。
07 样本分布是非正态分布
用平均数掩盖分布。
美国前总统小布什在竞选演讲中曾经说到:我的2003年的减税计划让4000多万美国家庭平均少纳税1586美元,从纯数字角度来看,没有任何问题。但是这里有很强的误导性。
因为财富的分配不服从正态分布,大部分家庭收入不高,减税的额度非常有限,但小部分收入极高的家庭,减税的额度甚至能达到几十万美元,从而拉高了平均数。
实际上,当年减税的中位数是650美元,可以理解为有一半的家庭减税额度都没达到650美元。
08 数据样本不足
“今年经济学院的新来的研究生,有三分之一身高超过一米九,我们学院今年篮球赛夺冠有希望了。”
实际上,今年只录取了三名研究生,其中一个人身高超过了一米九。
这里其实犯了数据样本不足的问题,因为样本不足,用百分比掩盖规模。导致数据解读出误。
09 信息不完整
有这样一则数据:过去几十年,癌症的死亡人数增多。
这个数据结论看起来非常吓人。但实际上忽略了很多其他因素。如:
现在的人数远远超过以前;
由于医学的进步,从前很多死因不明的案例,在现在,都被归到了具体的癌症类别;
因为现代社会的发展,各个易发病的年龄段人数在不断增加;
这里是犯了信息不完整的错误,有时候,我们在分析或所以事物时可能会遗漏某些变化的原因。这可能是因为我们没有获得所有相关数据,或者我们只关注了部分信息而忽略了其他方面。
三、所以
以上,我们通过具体的案例所以了数据误导性的九种常见的类型。分别是:数据可视化陷阱、相关性与因果、放大有利数据、样本偏差、数据口径问题、基数问题、样本分布是非正态分布、数据样本不足、信息不完整。
之后,再遇到别人用数据做出的论断时,建议先对照着上述的九种场景,防止陷入数据陷阱。
最后,多说一句:数据不会说谎,但解读数据的人会。
相关文章:
相关推荐: