警惕这些正在忽悠你的“数据陷阱”
不说谎话就能忽悠人
前段时间,有一篇文章刷屏。
许多人转发到朋友圈,都说看哭了。
后来有人指出文章有猫腻:多处重要信息存在明显编造的嫌疑。
一时间舆论风向大掉头,许多掉过泪的人发现自己被愚弄,也将眼泪转成了脏话。
其实,通过虚构故事来骗人的把戏,都只是初级的骗术。
你信不信有一种骗术不用撒谎,当你被忽悠了都骂不出脏话呢?
今天书单君就带你见识这种骗术,同时告诉你防骗的正确姿势。
先来看一张媒体报道中常见的图:
这是一张普通的方格统计趋势图,纵轴代表机构收入,基本单位是10亿美元,横轴代表月份。
整张图说的是,一整年机构收入不断攀升的趋势。
单从这张图来看,这一年中该机构收入的增长曲线相对平缓,增长幅度不是很大。
这个数据图只能算客观传递信息,达不到振奋人心的效果。
不过书单君要提醒善良的书米:
一般的组织机构如果要展现良好的业绩,多半不会这么实诚!他们往往把一丁点大的成就吹上天,非让你热血沸腾不可。
那要怎么做到这点呢?难道要篡改数据吗?(某些机构真这么干!)
其实真不用,只需要改变数据呈现的方式。
我们再来看下面这张趋势图:
细心如你,这张图是上一张图的“截图”,只是把下面从0-18的方格裁掉了。
数据不变,单位也不变,但增长曲线放大了,让你更加直观地感受到了“增长”。
所以此时发布者可能会这样说“××机构今年的业绩竟然增长了10%”,而不是说“仅仅增长了10%”。
好吧,这张图虽然加强了效果,但还是不够刺激。
那我们再来看下面这张图:
数据不变,只是纵轴的刻度缩小到原来的十分之一。
但增长曲线,一下子从原来平缓的山坡变成了陡峭的悬崖。
收入增长曲线,已经不像收入增长了,而像心脏突然受到惊吓的血压曲线。
10%的增长幅度,看起来像100%的增长。
此时,发布者可能会配上这样的标题:
××机构一整年的收入攀升了惊人的10个百分点!!
这就是所谓的客观性幻觉:
不说一句谎话,不篡改一个数据,却能达到忽悠人的效果,同时让你无法指责。
书单君呈现的这个案例,来自达莱尔·哈夫的著作《统计数据会说谎:让你远离数据陷阱》。
这是一本妙趣横生的书,读完之后书单君感觉收获太多了。
现代社会崇尚数目字管理,乃至于所有重大的政经决策,都依赖各种各样的数据。
但达莱尔·哈夫告诉我们:
统计数据具有迷人的欺骗性,想依靠数据指导决策,首先要学会识别数据陷阱。
像上面提到的案例,你以为是作者虚构出来吓人的吗?
真不是,这在我们的日常生活中几乎无处不在。
书里收入了美国杂志曾经刊登过的真实案例:
美国某地政府年支出从1950万美元上升到了2000万美元。
左边的统计图的标题叫:政府支出急剧上升。
右边的统计图是杂志编辑自己画的,意在讽刺前一张图的夸张,标题是:
政府支出保持稳定。
两张图数据相同,仅仅改变了呈现方式,传递出的意思却完全相反。
假如你相信前者,就会主张削减政府支出。
所以怎么呈现数据,往往能引导出不一样的公共政策。
是不是觉得有点可怕?
不过,这样的伎俩只是开胃菜,接下来书单君带你见识更多的数据骗局。
没来由的数据会扯淡
几乎每天,我们都会接受到大量的数据,平均数是最常见的一种。
比如平均工资,平均家庭收入,平均结婚年龄,平均房价等等。
但平均这种数据,也是个任人打扮的小姑娘。
最明显的体验是,媒体经常公布某地的平均年收入,可你摸摸口袋,发现自己又拖后腿了。
举个例子,你去买房子,销售向你吹嘘这个小区有多高档,住的都是高收入人群,平均月收入都在万元以上。
先不计较这种数据是如何来的,就算他说的是真的,也存在一种可能:
小区里有少数富人月收入在十万或百万以上,95%以上的住户月收入可能都在5千以下。
实际上这不是一种微小的可能,而是大概率的事情。
因为市场环境中,收入经常是少数人占有大头的偏态分布。
下面这个例子,会让你更加清晰地认识平均数的迷惑性:
假设你是一家公司的3个合伙人之一,这一年你们公司收入还可以。
截止到年底,你给公司里90名员工一共发了99万元的工资。
你们三个合伙人,每人获得了5万5千元工资。
最后还剩余21万元的利润,你们三个合伙人平分了。
这样算下来:
普通员工的平均工资是:1万1千元。
你们三个合伙人的平均工资和利润是:12万5千元。
如果这样对外公布的话,看起来显然不太公平。
所以你准备换一种方式对外公布公司的收入情况。
操作方法如下:
你从利润中拿出15万,以奖金的形式平分给包括你在内的3个合伙人。
同时,你把合伙人和普通员工放在一起算平均工资。
于是对外公布的结果变成:
公司所有人员的平均薪资是:14030元。
合伙人的平均利润是:20000元。
如此一来,数据就“好看”多了。
其实这都是公司会计中最简单的操作手法,但它足以说明:
如果有人给你一个平均数,试图说服你干什么,你必须问清楚它是怎么算出来的。
收入数据里的把戏,还有很多。
最常见的可能要算招聘广告里声称的工资,似乎永远都不是真实的到手工资。
一个声称月薪2万的工作,无需作假,只需利用各种操作(比如加大奖金变动的幅度等),就能让你到手只有1万,这实在是太简单了。
扯淡的数据,平常的日常生活里也不少。
比如我们经常会在广告中见到一些数据:
××洗手液能够消灭99%的细菌,抑菌效果长达12个小时。
还有一些数据:
×知名大学科学研究表明,××加氟牙膏儿童防蛀牙率达49%。
电视上播出广告时,画面往往都有些穿着白大褂的科学家,看起来特别严谨。
而且因为在电视上公开播出,也会让你觉得厂商不敢乱造假。
但这些数据大多都相当扯淡。
其中的奥秘,藏在得出这些数据的样本之中。
达莱尔·哈夫在书中举了一个报纸广告的例子:
美国一款叫多克斯(Doakes)牌的牙膏在广告中声称,用户反映使用该牙膏使蛀牙减少了23%。
厂商声称,这个数据来自一个信誉良好的“独立”实验室的调查,并且经过了注册会计师的证实。
如果你的阅读仅止于此,一定觉得这款牙膏还不错。
但接下来的一行小字暴露了所有秘密:被测试的用户由12人组成。
一款面向无数公众销售的牙膏,却只调查了12人?
其实,如此小的样本得出任何想要的结论,都不难。
具体操作过程如下:
将一组规模不大的人组织起来做实验,连续6个月记录蛀牙数,接着使用多克斯牙膏,之后的结果无非就三种:
蛀牙明显增多,蛀牙明显减少,蛀牙没有明显变化。
如果实验得出是第一种或第三种结果,那就不要存档,重新实验,直到第二种结果出现,就存档录音录像,然后请人公证。
事实是,不管使用的是多克斯还是少克斯,又或者没有使用任何牙膏,因为样本太小,上面任何一种结果总会有机会出现。
多克斯这家厂商还算比较实诚,标出了样本数量,更多的厂商根本就不会告诉你样本数量和来源。
我们都知道抛硬币,如果你用同样的力道连续抛10000次或者哪怕1000次以上,硬币正反面的概率应该是相同的,那就是50%的正面和50%的反面。
可如果样本数量太小,比如你仅仅抛10次呢?
那出现的结果,就可能偏离50%和50%的概率,比如可能出现8次正面2次反面的结果。
而这个结果恰恰是你需要的,你就录下来存档,将来据此做成宣传语(假如真有需要的话):
本厂生产的硬币正面出现的概率高达80%。
其他不利的结果你假装没见过,或不存档就行了,反正就算有人深究,你也有“证据”。
其实任何一个孤零零的调查数据,无论它由哪个实验室得出,也无论它是平均数还是百分比,都没有实质意义的,除非你知道它是怎么来的。
怎么识别数据陷阱
达莱尔·哈夫把自己比喻成指导剑术的海盗。
他在书中告诉我们,面对任何数据,都需要问以下5个问题:
Q1:“谁说的?”
大多数骗人的数据,总是免不了被安上一个权威来源,比如据××研究室、大学调查研究,或某某学界“权威人士”。
但有些就是蹭名号而已。
比如最近的“阿里离职女高管”就是典型,利用的是外界对企业内部职级的陌生。
比如,一些大学学报的编辑,也会自称是某某大学研究人员。
那种国外的一年制硕士,也说是留学深造了。
还有些数据,直接写“一项调查研究表明”,不深究可能极不靠谱。
还有一些更狡猾。
比如,康奈尔大学曾经做过一项调查,数据涉及女孩的学历和成婚几率。
康奈尔大学仅仅提供了一个数据,但没有得出任何结论。
别有用心之人却根据自己的臆想加以解释:
康奈尔大学的调查表明:高学历将危及成婚几率。
Q2:“他是如何知道的?”
统计数据,一般是通过抽样调查所得。
但样本太小或抽样方式不对,调查结果就会出现严重偏差。
比如,在下班途中做随机调查,平时不上班的人就调查不到。
去富人区调查平均收入,那所得平均收入肯定比实际的要高。
再比如金赛的性学报告,也曾经引起很大的争议。
原因是,像性这种私密之事,一般人不好意思开口向外人讲述,愿意讲述的本身就相对开放。
所以,当金赛说某种性行为比较普遍时,可能并不意味着社会真的开放了。
Q3:“遗漏了什么?”
许多统计数据之所以出现谬误,有时并不是人们有意为之,往往是调查者遗漏了一些关键变量。
比如,有个读者给《纽约客》来信:
卫生部最新数据表明,大雾一周内,伦敦市郊死亡人数猛增到2800人,大自然的恩赐成了致命的武器。
其实这个数据没有太大意义。
因为我们不知道大雾之前的一周,伦敦市郊的死亡人数是多少,将来一周又是什么情况,去年同期是什么情况。
光看这个数据会带来“猛增”的感觉,但细究却好像什么也没说。
再比如,针对约翰·霍普金斯大学开始招收女生一事,一个不赞成男女混校的人做了一个危言耸听的报道:
约翰·霍普金斯大学三分之一的女生嫁给了大学老师。
但真相是,整个大学当时一共就招收了3名女生,其中1名嫁给了老师。
你能说他造假吗?他只是刻意不告诉你事实真相而已。
所以达莱尔·哈夫说:
如果我们不考察统计数据的基础,统计不仅是一门科学,还是一门艺术。
Q4:“是否有人偷换了概念?”
考察一个数据的准确性,弄清楚概念边界非常重要。
有一些数据,会因为概念的范围扩大或缩小了而引起误解。
比如过去有报告说,最近25年癌症死亡人数增多了。
其实那是因为过去许多“病因不明”的死亡,在科技进步之后,人们作出了更加确切的诊断,认识到那是因为癌症而死亡。
某年,美国加利福尼亚州有份报告说,今年是脑炎患者历史最高水平。
但真相是,当年联邦和州增加了许多医务工作者,他们记录了以前未被记录在案的低年龄案例。
另外,媒体如果一段时间集中报道某类恶性案件,也会造成此类案件集中爆发的假象。
其实这是误把媒体集中报道,当成了真实的案件发生概率。
最厉害的偷换概念,要数将“相关关系”误解成“因果关系”。
比如一家杂志的社论声称,随着工厂用电马力上升,平均每小时工资会上升,同时每周平均工作时间也会减少。
其实这几种事情只是具有相同的趋势而已,并没有证据证明他们谁是谁的原因。
Q5:“这个资料有意义吗?”
有一款秘制感冒药的广告声称:
在11秒内仅仅半盎司的药剂量就杀死了试管中31108个细菌。
第一眼看这个实验结果,你可能会说:哇,真厉害啊。
但仔细分析就会发现问题:这样的数据跟治疗感冒有关系吗?
首先,在试管中杀死细菌和在喉咙里杀死细菌不是一回事。
另外,杀死了什么细菌呢?跟具体的感冒有关吗?这31108个细菌算是多还是少呢?
都不确定。
所以,这只是在利用统计数据“表演”,实际没有任何意义。
还有许多趋势预测性的数据,也常常出现严重的偏差,变成一堆毫无意义的资料。
比如过去一些人口专家预测,随着二胎放开,我国新生人口数量会爆发式增长。
但实际情况却出现严重的预测偏差,新生人口并没有预测得那么多
这种预测主要毛病,是它暗含着“其他所有条件都相同”以及“现有趋势将继续下去”的前提。
但实际上条件总是在变化的,未来会出现什么新条件我们也无法预料。
预测性数据,几乎总是刻舟求剑。
以上,就是达莱尔·哈夫告诉我们识别统计数据陷阱的方法。
最后,书单君想补充的是:
虽然达莱尔·哈夫告诉我们警惕统计数据的骗局,但他并没有让我们因噎废食从此摒弃统计数据。
现代社会,数目字管理的特征不会改变,只会越发强化。
可以说,今天和未来的我们,都是生活在数据之网的动物。
只是,你得学会做数据之网上的蜘蛛,而不是被网粘住而束手待毙的小飞蛾。
作者 | 左页 编辑 | 黑羊
图源 | 《生活大爆炸》、视觉中国
相关文章:
相关推荐: