路由器厂家
免费服务热线

Free service

hotline

010-00000000
路由器厂家
热门搜索:
行业资讯
当前位置:首页 > 行业资讯

大数据也会说谎问题出在模型上

发布时间:2020-07-21 18:12:29 阅读: 来源:路由器厂家

早在中学阶段,统计学就告诉我们一个事实:数据是不会说谎的,大量的统计数据经过整理建模,可以最直观地反映真实的情况。近几年来,大数据技术在各领域取得的成功也为这一事实提供了最佳的佐证。不过,最近普林斯顿大学和社交软件老大facebook之间的互掐事件,也说明了另一个事实:数据分析有时候也是会出问题的。

普林斯顿奇怪研究惹毛facebook

上个月底,美国普林斯顿大学发表了一篇十分有料的研究报告,报告上称,按照普林斯顿研究人员的统计和计算,目前的社交网站龙头老大facebook在三年内将会流失百分之八十的用户,面临关门大吉的境地。这份报告写得十分正式,一点也不像恶搞的玩笑,经过各大媒体的疯狂转载,facebook终于怒了,几天之后facebook的数据科学家们也发表了一份研究报告,用和普林斯顿研究员一样的数学模型和数据获取渠道,得到了更耸人听闻的分析结果:普林斯顿大学学生将在2018年减少一半,到2021年将失去所有学生。

很明显,facebook和普林斯顿的互掐在业界已经成了一个段子,他们的分析结果显然都是不靠谱的,但是他们所用的方法,却是实实在在的大数据技术和严谨的数学模型,难道,数据真的会说谎吗?

分析算法和数据渠道选用不当,数据确实会说谎

之所以普林斯顿和facebook的研究报告会得出那样离谱的结果,主要原因在于他们获取数据的渠道以及分析数据所用的算法模型不当,在数据分析中,只要这两个东西错了,数据一定会“说谎”。

研究报告中,普林斯顿和facebook用于分析对方的模型都是“流行病学模型”,这个模型一般被用于预测某种传染性疾病从爆发到消失的时间及规模,初步看来,普林斯顿大学和facebook的使用人群都符合“未感染”、“感染中”、“已痊愈”的三类划分,与流行病模型确实有相似之处,但仔细一想却经不起推敲,因为流行病会受到药物及人体自身免疫系统的抵抗而消失,但facebook和普林斯顿大学却不会,相反,社交软件和高等学府是人们需要的东西。

除了分析模型选用错误,普林斯顿大学在获取数据的渠道上,也存在选择不当的问题,研究人员在统计facebook的使用度时,依靠的是谷歌上“facebook”词条的搜索数量,并且由“facebook”词条的搜索频率越来越低就判断出facebook正在流失用户,这是非常武断的。因为随着移动技术的发展,越来越多的人会通过客户端而不是网页来登录facebook,在这种趋势下,谷歌上“fcebook”词条的搜索频率必然会越来越低,但这并不代表它的用户数量也在减少。

普林斯顿和facebook的段子我们可以一笑而过,在数据分析时,准确选用分析模型及数据来源的重要性由此也可见一斑,不然数据真说起谎来,可是一点也不好笑。

来源:物联中国 作者:张轩

南京隆胸价格

南昌牙齿矫正

哈尔滨牙齿矫正医院