Intel研究院院长吴甘沙:基础设施已经改朝换代,大数据分析师的卓越之道

-回复 -浏览
楼主 2021-04-22 08:31:23
举报 只看此人 收藏本贴 楼主
数据分析认证cda

编者按:9月11日—9月12日,由经管之家(人大经济论坛)主办的“2015中国数据分析师行业峰会(CDA•Summit)”在北京举行。本文是英特尔中国研究院院长兼首席工程师吴甘沙在峰会上的演讲全文,吴甘沙演讲的主题是“大数据分析师的卓越之道”。他讲道,基础设施已经改朝换代了,我们分析师也应该与时俱进,体现在三个:一个使思维方式要改变,我们技术要提升,第三,我们分析的能力要丰富起来。以下为吴甘沙演讲全文:




亲爱的各位同仁,各位同学,早上好。大家可能还有些纳闷,本来是吴恩达老师讲人工智能,怎么换吴甘沙讲。几个月前我刚刚跟吴老师在硅谷聊了一两个小时,早知道今天这样我多向他请教一下人工智能,现在还是讲一下我擅长的大数据。讲到大数据,就要问数据分析师应该做什么?所以我今天的标题是大数据分析师的卓越之道。这里不一定讲的对,讲的对的我也不一定懂,所以请大家以批评式的方式去理解。




这是一个典型的数据分析的场景,下面是基础设施,数据采集、存储到处理,左边是数据处理,右边价值输出。连接数据和价值之间的就是这知识发现,用专业词汇讲,知识就是模型,知识发现就是建模和学习的过程。问题来了,进入到大数据的时代,这有什么变化呢?首先对数据变的非常大,大家就开始说了,数据是新的原材料,是资产,是石油,是货币,所以大家的希望值也非常高,这个价值也希望抬的非常高。但是一旦大数据洪流过来,我们原有基础设施都被冲的七零八落。所以过去十几年事实上业界都在做大数据基础设施,我怎么做大规模水平扩展,数据密集了怎么提高分布式操作性能,怎么把磁盘山村化,我们就有闪存内存化,我们最近从密集型又到计算密集型。所有这些都是基础设施。


现在大家想基础设施升级了,我只是知识发现的过程是不是能自然升级?我跟大家说天下没有免费的午餐。所以我想今天的主题是基础设施已经改朝换代了,我们分析师也应该与时俱进,体现在三个:一个使思维方式要改变,我们技术要提升,第三,我们分析的能力要丰富起来。


首先,说一下思维方式。说改变思维方式最重要的就是改变世界观,这个就是牛顿机械论世界。我们曾经听说过一个叫拉夫拉丝恶魔的说法。也就是说,我如果在这个时刻与宇宙当中所有的原子的状态都是可确定的话,就可以推知过去任何一个时刻和未来任何一个时刻,这就是牛顿的机械论。所谓爱因斯坦发展了这个物理学,但是还是确定论,决定论,上帝不掷色子。但是今天的世界事实上是什么样的?我们这个是说牛顿世界观,就是确定论。事实上今天是不确定的,基于概率的世界观。大家都看过所谓的(薛定论)的猫的思维的实验。这个猫在盒子里到底是死还是活的,其实它可能同时是死的,也同时是活的。但是一旦打开这个盒子,它就变成确定了,它要么就是真的变成死的,要么就是真的变成活的。也就是由我们现在所谓的好奇心害死猫,就是你打开盒子有一半的概率把这个猫杀死。




这个理念事实上反映的就是海森堡的不确定主义,就是你的行为会改变被观测的现象,在大数据事实上也有测不准的,像Google流感的预测,这是大家经常作为数据分析的经典案例,具体细节不跟大家讲了,大家可以看在2013年1月份的阶段,橙色的线,Google预计高于疾控中心它实际测到的流感的概率。所以科学和自然就发话了,自然是科学测不准,科学说这是大数据的傲慢。在这个案例来,即使Google也拿不到全量的数据,你虽然有疾控中心的数据和当中调整模型等等的,但是还是不精确,你以为这种相关性就能解决问题,但是健康的问题就是要究其原因,要有因果性。大家看这个预测的过量就导致了预感疫苗准备的过量。




所以我们看数据的方法论我们需要升级。这是一个典型的数据分析的流程,可以先由假设采集数据,也可以先采集了数据,然后从中发现假设。有了数据以后下一步就要做数据的准备,数据准备往往是最花时间的。然后分析,分析完了要考虑怎么解释这个结果,大家知道做机器学习有两种:一种是给机器看的,比如说我精准营销;还有一种机器学习是给人看的,是要有可解释性。有时候为了可解释性甚至愿意牺牲精确性。大家知道Ficle,它就是理论参数,非常简单,可解释性非常强。另外一个就是要验证,从我们传统说的随机对照实验到现在AB测试,我们要去验证。但是到了大数据时代这个方法论要怎么改变呢,首先我们说测不准,还有不要相信看到的任何事,所以需要加一个反馈循环,我们不停的反复做这个。这里虽然有很多噪声,但是这个是可以处理的,还有一些是系统噪声,可能因为污染的数据源,这个就要特别处理。我们要数据分析需要实时、交互、要快,这样才能赶得及世界的变化,所以这里需要很多很多的东西。


我现在一个一个跟大家分析一下。首先看假设。我们现在说大数据思维是说我们先有很多数据,然后通过机械的方法发现其中的相关性,之后再找到假设。有时候相关性确实太多了,弱水三千只取一瓢饮,这里面就需要我们的直觉。所谓的直觉就是不直觉,但是在潜意识里在发生推理。所以我一直强调要怎么训练直觉?就是读,像悬疑小说,你经历这么一个推理的过程。如果说这样的推理过程只是模型,也还需要数据,需要很多先验的知识。这个知识怎么来呢?就是广泛的阅读。第二个,跨界思想的碰撞,跟很多人聊。这两个是背景知识,还有一个前景知识,就是在这么上下游里融入到业务部门。现在我们企业的数据分析的组织,我们希望把数据分析师放到业务部门,和它们融入到一起,这才能防止数据和分析脱钩,这样才能防止数据分析和业务应用的脱节。


第二个,数据采集,这里我非常夸张的是数据!数据!数据!为什么?因为大数据碰到的第一个问题就是数据饥渴症。我们有一次跟阿里聊,它们说也缺数据,因为它们只有网上的销售记录,而缺乏无线的数据。所以我们强调全量数据,我们尽量不采样。


我要推荐

转发到

友情链接