沈志勇
百度研究院大数据实验室数据科学家。负责基于大数据的预测等应用方向。联合国百度大数据联合实验室决策委员会成员。曾任惠普中国研究院研究员。本科毕业于北大数学学院概率统计专业,随后于中科院软件所获得博士学位,研究方向为数据挖掘,研究领域包括机器学习与数据挖掘。
从问答到预测 大数据要关注明天
沈志勇和他的团队基于机器学习,近期主要关注预测的事情。因为预测可以作为决策和计划的依据。比如我明天想要出游,那我会看看明天的天气预报,来参考明天要不要出去,是在室内玩,还是去室外玩。又或者如果一个人能知道明天的股票价格,那他就能因为比别人有更多的信息优势而获益。
百度研究院预测的内容,大致可分为定性和定量两种。如果还是拿之前的例子,那么定量就是股票价格,定性就是明天的天气情况。
在大数据预测的方法层面,百度研究院用的最核心最多的方法是时序分析。百度目前推出的旅游预测就是根据时序 分析来进行预测的。
在谈及百度旅游预测时,沈志勇分享过一个小故事:在测试百度语音助手的初期,它可以回答很多问题,但是有一天,百度技术人员发现它回答不了诸如“明天故宫有多少人”这种问题。尴尬之余,百度的技术人员意识到不能只看今天,要看明天的情况,所以就有了旅游预测。
除了时序分析,因果相关分析和模拟分析也是在大数据预测时常用的方法。因果是比相关性更强的参考,而模拟可以直接演绎将来的情况。
时势造英雄 机遇与挑战并存的大数据时代
百度是国内最早进行大数据技术研究的公司之一。百度研究院专门成立了大数据实验室BDL,由世界机器学习顶级学者张潼教授领衔。沈志勇表示,自己所在的BDL部门正为百度大数据引擎,尤其是其中的百度大脑部分做一些大数据相关的工作。“百度天生就是一个大数据公司,大数据技术之于百度就像空气,如果没有大数据技术,百度根本难以运转。现在业界很多公司都需要大数据,可是自己又做不了,所以我们想把大数据技术拿出来推动整个行业的发展。”
大数据这个词目前非常火,火的甚至有点意外。由于大数据如此受关注,所以每个人看它的角度都会不一样。决定这个角度的往往是自己的知识背景。目前业内很喜欢把大数据和云计算联系到一起,不过沈志勇和他的团队主要关注的是在大数据上的机器学习。
沈志勇认为,当下是一个机遇与挑战并存的时代,大数据使整个社会都有了数据意识。现在大家都知道怎么样采集和记录,把数据都写下来或通过各种各样的方式记下来。这是好事,对机器学习来讲有了更加广阔的数据源,对于算法来讲也可以有更多的数据。可是,数据越来越多就会引发数据处理的问题,多元数据往往会带来很多问题,这就是挑战。
“幸运的是在整个过程中,别的技术也在发展。随着我们计算能力的拓展,模型学习理论的发展,我们可以处理或者学习很多复杂的模型。这说明很多条件都已经成熟了,形成了一个时势造英雄的态势。”沈志勇表示。
“如果是一个有经验的人,比如说一个语文名师怎么做这件事情,首先需要接触过大量的优秀的作文范文。其次,要预测今年的作文题目,他要把握一下时代的脉搏。而我们要做的就是模拟这个思考过程,即在对高中生作文范文集这个语料库上做一些归纳性建模,比如说,主题模型。我们把把学到的模型与时事趋势相结合,就能预测出大概方向。”沈志勇说。
最后沈志勇老师对此次分享做了总结,他认为预测只是百度研究院大数据实验室的入手点,他们最终会利用大数据作出一个在线智能系统,帮助模拟人的分析决策过程。