数据分析行业之机器学习与挖掘应用
机器学习和数据挖掘技术还是很多交叉学科的重要支撑技术。例如,生物信息学是一个新兴的交叉学科,它试图利用信息科学技术来研究从DNA到基因、基因表 达、蛋白质、基因电路、细胞、生理表现等一系列环节上的现象和规律。随着人类基因组计划的实施,以及基因药物的美好前景,生物信息学得到了蓬勃发展。
机器学习和数据挖掘技术还是很多交叉学科的重要支撑技术。例如,生物信息学是一个新兴的交叉学科,它试图利用信息科学技术来研究从DNA到基因、基因表 达、蛋白质、基因电路、细胞、生理表现等一系列环节上的现象和规律。随着人类基因组计划的实施,以及基因药物的美好前景,生物信息学得到了蓬勃发展。实际 上,从信息科学技术的角度来看,生物信息学的研究是一个从“数据”到“发现”的过程,这中间包括数据获取、数据管理、数据分析、仿真实验等环节,而“数据分析”这个环节正是机器学习和数据挖掘技术的舞台。
机器学习和数据挖掘技术和普通人的生活也息息相关。例如,在天气预报、地震预警、环境污染检测等方面,有效地利用机器学习 和数据挖掘技术对卫星传递回来的大量数据进行分析,是提高预报、预警、检测准确性的重要途径;在商业营销中,对利用条形码技术获得的销售数据进行分析,不 仅可以帮助商家优化进货、库存,还可以对用户行为进行分析以设计有针对性的营销策略;公路交通事故是人类面临的最大杀手之一,全世界每年有上百万人丧生车轮,仅我国每年就有约10万人死于车祸。美国一直在对自动驾驶车辆进行研究,因为自动 驾驶车辆不仅在军事上有重要意义,还对减少因酒后、疲劳而引起的车祸有重要作用。2004年3月,在美国DARPA(国防部先进研究计划局)组织的自动驾 驶车辆竞赛中,斯坦福大学的参赛车在完全无人控制的情况下,成功地在6小时53分钟内走完了132英里(约212公里)的路程,获得了冠军。比赛路段是在 内华达州西南部的山区和沙漠中,路况相当复杂,有的地方路面只有几米宽,一边是山岩,另一边是百尺深沟,即使有丰富驾驶经验的司机,在这样的路段上行车也 是一个巨大的挑战。这一结果显示出自动驾驶车辆已经不再是一个梦想,可能在不久的将来就会走进普通人的生活。值得一提的是,斯坦福大学参赛队正是由一位机 器学习专家所领导的,而获胜车辆也大量使用了机器学习和数据挖掘技术。
机器学习之所以备受瞩目,主要是因为它已成为智能数据分析技术的创新源之一。但是机器学习还有一个不可忽视的功能,就是通过建立一些关于学习的 计算模型来帮助人们了解“人类如何学习”。例如,P. Kanerva在20世纪80年代中期提出SDM(Sparse Distributed Memory)模型时并没有刻意模仿人脑生理结构,但后来的研究发现,SDM的工作机制非常接近于人类小脑,这为理解小脑的某些功能提供了帮助。自然科学 研究的驱动力归结起来无非是人类对宇宙本源、物质本性、生命本质、自我本识的好奇,而“人类如何学习”无疑是一个有关自我本识的重大问题。从这个意义上 说,机器学习不仅在信息科学中占有重要地位,还有一定的自然科学色彩。与此不同,数据挖掘则是一个直接为实际应用而生的学科领域。20世纪60年 代,早期的数据库问世,人们开始利用计算机对数据进行管理;到了70年代之后,随着关系数据库的出现和发展,人们管理数据的能力越来越强,收集存储的数据 也越来越多。如果只利用数据库进行一些简单的事务处理,显然没有对数据进行充分的利用,从数据中挖掘出有用的知识,才可以更好地实现数据的价值。