机器学习的范围
机器学习与模式识别、统计学习、数据挖掘、计算机视觉、语音识别、自然语言处理等领域有着密切的联系。接下来简单介绍一下机器学习的范围。
机器学习的范围
模式识别
模式识别=机器学习。两者的主要区别在于,前者是从工业界发展而来的概念,而后者则主要来源于计算机科学。Christopher M.Bishop在著名的《Pattern Recognition And Machine Learning》书中开头说,“模式识别源自工业界,而机器学习来自于计算机学科。不过,它们中的活动可以被视为同一个领域的两个方面,同时在过去的10年间,它们都有了长足的发展”。
数据挖掘
数据挖掘=机器学习+数据库。这几年数据挖掘的概念被广泛宣传,几乎等同于炒作。任何谈及数据挖掘的人都会吹嘘数据挖掘是怎样的。数据挖掘只是一种思维方式,告诉我们应该尝试从数据中挖掘知识,但不是每个数据都能挖到金子,所以不要神话它。一个系统永远不会因为一个数据挖掘模块而变得无所不能(这是IBM喜欢吹嘘的),相反,一个有数据挖掘思维的人是关键,他还必须对数据有深刻的理解。通过这种方式,可以从数据中推导出模式来指导业务改进。数据挖掘中的大部分算法都是对数据库中机器学习算法的优化。
统计学习
统计学习近似于机器学习。统计学习是一门与机器学习高度重叠的学科。因为机器学习中的大部分方法都来自于统计学,甚至可以认为统计学的发展促进了机器学习的繁荣。例如,众所周知的支持向量机算法就是从统计中推导出来的。但是,两者在某种程度上是有区别的。区别在于:统计学习者专注于统计模型的开发和优化,偏向于数学,而机器学习者更关注解决问题和偏实践,所以机器学习研究人员会专注于提高模型的效率和准确性。
计算机视觉
计算机视觉=图像处理和机器学习。图像处理技术用于将图像处理成适合进入机器学习模型的输入,机器学习负责从图像中识别相关模式。与计算机视觉相关的应用有很多,如百度识图、手写字符识别、车牌识别等应用。该领域具有非常热门的应用前景,也是一个热门的研究方向。随着深度学习在机器学习新领域的发展,计算机图像识别的效果得到了极大的提升。因此,计算机视觉行业未来的发展前景不可估量。
语音识别
语音识别=语音处理+机器学习。语音识别就是音频处理技术与机器学习的结合。语音识别技术一般不会单独使用,一般会结合自然语言处理的相关技术。目前的相关应用有苹果的语音助手siri等。
自然语言处理
自然语言处理=文本处理+机器学习。自然语言处理技术主要是让机器理解人类语言的领域。在自然语言处理技术中,大量使用了与编译原理相关的技术,如词法分析、语法分析等。此外,在理解层面,还使用了语义理解、机器学习等技术。作为人类创造的唯一符号,自然语言处理一直是机器学习界不断研究的方向。百度机器学习专家余凯表示“听与看,说白了就是阿猫和阿狗都会的,而只有语言才是人类独有的”。如何利用机器学习技术深入理解自然语言,一直是工业界和学术界关注的焦点。