机器学习(Machine Learning)浅析
1、概念及定义 机器学习是计算机科学领域中的一个领域,现有的数据被用来预测或响应未来的数据。它与模式识别、计算统计、人工智能等领域有着密切的联系。机器学习可以使用机器(计算机和软件)从已知数据中挖掘意义,从而给机器付予学习环境的能力。

3、机器学习的要素(1)数据 这是机器学习的基础,可以由人们收集来自网络或者传感器的数据,然后系统对其进行学习,使用这些参数来识别参数或训练系统。数据可以由传感器,如雷达或照相机进行收集,也可以是民意调查数据、股票市场价格、会计分类帐数据等。或其他任何手段收集的数据。机器学习是将测量转化为将来操作的参数的过程(2)模型 它是学习提供了一个数学框架,可以通过人类的观察和经验,然后推导出来。(3)机器学习方法1)Supervised Learning 监督学习意味着特定的训练数据集被应用到系统中,训练是基于已采集到的训练集。如卡拉OK的打分,如果收集的数据,皆来自通俗唱法,则名族唱法的歌手不一定能够获得高分。2)Unsupervised Learning 无监督学习不需要利用已有的先验知识,而是自己根据搜集的数据进行聚类,从而在测量数据中发现隐藏的未知特征。例如,如果使用无监督学习来训练面部识别系统,那么系统可能会将数据集进行分类。3)Semisupervised Learning 使用半监督的方法,介于监督学习和非监督学习。通常只有少量的输入数据被标记,而大多数没有。4)Online Learning 系统不断更新数据,也可以被称为“递归学习”。比如垃圾邮件过滤系统就利用了在线学习的方式。
4、(4)机器学习的分类(1)控制:比较初级的机器学习方式,反馈控制用于补偿系统中的不确定性。控制中的学习发生在自适应控制系统中,也发生在系统辨识的一般领域。(2)人工智能:机器学习来源于人工智能,人工智能目的是使机器“像人一样思考”,但实际中应用的一些推理方法与人类推理是不一样的。(3)机器学习:被许多人认为是真正的“机器学习”,从自统计和优化的过程中产生。学习过程可以在递归过程中连续进行。例如,根据多年的股票购买数据,可以预测其趋势,但某年发生了金融危机,这个模型就会有问题。于是,递归程序将不断地合并新的数据。模式识别和数据挖掘属于这一范畴。
5、(5)机器学习的常用方法(1)回归 回归是将数据拟合到模型的一种方法。模型可以是多维度的曲线。回归过程将数据拟合到曲线,产生可用于预测未来数据的模型。可采用线性回归或最小二乘法等方法。下图给出的例子,是基于y=x函数,在y线上加入噪声,利用MATLAB的pinv伪逆函数进行最小二乘拟合。

7、(3)支持向量机 婧旱恐笆支持向量机(SVM)是有监督的学习模型,用相关的学习算法,分析用于分类和回归分析的数据。SVM训练算法建立一个模型,将实例分配到类别中。SVM的目标是基于训练数据产生预测目标值的模型。 在SVMs中,利用核函数对高维特征空间中的输入数据进行非线性映射。在该特征空间中,生成分离超平面,这是分类问题的解决方案。核函数可以是多项式、S函数和径向基函数。仅需要训练数据的子集;这些被称为支持向量。训练是通过求解一个二次规划来完成的,它可以用许多数值软件程序来完成。(4)决策树 决策树是用于决策的树状图。包括三类节点:决策节点、机会节点、末端节点。决策树易于理解和解释,其决策过程是完全透明的。其应用中的困难,是找到一组训练数据的最优决策树。 决策树有两类:产生分类输出的分类树和产生数值输出的回归树。下图中显示了一个分类树的例子,可以帮助员工决定去哪里吃午饭。(5)专家系统
