机器学习在数据挖掘中的应用分析

2022-09-10

在现代人的日常生活和生产活动当中, 经常能看到人工智能的身影, 它给人类活动带来了便利, 促进了社会发展。将机器学习应用在数据挖掘工作中, 已经成为了大数据时代的一种必然发展趋势。怎样对其形成更高效的利用, 值得我们更为深入的研究与探索。

一、数据挖掘

数据挖掘 (可缩写为DM) 是从大量不完全、模糊、有噪声且随机的实际数据当中, 提取出隐含在其中的有用信息或知识。它属于一种对商业信息进行处理的全新技术, 主要特点在于针对数据库当中海量业务数据加以抽取、转化、分析以及模式化处理, 继而在其中提取出能够对商业决策形成良好辅助的关键知识。主要分为两类: (1) 直接数据挖掘。其目标在于对可用数据加以利用, 构建模型, 而该模型针对剩余数据以特定变量的形式进行描述。分类、估值以及语言便属于直接数据挖掘的范畴。 (2) 间接数据挖掘。其目标当中并不能选择出具体变量, 从而利用模型加以描述, 在全部变量当中对某种关系进行建立。聚集、描述与可视化以及复杂数据类型的挖掘属于间接数据挖掘。

二、机器学习

机器学习属于一门多领域性与交叉性学科, 其主要涉及统计学、概率论、凸分析以及逼近轮等多种学科。机器学习是专门对计算机怎样去模拟或者实现人类学习行为所发展出的研究型学科, 经过对新知识或者技能的不断获取, 对已有知识结构进行重新组织, 继而对自身加以优化。机器学习是人工智能中的核心领域之一, 是让计算机实现智能化发展的重要途径, 它涉及到人工智能相关的各个领域, 其主要是一种归纳与综合的过程, 并不适演绎。对学习系统的设计过程形成影响最为主要的因素为环境向系统所供给的信息, 也就是信息质量。知识库当中所存放的是对执行部分动作形成指导的一般原则, 不过环境给学习系统所提供的信息则是多种多样的。若信息质量较高, 跟一般规则之间差别较小, 学习部分则相对更加容易处理。而如果信息质量较低, 显得杂乱无章, 那么学习系统在获取充足数据之后, 需要将其中一些不必要的细节删除, 然后再进行总结与推广, 最终形成一般原则融入知识库。这个过程十分复杂, 进行设计的过程也显得比较困难。

三、数据挖掘中对机器学习的应用

因为数据挖掘属于一种复杂性较强的迭代过程, 需要在数据集当中不断的进行循环处理, 最终获得有意义的模式或者知识。这也就要求我们对计算机所具备的计算与存储优势形成充分利用。机械学习属于人工智能当中一个非常重要的研究领域, 其目标在于让计算机具备自我学习的能力, 继而让计算机获得更强的数据处理能力。Tom Mitchell对其做出了定义, 并得到学术界的普遍认可, 他认为机器学习学科关注的主要问题在于:怎样让计算机程序随着经验的积累, 自动提升自身性能。在历史数据集中对机器学习算法的利用, 结合训练让计算机获取智能。机器学习系统通常由环境、知识库、执行元以及学习元等多个部分构成, 其结构如图一所示。

学习元从环境 (也就是从数据集) 当中获得经验数据, 利用对环境中数据的处理对知识库进行更新, 此过程将会让系统执行元性能实现改进。而执行元则结合知识库当中的内容, 针对系统所呈现出的执行效果加以检验, 修改或者拓展知识库当中的模式 (或知识) , 使其内容得到不断的完善与改进。在经过调整之后, 知识库里的内容可以当作下回迭代学习的基础和指导。该种学习过程通常会经过多次循环, 知识库会随着学习次数的增多与内容的深化得到充实, 使计算机变得更加智能化, 对任务的执行过程也会呈现出更高的效率和质量。知识库属于机器学习系统整体当中的核心部位, 其中所包含的各类知识要足够丰富, 而且容易被计算机所识别和理解, 同时还应体现出方便修改与扩展等特征。值得注意的是, 必须要保证机器学习系统当中具有一定知识储备, 才能指导系统针对外部数据加以处理, 并对各种假设加以检验。利用数据挖掘针对数据进行处理的方法主要包括: (1) 分类。利用对数据集的训练进行学习, 继而获得分类模型。随后, 分类模型能够自动将不具备类别标签的那部分数据分为多个类别而完成分类。机器学习的分类算法主要有KNN分类算法、决策树、朴素贝叶斯算法与人工神经网络ANN等。 (2) 回归分析。利用数据分析, 并结合统计学方法, 能够获得变量和变量间的关系表达式。对这些内在规律加以利用, 从而对未来的趋势做出预测与评估。通常可以利用线性回归、回归树、logic回归等对回归模型进行构建。 (3) 关联规则。事务型的数据间具备关联规则, 可以通过对其中关系的挖掘来获取频繁项目集。将其作为基础和依据, 对某些事物同时出现或发生的概率进行预测。对关联规则进行挖掘较为常见的方法为Apriori。 (4) 聚类。利用对算法的挖掘过程, 让多个不具备类别标号的对象聚集于不同的簇中, 让簇中的对象之间具备非常高的相似性, 而簇间对象则呈现出非常大的差异性。比较常见的聚类算法包括k-mans、支持矢量SVN等。

四、结束语

总而言之, 在数据挖掘中对机器学习的有效利用, 能够呈现出十分高效的工作效果, 为人类活动的开展形成了强大的动力。相关从业人员应该积极探索, 对国外的一些先进技术和理念加以借鉴, 继而与我国信息技术行业发展的实际情况相结合, 创建出一套更加符合我国国情的机器学习改进与应用体系, 为国家经济建设注入源源不断的活力。

摘要:随着大数据时代的到来, 各行各业运转与发展过程产生了海量数据, 这些数据结构多样, 并且具有动态性极强的特征。对传统数据处理方式的应用已经无法符合现代社会的发展需求, 促进了机器学习的不断发展。本文主要分析了机器学习在数据挖掘当中的应用。

关键词:机器学习,数据挖掘,大数据

参考文献

[1] 孙凯, 李平丽.大数据背景下机器学习在数据挖掘中的应用浅析[J].科学技术创新, 2018 (18) :82-83.

[2] 李盼盼, 谭庆平, 曾平等.机器学习技术在疗养数据挖掘中的应用初探[J].中国医疗设备, 2018 (4) :104-107.

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:VIS设计在酒店中的应用探析下一篇:高职计算机教学的创新研究