聚类分析论文范文

2023-09-16

聚类分析论文范文第1篇

摘要:基于问卷调研数据,从农业信息化基础设施建设、人才队伍建设、发展环境建设和信息资源建设等4个方面筛选整理了18个具体评价指标,在此基础上采用聚类分析法将我国26个省份依照农业信息化发展水平分为6类,对分类结果进行了分析,并提出了缩小区域农业信息化发展水平差距、提高农业信息化发展水平的相关政策建议。

关键词:聚类分析;农业信息化;发展水平;评价研究;省际差异;政策建议

收稿日期:2013-11-04

基金项目:北京市农林科学院科技创新能力建设专项;“三电合一”农业信息服务项目。

作者简介:崔利国(1987—),男,河北邢台人,硕士,助理工程师,研究方向为农业农村信息化发展战略。Tel:(010)51503643;E-mail:cuilg@nercita.org.cn。

通信作者:李瑾,博士,副研究员,研究方向为农业与农村信息化。E-mail:lij@nercita.org.cn。农业信息化正在成为我国实现农业现代化的重要途径,在提高农业生产效率、增加农民收入、保障国家粮食安全、推进城镇化建设等方面均发挥了积极影响。2005年以来,中央一号文件均从不同角度对农业信息化建设作出指示,各地政府、科研院所和涉农企业也在推进农业信息化工作方面热情高涨,农业信息化评价研究也成为近年来学术研究的热点。近年来,不少学者对我国农业信息化发展水平进行了研究,研究方向主要分为2个方面:一是农业信息化发展水平评价体系的理论研究,并基于构建的评价体系对全国或某一地区的农业信息化发展水平进行定量研究[1-5]。有学者从农业信息化基础设施、技术装备、应用水平、主体水平、农业信息化对农业发展的贡献以及农业信息化政策环境等方面筛选了24个指标,初步建立了农业信息化发展水平评价体系[6]。二是对地区间农业信息化发展水平的评价研究。如有学者基于信息资源、信息应用、信息产业和信息人才等指标对山区县域农村信息化发展水平进行了研究[7],也有学者采取线性加权函数法和层次分析法对地市级农业信息化发展水平展开评价和分析[8]。此外,还有学者利用神经网络模型对省际间信息化发展水平进行综合评价与分析[9],这对比较我国省际间农业信息化发展水平具有借鉴意义。目前,我国在农业信息水平评价研究方面处于探索期,官方和学术界还没有形成权威的评价指标和完善的评价体系。学者们在研究农业信息化发展水平上主要是从地区经济发展水平、农业信息化基础设施建设、农业信息资源开发利用、农业信息技术和装备应用水平以及农业信息化人才队伍建设等方面着手,但由于指标选择上存在不一致,分析结果也往往存在差异。本研究参考已有学者的研究结论和指标体系建立方法,并结合已有的调研数据对我国主要省份的农业信息化发展水平进行比较研究,目的在于分析各个省份的农业信息化发展水平及其在全国所处的地位,为国家农业信息化主管部门和地方政府制定针对性的农业信息化发展战略提供支撑。

1研究方法与数据说明

1.1研究方法

1.1.1聚类分析方法概述农业信息化水平评价方法有神经网络模型[9]、因子分析法[10]和主成分分析法[11]等,尽管这些方法能够对多个对象的农业信息化水平进行较为客观的评价,但这些方法仅限于通过排序比较省际间农业信息化水平而不能有效地归类并寻找同类水平之间的共性和不同类水平之间的差异性,但聚类分析方法却可以解决这一问题,因此本研究选择聚类分析法来对我国各地区农业信息化发展水平进行评价研究。

自古以来,人们所讲的“物以类聚,人以群分”说的就是聚类,而在现代社会聚类分析是数据挖掘的一种方法,是指把整个数据分成不同的组,并使组与组之间的差距尽可能大,组内数据的差异尽可能小。聚类分析根据研究对象的不同分为Q型聚类分析和R型聚类分析,Q型聚类是指对样品进行聚类,R型聚类是指对变量进行聚类[12]。聚类不同于日常所说的分类,因为在分析之前并没有具体的划分标准,属于一种无监督学习[13]。聚类分析用于研究地区某一指标发展水平的文献也有很多[10-11,14-15],而随着我国农业信息化水平的不断提高和研究的不断深入,采用聚类分析等定量分析工具对我国各省份农业信息化发展水平进行评价和比较成为推动我国农业信息化水平持续发展的重要环节和手段,当前已经成为非常迫切的一个问题。

1.1.2聚类分析方法的数学步骤在聚类分析中,通常用G表示类,其中包含m个变量,一般用xi=(i=1,2,…,m)来表示,dij表示变量xi与xj之间的距离,DKL表示类GK与类GL之间的距离。类与类之间定义距离的方法有很多,常用的系统聚类方法有最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法等,本研究采用类平均法来定义类与类间的距离,因为类平均法很好地利用了所有样品之间的信息,在很多情况下它被认为是一种比较好的系统聚类法。类平均法定义的类GK与类GL之间的平方距离为:

1.2数据说明

1.2.1数据来源本研究所用数据来自农业部农业农村信息化发展战略研究课题组问卷调研,问卷内容主要涵盖农业信息化基础设施建设、农业信息化人才建设、农业信息化发展环境、农业信息资源建设等4个方面,数据为2012年的省级面板数据。调研范围涵盖大陆全部30个省(市、区),但由于部分省份的重要变量缺失,研究过程中剔除了河北、云南、新疆和广西4个省份,具体研究中只包括26个省份的样本数据。

1.2.2变量设定从已有的研究成果中不难发现,农业信息化技术应用水平是衡量一个地区农业信息化发展水平的重要指标之一,本研究在样本数据选择上并没有选择农业信息化技术应用情况的主要原因在于从调查问卷整理的数据结果中,关于农业信息化技术应用水平的调查选项不多,调查数据也不理想,导致在实际操作的时候数据确实无法使用,其他相关统计指标如表1所示。表1农业信息化发展水平评价指标

目标层准则层指标层农业信息化发展水平农业信息化基础设施建设固定电话普及率移动电话普及率电脑普及率已接入有线电视行政村比重接通宽带的乡镇比重光纤传输网是否到村农业信息化人才建设农业信息中心工作人员数量农业信息化发展环境农业农村信息化资金投入是否成立县级农业农村信息化工作领导小组是否制定全省相关农业农村信息化工程规划是否建立了农业农村信息化建设资金统筹管理制度农业行政主管部门是否有农业农村信息化投入专项是否设有农业农村信息化行政管理机构是否有兼职管理员农业信息资源建设有无独立农口政府网站农业数据库数量数据年增长率是否建有内部网络办公平台

由于上述指标是由多个要素构成的,各个要素数据具有不同的单位和量纲,其数值的变异很大,这会对分类结果产生一定的影响。因此,在进行聚类分析之前,首先要对聚类要素进行一定的预处理,消除各个要素之间的量纲差异。聚类分析中常用的数据预处理方法有中心化变换、规格化变换和标准化变换,本研究采用标准化变换对数据进行预处理,变换公式为:

2实证分析

采用MATLAB R2012b软件首先对样本数据进行标准化变换,之后运用类平均法将26个省份间的欧式距离进行测算,并在此基础上创建系统聚类树(图1)。

根据图1的聚类结果并结合我国各省(市、区)农业农村信息化发展实际经验,本研究将26个省(市、区)的农业信息化发展水平从高到低归纳为6类(表2),具体分类结果如下:

聚类分析论文范文第2篇

(一)数据来源

X1人均食品支出(元/人)X5人均交通和通信支出(元/人)

X2人均衣着支出(元/人)X6人均文教娱乐用品及服务支出(元/人)

X3人均住房支出(元/人)X7人均医疗保健支出(元/人)

X4人均家庭设备及服务支出(元/人)X8其他商品及服务支出(元/人)

注:上图截取了31个地区一部分数据数据来源:中国统计年鉴

(二)数据分析

以上选择的8个指标都很好的从衣、食、住、行四个方面反映了31个地区的人均消费水平,在一定程度了反映了不同地区的发展水平情况,通过运用欧式距离,将它们之间距离最近的两类合并为新类,然后计算新类与当前各类之间的距离,直至类的个数等于1时,画出聚类图,决定类的个数和最终分类数。

二、SPSS的聚类分析结果

(一)分类数的确定

将SPSS输出的聚合系数值导入EXCEL中,做出聚合系数随分类数变化曲线,由图表2看出分类数3到5类是最合适的,但由于分类数过多不利于分析,所以我们选择分为3类对31个地区进行统计分析。

将数据导入SPSS软件,在“分析”菜单中选择“分类”,选择其中的系统聚类分析,将X1到X8八个变量选入变量框中,标注个案中选择地区,再点击右侧“方法”,聚类方法选择组内连接,区间测量采取平方Euclidean距离,并将其采用Z分数标准化,最后,单机确定按钮,SPSS则输出图表3。图表3是对每一个阶段不同聚类结果的反映,其中第四列为聚合系数,其值越大,代表其相似性越大,聚合损失量则会越少。

(二)具体分类情况

如上图所示是树状聚类图,由上面分析可知将其分为三类,易得分为北京、浙江、上海、其他地区,三类情况。

结束语:

将上海分为第一类,北京、浙江分为第二类,其他分为第三类,根据经验易得第一类为最发达地区,拥有各种机遇,主要发展高新技术产业;第二类为较发达地区,其经济上也有很大的突破,其应主要发展制造业,不断升级改进;第三类为经济欠发达地区,应该借用各地区的优势,积极发展自己特色的产业,提升经济实力。

摘要:近年来,随着我国经济的发展,各个地区的经济发展水平也出现了较大的差异,我们抽取具有代表性的31个地区,基于SPSS对他们从人均食品支出、人均衣着支出、人均住房支出、人均家庭设备及服务支出、人均交通和通信支出、人均文教娱乐用品及服务支出、人均医疗保健支出和其他商品及服务支出八个方面进行聚类分析,分析所属同一类的地区所具有的相似性,为经济良好发展提供有效的建议。

关键词:SPSS,聚类分析,相似性

参考文献

[1] 吕卫平,张晓梅.基于SPSS的聚类分析应用[J].福建电脑,2013(09):20-23.

聚类分析论文范文第3篇

一、数据挖掘的分析方法

(一) 关联分析方法

其实数据变量之间两个或者多个都存在有一种相关性, 这就可以用关联这个词来形容。不过在一般条件下, 数据库当中大流量的数据中的关联性是十分难发现的, 并且其中的不确定因素众多, 因为这点所产生的规则一定要带有可信度。

(二) 聚类分析方法

聚类分析主要体现在模式识别、数据挖掘等等技术领域和工程领域当中, 也是其中最为重要的研究热点, 并在此之间聚类分析体现了其程度较高的效果和性能。把一个整体的数据分化分若干个簇是聚类的作用特点, 而且尽可能的放小了各个簇之间的相似性, 解决了各个簇之间尽大化的相似性。

(三) 分类分析方法

数据挖掘领域采用分类分析方法次数也是挺多的, 主要分化成学习过程和测试过程两个部分。比如, 贝叶斯算法、神经网络、决策树、k近邻算法等都是比较常见的分类技术。

依照上面三种方法的分析我们可以得出, 聚类技术是数据挖掘领域不可或缺的存在, 作为其中的一项重要的技术方法的一种, 不过流数据的一次扫描特点和数据流高速变化的动态这些特性都给流数据的聚类带来了很大的挑战。

二、传统数据聚类算法的特征

(一) 传统数据聚类算法的类型

1. 基于层次的聚类方法

从头到尾和从尾到头两种情况是基于层次的聚类算法的特点。Birch算法在中方法当中比较常用。其中CF聚类特征以及CF tree聚类特征树这两个概念也被引入了Birch算法当中。整个流程如下:先将数据库进行全面扫描, 形成一个最初始的聚类特征数;从根节点向下, 算出和插入的数据点两者间的距离, 从其中获取最短的距离, 从而找寻到于这个数据点最近的叶节点;若是吸收后的数值大于阈值T, 就使得叶节点分裂或被删除。Birch算法在庞大的数据集聚类处理中比较适用, 其时间复杂度和空间复杂度相对来说比较低, 有着良好的聚类效果。不过birch算法在计算聚类的范围都是使用它的半径来计算的, 所以面对那种不是球类型的聚类, 就不好达到自己想要的效果了。

2. 基于划分的聚类算法

采用平方和误差最小函数 (sum of the squared error) 作为目标函数。

如图所示, 当中的p代表了各个数据点, m是每个簇x的平均值。

计算机数据之间的相似性以k-means算法依照它们的距离而计算出来, 因此对其中出现的噪声数据是比较敏感的, 孤立点的存在会大大的影响到聚类结果, k-mediods (k中心点算法) 就基于这种现象诞生了。

3. 基于密度的聚类方法

将具有相似特征的密度点给聚合在一起是基于密度的聚类算法的基本特点, 对那些不断变化的密度可以将其聚类拓展到各个地方去, 这样就将基于距离聚类只能产生球状实现效果的缺陷给弥补。不过唯一的缺陷是这类算法复杂度相对来说比较高。

(二) 群智能在聚类方法当中的体现

Azzag等人依照蚂蚁寻找食物源的行为特征随后提出了一种基于蚂蚁觅食原理的聚类算法。在此基础上, 将蚂蚁自聚的行为和达到蚁群的聚类算法都给提出来。此算法张的树状结构是通过蚂蚁自我聚集来形成的, 可以将其称呼为蚂蚁树 (AntTree) 。数据即使蚂蚁的身份, 蚂蚁也代表了数据, 并且还代表了该类蚂蚁树的节点, 此时就要将蚂蚁在一个固定点上给放置好, 这就需要再其初始的状态下对它这样做了, 这种也就是蚂蚁树的树根, 再往后就要趁着固定后的蚂蚁身上任意移动, 来找寻自己最合适安放的位置。将算法当中的某些数据点可以看作具有不同属性的蚂蚁, 把聚类中心比做蚂蚁将要寻找的“食物”。Merwe等人在03年的时候最开始提出了两种算法相结合的混合型聚类算法, 其中由PSO与k-means算法两者相构建。K-means算法承担聚类的中心, 使得粒子群在面对群初始化的过程中可以迅速的将聚类中心赋值给某单个粒子, 再让其它粒子随机的进行初始化, 最后再使用PSO聚类算法完成聚类。如果在聚类挖掘当中应用到了群智能, 所获得到的实验结果会明显优于传统聚类的算法的使用, 而且不会像传统聚类算法一般比如k-means算法那样容易产生局部最优解, 最不方便的也只是算法的收敛时间比较长。

三、流数据聚类算法的特征

(一) 传统数据挖掘聚类算法和流数据聚类算法的差异性

最开始我们可以确定的是, 流数据不断变化的过程中, 在此期间簇的个数也会随着流数据的变化而变化, 簇的个数肯定是无法得到肯定的。然后, 聚类过程会形成各色各样形状的簇, 而且在许多数据集当中, 比如网络入侵检测数据集, 其聚类的分布情况一般都是不均匀且没有规则的, 若是聚类的形状被固定的化, 其带来的效果也十分单一, 所以发掘出不同形状的聚类对流数据聚类的应用是十分重要的。最后, 两者处理噪声数据的能力也存在差异。总有一些意外的因素对流数据应用场景形成干扰, 就比如当电池供电不足的影响出现在传感器网络中的时候, 可以将其归纳为流数据当中产生的随机噪声数据, 流数据聚类算法在这一点上的分辨和处理就优于传统数据挖掘聚类算法。

(二) 流数据模型的基本特点

可以流数据比作数据集合, 随着时间的变化而不断变化。{X1, X2, X3, …, XN}为流数据集合方式, 当中Xi含有两个数据项, 一个是数据读入时间点 (时间戳) , 即是Xi, 另外一个是数据ai。流数据当中噪声数据的存在随时间的变化而变化, 也可以将噪声数据分类为孤立点数据和噪声数据。不过这些数据会与研究当中所出现的正常数据的行为模式存在差异, 所以在流数据挖掘领域如何识别孤立点噪声数据也是亟待重点解决问题之一。

(三) 窗口模型的特征

以时间窗口为基础, 流数据聚类分析方法在其中运行。一般可以将窗口分为三种类型, 分别是滑动窗口模型、界标窗口模型、衰减窗口模型。当中的界标窗口模型包含的方法也是多种多样, 比如抽样方法、直方图方法、哈希方法等等。以下将对这三种模型分别进行探讨。滑动窗口模型则是提出了一个时间窗口的概念, DS= (a1, a2, a3, …, an) 是这种模型下设定的流数据, 当中的Xi是流数据的数据样本点, Xt为进入滑动窗口的时间点, ax是数据项。tn是任意的时间点, W为窗口大小。被处理的数据只有时间窗口当中的{tn-w+1, …, tn}, 窗口之外的数据无疑都是被忽略了, 以图2表示滑动窗口模型。在界标窗口模型当中, 以抽样方法来讲, 听名字就知道, 就是在庞大的整体数据当中抽取一些样本作为整个数据的代表, 并且在样本查询的过程中获取结果。而直方图技术便是把一个数据集给分割成许多个小数据集。这项技术的特点就是将数据集的轮廓梗概给反映出来, 所以, 商业数据库当中广泛的应用了这一技术。不过当前的决策者一般都会去关注近期数据分析情况, 使用滑动窗口模型最好适用最近期的数据信息处理, 这也是当前的实际情况。衰减窗口模型主要依据衰减函数f (t) =2-λt来进行衰减的。当中的t的意识是变化的时间, 参数λ>0。以衰减的方式去消除历史数据行为对当下聚类结果的影响也是这种模式的主要特征, 衰减程度的大小取决于λ的取值, 值数越大对历史数据的影响也越小。

(四) 离线和在线双线类聚类算法

Clustream算法有着有序无限以及单遍扫描的特点, 它能够完全的适应数据流并能够使其快速的到达, 另一方面还可以将数据流的潜在演化特征给挖掘出来。不过距离才是算法使用的相似度标准, 基于此也形成了这种算法只能够接受球类的聚类结果。要是数据流当中出现了噪声数据的情况下, 算法这样的过程中无法稳定下来, 这都是因为现有的微簇无法接受噪声数据, 从而会使得新的微簇被噪声数据给创建出来, 而且微簇的数量将会随着噪声数据的增加而增加。在面临这种现象的情况下, 微簇的数量也会受到算法的限制, 因此算法将会对一些微簇的处理要时刻的对它们进行结合或者删除, 这样算法聚类结果的准确性就不好意料了。后来, 面对Clustream算法这些方面的不足, 相应的学者们各抒己见提出了很多种解决的方案。在04年的时候, Aggarwal等人提出了一类算法框架比较出名, 其名为HPStream (High-dimensional Projected Stream Clustering method) 。HPStream算法框架主要在两个方面做出了改进:首先是改进了算法当中所使用的投影聚类的方法对高维数据流的聚类问题进行了处理;其次就是将Clustream中体现的微簇利用衰减簇的概念来代替, 从而将历史数据进行保存, 到最后借用衰减因子完成衰减历史数据对整体聚类影响的不断衰减的衰减。曹峰等人借用这种基础提出了DenStream算法, 这种算法为一种基于密度的进化数据流聚类算法, 可以对在线和离线两个阶段进行处理。可以使用三个概念来总结这个算法的总体架构, 依次为:离群微簇、核心微簇、潜在核心微簇。也可以这样去描绘整个算法的实现过程, 当引入一个全新的数据点的情况下, 这一数据首先就要被算法判断出是否可以作为潜在的核心微簇中存在, 不行的话, 就要试着并入相邻最近的离群微簇当中。如果离群微簇在合并之后的半径大于阈值的话, 就要对这个离群微簇进行转换了, 一般都是转换为潜在核心微簇, 实现聚类在离线的状态下主要使用DBSCAN算法的变形来完成。

四、结语

综上所诉, 许多学者对流数据聚类算法的关注程度在这几年越来越高。自组织和鲁棒性的也是群智能算法的优点, 面对那种没有全局模型的情况, 能够对庞大的数据处理过程取得较好的效应, 因此可以看出群智能算法相比其它优化算法有着其擅长的优势。而面对传统数据挖掘聚类算法和流数据聚类算法的差异性就要做到取长补短的效果, 从而优化双方的作用, 合理化的去使用流数据聚类算法, 使得聚类的效果达到最优化。

摘要:流数据在这几年已经渐渐成为了主流数据的一种。生活上的流数据也是随处可见的, 比如股票数据、网络入侵监测过程中反馈的数据都是属于流数据的一种。下文介绍了流数据聚类算法和传统数据聚类算法的差异性, 如何去研究和分析差异性采样下的流数据聚类算法分析, 以及阐述流数据聚类算法当中应用群智能所带来的效果。

关键词:流数据,聚类算法,差异性采样,群智能

参考文献

[1] 赵元棣, 王超, 李善梅等.基于重采样的终端区飞行轨迹可信聚类方法[J].西南交通大学学报, 2017, 52 (4) :817-825.

[2] 李鹏飞, 刘春宇, 海军.云计算环境下关联性大数据实时流式可控聚类算法[J].科学技术与工程, 2018 (7) :66-69.

聚类分析论文范文第4篇

通常情况下, 市场研究的过程中会对消费者的年龄、教育程度、收入、性别等方面进行细分, 来帮助刻画目标和潜在用户画像。然而, 这样的用户分析只是在一般特征上把消费者划分, 有时并不能很好的解释消费者的行为和态度。年龄、收入等人群特征往往可以延伸到消费者的生活态度和消费观念, 对消费者的生活态度、消费观或者性格进行深入了解, 可以帮助品牌更好的理解市场上消费者的行为和态度, 对市场和销售策略起到一定指导作用。本文主要以汽车市场消费者为例, 讨论将市场上的消费者进行细分的方法。

2 研究方法

如何去评定消费者的生活态度和消费方式, 把消费者进行细分, 在调研中通常采用价值观及生活方式调查 (简称VALS, Values and Lifestyle Survey的缩写) 作为理论基础。VALS是由美国斯坦福咨询研究所建立的, 理论前提是:个人的生活方式受“自我导向”和“个人资源”两方面因素制约。VALS细分系统具体执行方法是询问消费者对一些态度问题的看法, 态度问题例如我喜欢购买新潮的东西, 我习惯依计划行事, 我选择安定和有保障的工作等, 消费者来选择同意的程度。根据消费者回答将消费者划分成几个群体。调研中细分消费者, 建立在VALS的理论基础上, 采用统计上聚类分析和因子分析的方法, 根据消费者的生活态度和消费观念, 给市场上消费者进行分类。

3 研究设计

为研究汽车市场消费者的生活态度和消费方式, 考虑到样本的代表性, 我们把全国范围划分成五个区域, 在每个区域随机选取3个城市 (包括相同数量的一线和二线城市) 。在这15个城市中随机抽取1000名汽车车主进行访问。车主均为20-55岁, 且具有独立购买决策能力的消费者。

研究中采用心理描述测试法, 即给消费者展示一些关于价值观以和消费观上的内容陈述, 请消费者根据自己的情况做出评价, 采用5分量表, 5分为完全适合, 1分为完全不适合。为了更好地了解消费者的生活观念, 还设置了让消费者选择关于自己性格的词语, 以便更好地印证根据生活态度和消费观细分的每类人群的特性。描述设置如下:

第一, 生活态度 (21个) 。

(1) 为了成功, 我愿意承担风险。 (2) 我喜欢追求富有挑战/新奇和变化的生活。 (3) 流行与实用之间我比较喜欢流行。 (4) 我喜欢被认为是时髦的人。 (5) 我希望被视为一个领导者。 (6) 工作的稳定比高收入更重要。 (7) 承担责任比自我享受更重要。 (8) 我喜欢的品牌, 我会一直使用它。 (9) 我经常与家人或朋友驾车旅游。 (10) 我更喜欢越野或探险。 (11) 购买各种保险是很重要的。 (12) 我喜欢广泛交友, 结识不同类型的朋友。 (13) 我只喜欢结识和自己有共同语言或爱好的朋友。 (14) 我通常和自己地位相当的人交往。 (15) 我和朋友在一起的时间比和家人在一起的时间多。 (16) 使用名牌可以提高一个人的身份。 (17) 名牌是身份和地位的象征。 (18) 有一些奢侈品是我必不可缺的。 (19) 我认为有了钱就应该享受生活。 (20) 总的来说, 我现在觉得很幸福。 (21) 为了赚更多的钱我可以牺牲休闲时间

第二, 消费观 (11个) 。

(1) 我喜欢拥有最高端的各种消费品。 (2) 购物前, 我通常会比较几家商店同类商品的价格。 (3) 绝大部分情况下, 我会到价格最低的商店里买东西, 即使距离远些也无所谓。 (4) 我偏向于支付更多的价钱购买品质更好的产品。 (5) 我经常会冲动性地购买一些并不需要的东西。 (6) 购物时, 我更愿意逛街, 去实体店购买需要的产品, 而不是在网上购买。 (7) 在购买商品时, 性价比是我最看重的因素。 (8) 商品外观会影响我的购买决策。 (9) 我愿意花更多的钱购买具有更新功能的产品。 (10) 我希望我买的东西是独特的, 与别人不一样。 (11) 我会花时间搜寻物有所值的商品

第三, 性格描述词语 (29个) 。

(1) 有创意的。 (2) 大气的。 (3) 有个性的。 (4) 有主见的。 (5) 有活力的。 (6) 精力充沛的。 (7) 喜欢运动的。 (8) 积极进取的。 (9) 自信的。 (10) 时尚的。 (11) 追求生活享受的。 (12) 注重生活品质的。 (13) 有品位的。 (14) 追求完美的。 (15) 务实的。 (16) 传统的。 (17) 稳重的。 (18) 低调的。 (19) 随和的。 (20) 好交往的。 (21) 外向的。 (22) 追求乐趣/爱玩儿的。 (23) 自由随性的。 (24) 注重自我感受的。 (25) 有激情的。 (26) 喜欢高科技的。 (27) 追求高效的。 (28) 具领导力的。 (29) 有社会责任感的/环保的

4 消费者细分的数据处理和分析

使用SPSS软件来对1000名消费者数据进行处理。首先, 对A、B描述语句所有答案数据进行聚类, 聚类出来的质量差, 并且发现聚出的类别并不符合实际情况, 无法做出解释。所以, 先将所有描述句进行因子分析, 再做聚类。

4.1 因子分析

因为很多语句具有相关性, 在聚类分析之前首先采用因子分析的方法, 将生活态度和消费观念的描述语句, 用几组具有相关性的语句的线性组合来表示因子。在SPSS软件上将数据进行因子分析, 对因子进行正交旋转, 根据旋转成分矩阵的相关系数, 相关系数大于0.5的描述与因子有更强的相关性, 可以更好地解释该因子。根据这个方法, 最终得到6个因子如下表:

通过以上因子分析结果, 考虑6各因子包含的描述语句的意义, 归纳每个因子的特征。可以看出因子1和因子2包含了过多的语句, 且具有多方面的意义。所以, 我们针对因子1和因子2再做因子分析, 将因子1分为3个因子 (1-1, 1-2, 1-3) , 因子2分为2个因子 (2-1, 2-2) , 因此所有32条语句一共可以分为9个因子。

上述9个因子, 将9个因子保存为新变量。根据消费者对上述9个因子的评价进行聚类分析

4.2 聚类分析

采用两阶段聚类的方法, 选取九个因子作为变量, 通过聚类分析, 此时聚类质量中等, 结果比较符合实际情况, 所以采用此次聚类结果, 最终选择将消费者聚为5类, 5个类别结果如下:

根据因子特性以及因子对每类人群的解释程度, 总结出五类人群的特征:

(1) 时尚高端型:追求时尚, 喜欢高端产品。

(2) 理性社交型:注重品质, 理性, 不太喜欢社交。

(3) 品质务实型:关注实际和性价比, 满足现在的生活状态。

(4) 价格敏感型:对价格敏感高, 不注重品质。

(5) 平衡进取型:寻求生活各方面的平衡。

5 研究结果分析

通过上述方法, 可将汽车市场用户分为五类。分别对五类消费者的背景分析, 结合C组性格描述句的答案, 得到以下结果。

5.1 时尚高端型

此类型占总体消费者的13%, 大多分布在北区和西区, 一线城市和女性消费者居多, 20~29岁年轻的和40岁以上消费者较多。这类消费者家庭收入较高, 无生活压力, 喜欢追求生活享受, 高科技, 有品位的生活。

5.2 理性社交型

此类型占总体消费者的21%, 主要居住在东区、南区和东南区。35岁以上占比较大。这部分消费者为中层中年人士居多, 通常是中层管理者, 有责任感, 顾家, 也爱和朋友聚会。他们比较理性和稳重, 不追求高端产品, 愿意花时间在工作上给家人提供更安稳的生活。

5.3 品质务实型

此类型占总体消费者的16%, 主要分布在东边, 二线城市居多, 职业多为私营业主, 年龄多在30岁以上, 为人随和、低调、务实、比较传统同时也注重生活品质。这类消费者较多的投入事业, 追求社会地位, 物质基础不错, 希望能更多陪伴家人。

5.4 价格敏感型

此类型占总体消费者的20%, 主要分布在二线城市, 南区和西区, 各年龄段分布比较均匀。家庭年收入略低, 属于小中产阶级, 通常是愿意付出时间来对比, 购买性价比高的产品, 不太追求有品质、高端的产品, 通常是低调的、有主见的。

5.5 平衡进取型

此类型占总体消费者的30%。这部分消费者更多的分布在东南区, 各年龄层分布较平均, 家庭收入较高, 事业稳步上升的中青年较多。其性格是自信的、大气的、喜欢高科技的、具有领导力的。注重生活质量, 同时也愿意花时间在工作和社交上, 比较享受生活, 对生活各方面要求比较均衡。喜欢品质的、新潮的产品, 但是又不过分追求名牌和高端。

6 总结和成果

市场上消费者类型是多种多样的, 聚类的结果也会有多种。当发现直接通过30多条描述语句进行聚类, 得到的结果并不太合理, 并且聚类质量较低, 就采用了先做因子分析再做聚类的思路。先做因子分析虽然不如直接用所有描述句数据聚类更好, 但是提高了聚类质量。在众多描述句的选择上, 保证涵盖多种方面, 并且着重根据聚类结果中重要性高的因子和描述句进行解释。以上聚类结果可能不是最好、最合理的结果, 但是结合消费者背景特征, 也可以看到是符合当今市场实际情况的, 对理解市场上消费者情况起到了一定指导作用。当然对于这么多描述句, 消费者的回答也会有一些偏差, 不排除会有消费者没有回答自己真实的情况。针对这个问题, 一方面我们也在调查中尽量选择愿意分享自己感受的消费者, 一方面在做数据分析前也对所有消费者的数据进行筛选。

对汽车市场消费者类型的划分, 可以有助于汽车品牌更好地了解消费者。本次研究只关注了划分消费者类型, 结合性格和背景信息解释每类消费者基本情况。在今后的调查研究中可以对消费者对品牌的态度进行更深入了解, 更全面了解各类消费者的行为, 帮助品牌更好地了解目标受众, 在进行市场和销售策略制定时也可以更有针对性。

摘要:随着我国人民可支配收入的增长, 消费者的类型也越来越多样。如何更好地了解消费者, 与消费者有效沟通, 成了各个市场品牌之间竞争的一个重要议题。消费者的细分是主要利用统计学上聚类的方法, 将市场上消费者归为几类, 对每类消费者的特征进行归纳。消费者细分可以帮助更好地理解消费者行为态度, 从而有效地进行沟通。

关键词:消费者细分,生活态度,消费观

参考文献

[1] 简明, 金勇进, 蒋妍.市场调查方法与技术[M].北京:人民大学出版社, 2012.

[2] 伊冯娜·麦吉温.市场调研实务 (原书第4版) [M].北京:机械工业出版社, 2017.

[3] 杨宜音.社会心理领域的价值观研究述要[J].中国社会科学, 1998 (2) .

[4] 张文彤, 董伟.SPSS统计分析高级教程 (第3版) [M].北京:高等教育出版社, 2018.

[5] 吴垠.关于中国消费者分群范式 (China-Vals) 的研究[J].南开管理评论, 2005 (2) .

聚类分析论文范文第5篇

清管器 (PIG) 作为管道清管中必不可少的机具, 在1962年由美国的Knapp公司和Girard公司开发, 并用于管道清洗[1,2]。1965年清管器在日本开始应用。20世纪60年代中期, 中国开始采用清管器清洗技术, 至今已有五十多年的历史[3]。然而目前国内尚无具体的清管规程, 对清管器的选择、过盈量参数的确定以及速度预测、流程控制等方面均无统一的规定和精确的判断[4], 因此在设备选型方面存在较大困难。

2010~2011年川气东送管道分公司分段完成了川气东送管道主干线在线清管作业, 清出了大量的污水、泥沙、焊渣以及硫化亚铁粉末等污物, 并委托相关单位对清管清出物中所含元素进行了分析。2013年本公司又对南京支线十字镇至金坛管段进行清管作业, 原计划进行4~5次收发球作业, 但在实际清管过程中却遇到困难:第一次收到泡沫清管器后, 由于接收到的清管器磨损较大, 且表面有较多尖锐划痕, 因此进行了第二次泡沫清管器的发送;第三次单向皮碗清管器在运行过程中出现了卡堵现象, 导致清管器停止运行超过30小时, 且收到的清管器磨损严重。鉴于以上情况, 十字镇-金坛管段已不具备继续清管的条件, 出于控制风险的考虑, 最终现场指挥组确定本次清管作业到此结束。事后通过对清管器磨损情况和清管清除物所含元素等情况进行分析, 得出此次清管器选型存在错误。

清管作业是提高管道输送效率的重要措施, 正确的选择管道清管设备是保证清管作业成功的关键。因此了解被清洗物的分类, 掌握被清洗物的性质, 对于正确的选择清管器的种类, 实施有效的清洗至关重要。本文对2010~2011年川气东送管道清管清出物中所含元素特征进行研究, 以期为下次川气东送管道主干线或同类型管道清管作业提供借鉴。

1 研究方法

聚类分析是直接比较样本中各指标 (或样本) 之间的“性质”, 将性质相近的归为一类, 性质差别较大的归为不同类。常用的聚类方法有:系统聚类法、有序样本聚类法以及模糊聚类法等。

(1) 系统聚类的基本思想先将待聚类的n个样品 (或者变量) 各自看成一类, 共有n类;然后按照事先选定的方法计算每两类之间的聚类统计量, 即某种距离 (或者相似系数) , 将关系最密切的两类合并成一类, 其余不变, 即得n-1类;再按照前面的计算方法计算新类与其他类之间的距离 (或者相似系数) 在将关系最密切的两类并为一类, 其余不变, 即得n-2类;如此继续下去, 每次重复都减少一类, 直到最后所有的样品 (或者变量) 归为一类为止。根据不同类之间距离的多种定义, 将系统聚类方法归纳为最短距离法、最长距离法、类平均法、重心法及离差平方和法等。

(2) 类平均聚类法将类与类间的距离定义为样品间平方距离的平均值, 将距离最近的两类合并为一类, 最终实现聚类的目的[5]。假设存在类Gk、GL, 则Gk和GL之间的平方距离的计算如公式 (1) 所示。

若某一步类Gk和GL合并成新类GM时, GM与另一类GJ的平方距离可以推广为公式 (2)

利用公式 (1) 、 (2) 以及样品之间的信息, 将平均距离小即相似性高的不同类合并为一类, 分析问题的共性以便找出针对性措施。

2 聚类分析

(1) 数据来源川气东送管道分公司委托相关单位对川气东送管道主干线各管段管道清管清出物中所含元素主要进行了扫描电镜成分分析, 分析结果见表1。

(2) 聚类结果分析, 见图1以元素为变量运用SPSS软件对九个管段的元素特征数据运用类平均法进行聚类分析, 得出聚类树图 (图1) 。由图1可知, 当类间距离为5时, 可将九个管段分为四类。

类别Ⅰ:潜江—武汉。该类的主要特征是管道清管清出物中不含Ca元素, 而且只有这一类含N元素且质量分数达到了8.59%。同时该类中O、Al、Si元素的含量都是最高, 其中O、Si元素含量分别达到了29.45%和23.62%。

类别Ⅱ:宜昌—潜江、十字镇—金坛。该类的主要特征就是Fe元素含量最高, 尤其是十字镇—金坛管段Fe元素含量达到了52.22%。

类别Ⅲ:梁平—黄金、恩施—野三关。该类的C、O、Si元素含量偏高。

类别Ⅳ:普光—梁平、黄金—利川、利川—恩施、野三关—宜昌。该类的主要特征是含有B元素, 并且其含量特别高, 质量分数都在35%~41%之间。

3 结论分析与建议

通过前面的聚类分析结果可以看出, 不同类别的管道清管清出物中所含元素的差异很大, 如果清管设备选用不当, 不但不能达到清管目的, 而且可能造成管道堵塞、穿孔, 因此, 在清管时不能一概而论的选择清管器。

针对上述问题提出以下建议。

类别Ⅰ清管清出物中O、Si元素的含量较多, 说明管道内部有较多的泥沙, 可能是建设施工期间遗留到管道内的沙石物质。因此比较适合选用具有清理作用的清管器, 例如整体清管器[6]。这种清管器通常由单一材料 (聚氨酯) 模压而成, 可以制成不同形状, 并且大都由中心柱体以及沿柱体分布的多个肋片组成。由于清管器的中心柱体是中空且尾部是敞开的, 这样驱动压力就能作用清管器内部使其有膨胀的趋势, 加强清管器与管壁的密封作用。同时也可在整体清管器上安装刮削器或钢刷等清理部件, 进行除蜡、除锈、除尘等操作。

类别Ⅱ清管清出物中Fe元素的含量较多, 主要原因是管道开始运营后, 管道内部腐蚀或者是管线内部残留的焊渣、焊条及其它金属物件产生了含铁物质。建议首先使用磁力清管器进行管道清洗, 将管线内部含铁物质吸附在清管器的磁铁上清理出来;然后使用安装有强磁性磁铁的磁检测清管器, 在所在管段形成强烈磁场, 并通过传感器检测磁漏位置, 进而确定金属损失位置;最后根据探伤结果采取相应的防腐措施。

类别Ⅲ清管清出物中元素含量比较平均, 可选型比较多。建议使用皮碗式清管器, 该清管器清管效果较好, 造价便宜, 可以更换易损坏部件, 也便于安装各种测试仪器。由于管道在初次投入清管器运行时, 清管器有可能被卡在管内, 因此为方便寻找被卡住的位置, 可在清管器中放入一个能发射无线电波的示踪器, 以便用探测器准确地找到清管器的位置。

类别Ⅳ清管清除物中B元素含量特别高, 由于B元素存在状态与Si O2基本相同, 故对该物质的清除方法参照类别Ⅰ。

但是导致类别Ⅳ中B元素含量特别高的原因, 需要进一步研究。

摘要:川气东送管道工程是国家“十一五”重点工程, 自投入运营以来, 创造了良好的经济和社会效益。但在运行过程中会在管道内产生积液、沉积物等污物, 从而对站场的运行造成影响。因此川气东送管道分公司对管道主干线进行了清管作业, 清出了大量的污水、泥沙、焊渣以及硫化亚铁粉末等污物。本文对这些管道清管清出物中元素特征进行聚类分析, 把九段管段分成了四种类型, 通过分析不同类型管段的特点, 为清管器选择及清管方案的制定提供借鉴。

关键词:川气东送,清管器,管道清出物,聚类分析

参考文献

[1] 刘刚, 陈雷, 张国忠, 高国平, 卢孟銮.管道清管器技术发展现状[J].油气储运, 2011, 09:646-653+633.

[2] 郑莉.清管器技术展望[J].清洗世界, 2012, 08:34-38.

[3] 马振杰.清管与检测技术在川气东送管道中的研究与应用[D].西南石油大学, 2013.

[4] 王会坤, 罗京新, 戚菁菁.川气东送管道干线清管实践[J].油气储运, 2015, 04:408-412.

[5] 陈江丽.基于类平均聚类法的普通高等专科学校办学规模区域差异研究[J].西昌学院学报 (自然科学版) , 2015, 03:46-48+72.

聚类分析论文范文第6篇

随着数据挖掘的兴起与发展, 数据中的噪声点越来越多, 对于数据的特征提取和聚类分析变的越来越复杂, 如何做到高效地处理数据变的至关重要。DBSCAN算法是最具有代表性的基于密度的聚类算法, 该算法根据样本数据分布的紧密程度的不同决定目标样本的归属类别, 同一个类别的样本, 他们之间是紧密相连的, 而非一个类别的样本之间是有隔阂的, 所以目标样本周围不远处一定有同类别的样本存在[1,2]。粒子群算法, 是近年来发展起来的进化算法, 它采用群体解的合作机制来迭代产生最优解。[3]。

二、算法流程方法

传统的DBSCAN算法在有噪点的情况下, 会得到不合理的结论。对于DBSCAN聚类算法来说, 算法是否可以达到高准确性和高效性, 和样本邻域参数两个参数Eps, MinPts, 密切相关。

为了解决传统DBSCAN算法的局限性, 本文提出改进的DBSCAN算法, 叫基于粒子群算法的DBSCAN聚类 (PSO-DBSCAN) , 利用遗传算法中粒子群思想进行自动化确认参数的DBSCAN算法[4]。其思想是先确定对聚类结果影响相对较小的每个样本集的样本个数阈值MinPts, 根据项目需求确认需要聚类成几个类别簇, 然后通过粒子群算法自动搜索确定最合适的Eps, 最终利用DBSCAN密度聚类思想完成聚类的聚合划分。

PSO-DBSCAN的算法步骤如下:

(1) 确定对聚类结果影响相对较小的样本个数阈值MinPts, 可以通过前期项目调查和需求分析多次试验确认。

(2) 初始化粒子群算法所需要的粒子点, 先将数据样本中的每个样本随机指派为某一类别簇, 作为最开始的聚类分类, 并计算每个类别簇的聚类核心, 作为初始粒子点的位置, 计算粒子的适应度, 并给粒子的一个初始速度。反复进行n遍, 从而生成n个初始粒子群。其中粒子的适应度为f (S) = (n-k) /k, 其中n为聚类最终生成的类别簇个数, k是期望生成的类别簇个数。

(3) 对每个粒子, 计算每个粒子的当前适应度结果, 并与历史中最好位置的适应度结果进行判断, 如果当前适应度比历史中最好位置的适应度值好, 则将当前粒子位置点最为最好位置点。

(4) 对每个粒子, 选择目前最优秀的粒子的适应度值, 将该适应度值, 与之前所有群体中最优秀的位置的适应度值进行比较, 如果该适应度值比其还要优秀, 则将该适应度值对应的粒子位置点最为群体最优位置点。

(5) 检查每个粒子的最佳位置和群体的最优位置是否满足最优条件或者达到了迭代次数, 若是则执行步骤7, 否则返回步骤3。

(6) 此时粒子群中每个粒子的最终位置便为最优秀的初始聚类核心点。

(7) 随机选取一个聚类核心点, 计算其与其他聚类核心点的距离, 选取最小的距离作为Eps, 其他核心点的Eps也是如此规律得出。

(8) 从数据样本集合中选择一个点, 如果该点为聚类核心点则找出所有与该点密度可达的数据对象点, 且数据对象个数不小于MinPts, 则形成一个类别簇。

(9) 如果该点不是聚类核心点且未被处理货标记, 则继续步骤9, 直到所有点都被处理, 最终得到的类别簇则为该改进算法的最终聚类结果。

三、实验结果

本文选用Iris、Wine和Balance三个含有噪声点的样本集作为实验数据, 分别对比传统的DBSCAN算法以及改进的PSO-DBSCAN算法。

在不同的数据集实验结果比较中, 发现改进的PSO-DB-SCAN算法的聚类准确性和抗噪能力要远远优于传统的DBSCAN算法, 这是由于改进算法采用了粒子群优化搜索确定参数的方法来优化初始参数, 使得算法不易受噪声数据的影响, 同时再加上粒子群算法的全局搜索能力使得算法的聚类能力大大提升。

四、结束语

本文提出的基于粒子群算法进行优化的DBSCAN聚类算法同时结合了粒子群算法与DBSCAN聚类算法的优点, 对于存在噪声点的数据聚类而言, 聚类的准确率要明显高于传统DBSCAN算法, 而且不易受噪声数据影响, 从而做到高效地处理数据。

摘要:聚类算法是数据挖掘中一种重要的挖掘任务和方法。聚类算法在大数据的特征提取中起到了至关的重要作用。本文介绍了以粒子群算法为基础的DBSCAN聚类算法, 通过与传统的DBSCAN算法比较分析得出改进后的算法不仅能够获得最佳的分类结果, 还能在很大的程度上提高算法收敛运行的速度。

关键词:聚类算法,粒子群算法,DBSCAN聚类算法,全局优化

参考文献

[1] 冯少荣, 肖文俊.基于密度的DBSCAN聚类算法的研究与应用.计算机工程与应用, 2007, 43 (20) :216-222.

[2] 孙吉贵, 刘杰, 赵连宇.聚类算法研究[J].软件学报.2008 (1)

[3] 李峻金, 向阳, 芦英明, 等.粒子群聚类算法综述[J].计算机应用研究, 2009, 26 (12) :4423-4427.

上一篇:中药学研究论文范文下一篇:药学教育论文范文