聚类分析论文范文

2023-05-12

聚类分析论文范文第1篇

摘要：现阶段，随着我国经济的快速发展，金融领域的投资已经越来越受到人们的关注。但是金融投资带来收益的同时，也会存在着一定的风险。为了帮助投资者更好的了解市场趋势和投资方向，采取科学有效的分析方法是非常关键的。聚类分析作为一种统计方法，在金融投资领域得到了广泛的应用。本文首先分析了聚类分析的定义和基本特征；其次，探讨了聚类分析方法在金融投资分析方面应用的意义；最后，详细讨论了聚类分析在金融投资分析方面的具体应用案例。

关键词：聚类分析金融投资分析应用

现阶段，随着我国经济的快速发展，社会主义市场经济的规模也日益扩大，人们对于金融投资的关注度也越来越高。金融投资，有收益，必然也存在着一定的风险。因此，采取适当的分析方法有效降低风险，获得最大收益一直是非常重要的课题之一。在基础分析方法的前提下所建立的聚类分析法，对于股票的总体特征、变动趋势等能够做出更准确的判断，从而实现帮助投资者有效规避风险的目的。因此，对于金融投资者而言，熟练掌握聚类分析方法，具有一定的实用价值。

1 聚类分析方法概述

1.1 聚类分析的具体定义

实际上，聚类分析法主要是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它实质上是一种重要的人类行为。将数据分类到不同的类或者簇这样的过程就是聚类分析，因此，同一个簇中的对象具有很大的相似性，而不同簇间的对象却具有较大的差异性。目前，聚类分析方法是在数据挖掘、机器学习、生物學以及统计学等领域进行研究而得到的一种有效方法。通过将具有相似性的元素或者数据信息聚集成一个类，从而使得该类中的数据或者元素具有最小的相似性。目前，聚类分析方法作为统计学的一个分支学科，已经广泛应用于数据分析、图像处理技术、数据库技术以及模糊识别等多个相关领域。利用数据分析方法，对于稀疏区以及密集区能够做到准确的识别和判断，并且对于全局数据和相关数据之间的联系进行准确的分析。同时，聚类分析也广泛应用于实际的工作中。例如，对众多的消费者进行聚类分析，可以找到具有相似消费观的消费者，并且将其归为一类。例如，企业在制定营销决策时，聚类分析结果可以提供一定的参考性等。1.2 聚类分析的基本特征

第一，分析方法简单明了，直观易懂。将聚类分析方法运用于金融投资方面时，大部分股民可能对于金融术语或者金融专业知识缺乏深入的了解。但是由于聚类分析方法的统计结果具有科学性、可靠性等特点，股民或者投资者即使不懂背后复杂的计算过程和计算方法，但是其统计结果就是最好和最有力的证据和依据，通过简单明了、直观易懂的数据就能够对于问题进行很好的解释说明，因此具有很高的应用价值。第二，聚类分析由于具有较强的操作性，因此受到的投资类型等局限性和限制性较低，广泛应用于各种投资类型而不会受到外界的干扰。

2 聚类分析方法应用于金融投资分析中的意义

在金融投资分析中有效的运用聚类分析，通过量化的综合指标为金融投资者提供数据上的有力支撑作用，通过科学、有效的数据和统计结果对于投资者在金融投资时所显现出来问题起到一定的弥补作用。

2.1 对于原有的基本面分析等方法起到补充和完善的作用

在基础分析方法的前提下所建立的聚类分析法，对于投资股票等原先的基本面分析能够很好的起到一定的补充和完善作用。由于基本面分析法主要是采取定性分析的方式对股票的总体特征以及未来走势等进行分析和探讨，因此，定性分析会存在着较大的主观性以及随意性等缺陷和不足之处。采用聚类分析方法，可以对于定性分析所带来的不足之处起到很好的弥补、完善以及补充的作用。投资者在理性的长期投资方面，通过采用聚类分析的方法可以根据股票的总特征、未来走势以及收益状况等基本因素挖掘股票内部潜在的价值，从而为投资者提供理性的参考依据。

2.2 对于股票的发展潜力能够起到有效准确的预测作用

通过使用聚类分析方法在建立投资评价模型的过程中，已经将公司的成长状况以及行业潜力等对于公司股票发展趋势以及内在投资价值等具有重要影响的因素考虑在内。行业潜力以及公司成长情况是一个变化的趋势，在哥登模型中，假设股息不变的增长率与实际情况存在着较大的偏差，如果利用多阶段增长模型时，想要获取不同阶段的股息增长率是十分困难的一件事情。因此利用聚类分析建立投资模型的过程中，采用了利润增长率、主营收入增长率等指标对于公司的成长情况进行有效的衡量，因此对于公司的发展潜力能够起到准确的预测作用。

2.3 聚类分析方法具有直观性、实用性等特点

聚类分析方法与现代投资组合理论分析方法相比较而言，其最主要的区别在于，聚类分析具有直观性、实用性等优势。同时，由于聚类分析方法在实际运用的过程中由于受到投资类型、投资金额等因素的限制性较低，具有操作性强、局限性少以及适用性强等特性，因此更加受到广大投资者的青睐。

2.4 聚类分析具有长期投资的理念

现阶段，伴随着我国金融行业的快速发展，聚类分析方法已经越来越被广大投资者所采用。通过在金融投资分析过程中科学合理的运用聚类分析方法，可以有效的帮助投资者规避风险，获取最大的收益额，同时对于其他投资行为也可以起到一定的规范作用。同时对于一些投机行为和道德风险等也可以起到一定的规避作用，对于保持金融的稳定性和规范性等起到一定的作用，从而促进股票、金融以及证券市场等保持健康、繁荣的发展方向。

3 聚类分析方法在金融投资中的具体应用

3.1 基于聚类分析方法的金融投资分析指标体系建立

根据行业的发展水平等建立对应的评价指标，可以实现从定性研究转向定量研究。对于金融投资者而言，公司的盈利状况以及未来的发展趋势是进行金融投资时首要考虑的因素。因此，通过选取股票的每股收益、主营收入增长率以及净资产收益率等与股票具有较高相关性的指标，从而实现对股票的准确有效的衡量。

第一，盈利能力。一般情况下，公司股票的价值高低与公司的盈利能力有着密不可分的联系。总资产利润、主营业务收益率、每股收益、净资产利润率等构成了反应公司盈利能力的指标。股东投资回报率的多少可以由净资产利润率所反映，公司的利润以及发展趋势可以通过主营业务的收益率反映。

第二，偿债能力。公司资金的稳定性和安全性由公司的偿债能力反应。可以较好的体现公司偿债能力的指标有资产负债率、速动比率以及流动比率等指标。公司长期的偿债能力可以由资产负债率所决定，而流动比率以及速冻比率可以较好的反应公司短期的偿债能力。相关的指标的高低可以充分体现公司运用资金的情况。

第三，资产管理能力。资产管理能力对于公司在资产管理方面的效率可以起到有效的衡量作用，资产管理能力可以有效的反映公司的日常经营管理情况以及资金利用效率等情况。

第四，成长能力。具有成长能力的企业一般情况而言在总资产扩张能力、股本扩张能力等方面的优势较为突出，公司的盈利增长速度也较快。主营收入增长率不仅可以充分体现公司的成长能力，而对于公司未来的发展方向也能够起到一定的明确作用。

3.2 具体实例应用

为了进一步论证聚类分析在金融投资分析中的应用，本文选取深证A股上市的25支股票作为研究对象，对其进行聚类分析，并且对其结果进行分析。

（1）数据标准化处理。由于原始数据存在量刚性和数量级，为了消除这些差异带来的影响，有必要对原始数据进行标准化处理。利用样本均值、样本极差以及样本标准差的统计计算方法进行标准化处理。（2）逆指标正向化处理。由于流通股本属于逆指标，通过对其取绝对值的倒数进行正向化处理。（3）聚类分析。应用统计分析软件SPSS对30支股票进行聚类分析，可以得到分类结果为：第一类：一致药业、深赤湾B、宝信软件、安泰集团、中兵光电、中国软件、金城股份、亚星客车、上风高科、长城开发、湘潭电化。第二类：国金证券、盾安环境、国通管业、TCL集团、浦发银行以及邯郸钢铁。第一类：江苏吴中、公用科技、新都酒店、腾达建设、华茂股份、京都药业、北矿磁材以及方大B。（4）结果分析。对以上的聚类结果进行分析，我们可以发现，按照收益率状况进行排序，第一类股票的收益状况最好，第二类股票的收益率较好，第三类股票的收益率较低。因此，第一类公司的成长状况最好，但是由于经营发展需要，其资金周转较慢，建议对于这类公司的股票进行短期投资，但是不建议长期持有。对于第二类股票类型，因为其收益性较为良好，则表明公司的经营状况较好，因此这类型的公司具有较好的发展前景，建议对于这类型的股票应该进行长期投资。对于第三种类型的股票，由于其收益率較低，表明公司的经营稳定性较差，这类公司属于衰退型公司，所以投资的价值并不大。（5）聚类效果检验。进行聚类分析，得到聚类结果后，需要对于结果的有效性进行检验。检验所遵循的方法和原则是，利用方差分析，检验组内元素之间的差异性最小，组间的差异性最大。利用单因素、双因素或者多因素的多个正态总体均值是否相等进行检验。

4 结语

综上所述，通过聚类分析方法对公司的收益率、未来公司发展的趋势以及行业间的综合素质情况以及公司自身的经营情况等进行分析和研究，通过对相关的样本作曲线图，并且根据量化的方式对数据进行分析，从数据中找到相关信息，通过对样本图进行观察，找到图谱中指标之间的相似度和差异性，从而有效准确的判断投资的收益以及发展前景。聚类分析由于其实用、有效等优势和特点而受到更多的关注。通过使用聚类分析对各种量化指标进行全面又科学的分析，得出市场未来的发展趋势，为投资者提供可靠的参考和建议，从而可以让投资者有一个理性的认识，避免造成盲目投资，在一定程度上也给金融投资者带来一定的安全感和稳定感。

参考文献

[1] 葛妍.基于因子分析和聚类分析我国文化产业上市公司综合业绩评价[J].企业导报，2011（2）.

[2] 陈琦.聚类分析和判别分析在股票投资中的应用[J].中国市场，2011（26）.

[3] 李德荣，何莉敏，李玉，等.聚类分析和银子分析在股票投资中的应用[J].内蒙古统计，2011（1）.

聚类分析论文范文第2篇

一、聚类分析

聚类 (clustering) 是一个将数据集划分为若干组 (class) 或类 (cluster) 的过程, 并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。相似或不相似的描述是基于数据描述属性的取值来确定的。通常就是利用 (各对象间) 距离来进行表示的。聚类分析的典型应用主要包括: (一) 在商业方面, 聚类分析可以帮助市场人员发现顾客群中所存在的不同特征的组群;并可以利用购买模式来描述这些不同特征的顾客组群。 (二) 在生物方面, 聚类分析可以用来获取动物或植物所存在的层次结构, 以及根据基因功能对其进行分类以获得对人群中所固有的结构更深入的了解。聚类还可以从地球观测数据库中帮助识别具有相似的土地使用情况的区域。此外还可以帮助分类识别互联网上的文档以便进行信息发现。作为数据挖掘的一项功能, 聚类分析还可以作为一个单独使用的工具, 来帮助分析数据的分布、了解各数据类的特征、确定所感兴趣的数据类以便作进一步分析。通常聚类分析算法可以划分为以下几大类:划分方法;层次方法;基于密度方法;基于网格方法。常用的也是最知名的划分方法就是k-means算法和k-medoids算法及其变化版本, 在大型数据库中采用CLARA (Clustering LARge Application) 方法。本文拟采用典型的k-means算法对用户类型进行划分。

二、用户类型划分过程及结果

(一) 数据挖掘流程。

本文使用SAS Enterprise Miner对某公司某月用户消费数据进行分析。用户消费数据中包含5个变量:市话费 (L O C A L_F E E) 、长途费 (T O L L_F E E) 、漫游费 (ROAM_FEE) 、短信费 (SMS_FEE) 、GPRS费 (GPRS_FEE) 。本文提取正常在用的用户79924位, 设计了图1的数据挖掘流程。

(二) 聚类分析结果。

设定将用户划分为5种类型, 使用SAS Enterprise Miner对提取的数据进行聚类分析处理后。图2给出了5个变量在5种类型上分布的盒型图。从图2的结果可以明显地看出:1类主要为漫游型用户;2类为长途型用户;3类为短信型用户;4类为GPRS上网型用户;5类为市话型用户。

各类用户数及相关统计量如表1所示。在所有观测中有442个观测在5个变量上的值都是0, 被剔除。表2给出了各类的类中心值。观察每种类别各个变量的类中心值, 就可以明显看到, 在每一类中都有一个占主导地位的变量, 体现了这部分用户的消费倾向。

三、结论及应用

本文采用聚类分析对用户类型进行了划分, 使用5个变量 (市话费 (LOCAL_FEE) 、长途费 (TOLL_FEE) 、漫游费 (ROAM_FEE) 、短信费 (SMS_FEE) 、GPRS费 (GPRS_FEE) ) 将用户分为5类, 每一类体现了用户的消费倾向。各类的用户数百分比分布如图3所示, 其中市话型用户 (5类) 占总用户数的68.46%, 符合用户一般通话较多的实际经验;乐于发短信的用户占到了13.31%, 表明可以对这些用户推销短信优惠包, 提升短信指标;2类长途型用户占10.02%, 可以向这些用户推荐长途类优惠;漫游用户占3.59%, 表明该公司所处地域经常外出的用户不多, 可以推荐其使用具有漫游优惠的套餐包;4类为上网型用户, 可以推荐一些GPRS上网优惠包。根据模型得到的结果, 将其应用在自动外呼系统中向用户推荐短信、彩信等数据业务。经过多波次外呼营销, 外呼的接听率和成功率分别提高了5%和4%。

本文提取的数据为用户费用, 由于各用户使用的优惠不同, 相同时长所产生的费用可能不同。但是, 消费数据真实地反映了用户的实际消费, 满足了本文的需要。

摘要：本文采用聚类分析, 根据电信用户在几个关键指标上的消费情况, 将电信用户分为几种类型, 为针对性营销提供目标客户。

关键词：数据挖掘,聚类分析,用户类型,划分

参考文献

[1] SAS Institute Inc.SAS Data Mining Us-ing SAS Enterprise Miner-A Case Study Approach;

[2] SAS Institute Inc.Getting Started with SAS Enterprise Miner4.3;

聚类分析论文范文第3篇

由于各地区经济发展水平受到多因素影响和制约, 导致三十一个省市、自治区经济发展水平存在很大差异, 呈现出不平衡状态。本文利用国家统计局公布的2012年各地区的数据, 采用因子分析与聚类分析方法对全国各地区的经济发展状况做出评价, 对吉林省的经济发展状况具体分析, 并提出相应举措。

二、因子分析

(一) 评价指标的选择

本文选取了九个指标, 分别是:地区生产总值X1 (亿元) 、地方财政一般预算收入X2 (亿元) 、工业增加值X3 (亿元) 、第三产业增加值X4 (亿元) 、城镇居民人均收入X5 (元) 、国际旅游外汇收入X6 (百万美元) 、社会消费品零售总额X7 (万元) 、建设规模X8 (亿元) 、全社会固定资产投资X9 (亿元) 。本文运用SPSS13.0软件对这9个指标进行分析。

(二) 具体分析

在利用SPSS13.0软件分析时, 发现九个指标可以根据主成分分析法提取为两个综合指标, 就可以解释95.046%的信息。通过对这九个指标的分析最终提取两个公因子。从下图可以看出这两个公因子方差贡献率分别为60.545%和34.501%。特征根的结果如下所示。

从表1我们可以得出, 选取两个主成份就可以解释全部方差的95.046%的信息, 这说明这两个主成分足以代表上述选取的九个指标来评价各地区经济发展水平。从下面的碎石图拐点处我们也可以分析出提取两个公因子即可解释绝大部分的信息含量。

利用因子分析法我们可以输出初始载荷矩阵, 如下表2从输出结果来看几乎所有的因子解释性都很好。

采用方差最大正交旋转法进行分析, 可以得到旋转后的因子载荷值如表3。

上面表3描述的是各个因子与原始变量之间的相关程度。上述的载荷矩阵的系数越大表明与该因子的相关程度越高。根据主因子所反映的原始变量的信息特征, 我们将这两个主成份分别进行命名, 第一个公因子F1是“经济水平因子”它在地区生产总值X1 (亿元) 、地方财政一般预算收入X2 (亿元) 、工业增加值X3 (亿元) 、第三产业增加值X4 (亿元) 、社会消费品零售总额X7 (万元) 、建设规模X8 (亿元) 、全社会固定资产投资X9 (亿元) 这七个指标上具有较大的载荷矩阵系数, 将这七个指标综合为一类。第二个公因子F2我们把它命名为“收入因子”, 城镇居民人均收入X5 (元) 、国际旅游外汇收入X6 (百万美元) 这两个指标载荷矩阵系数比较高。通过以上的分析可知我们只需分析“经济水平因子”与“收入因子”对各个地区经济发展状况的影响。运用SPSS软件可以自动输出这两个公因子的得分, 如表4所示:

由表2可知在第一主成份即经济水平方面, 山东省的得分最高, 最低的是西藏自治区, 不过若是综合排名来看, 山东省就无法跃居第一了。再看第二主成份是收入因子, 得分最好的是广东省, 得分最低的是河南省。吉林省无论是第一主成份方面还是第二主成份方面排名都是处于20名左右, 可以得出吉林省在全国排名中处于中下等水平。从上述可以分析, 我国各地区的经济发展水平还是很不平衡的。东部地区大都靠前, 西部则比较落后。

三、系统聚类分析

为了验证因子分析正确与否, 我们可以采用系统聚类对上述的因子得分情况进行分析。本文采用瓦尔德法系统聚类, 并选择欧氏距离平方, 将这些地区分为四类比较合适, 第一类:浙江省、福建省、天津市、北京市、上海市。第二类:河南省、河北省、辽宁省、四川省、湖北省、湖南省、安徽省。第三类:陕西省、内蒙古自治区、江西省、山西省、黑龙江省、吉林省、广西壮族自治区、重庆市、云南省、新疆维吾尔自治区、贵州省、甘肃省、青海省、宁夏回族自治区、海南省、西藏自治区。第四类:江苏省、广东省、山东省。如此得出的结果与我们上述因子分析得出的结论大致相同。

以下表5是对九项指标均值方差的分析, 主要对吉林省进行分析, 吉林省地区生产总值2012年是11939.24亿元, 低于全国平均值18598.45亿元, 地方财政一般预算收入为1041.25亿元与全国平均值1970.2667亿元也比较低, 工业增加值为5582.48亿元再次低于全国平均值, 第三产业增加值、城镇居民收入尤其是国际旅游外汇收入远远低于全国水平剩下的一些指标同样低于全国水平。由此可知, 吉林省的经济发展水平在全国平均经济发展水平之下。

四、评价与建议

通过上述因子分析与聚类分析, 其结果具有一致性。我们得出全国各地经济发展很不均衡。主要表现为东部地区经济发展实力强, 收入也很不错。但西部偏远地区则底子弱, 收入水平也不高。为了改变这种差距, 我们必须采取相应的举措, 要继续振兴东北老工业基地, 继续实行西部大开发, 将人才源源不断的输送到祖国更需要的地方。当然当地政府也要改变其自身落后的发展模式, 实现更高效, 更绿色的可持续发展。这样才能逐渐缩小东西发展差距, 让全国人民都可以过上富足的生活。

【相关链接】

区域经济发展是一门经济学理论 (发展经济学) , 首先由西方发展起来。区域经济 (regional economy) 是指在一定区域内经济发展的内部因素与外部条件相互作用而产生的生产综合体。以一定地域为范围, 并与经济要素及其分布密切结合的区域发展实体。区域经济反映不同地区内经济发展的客观规律以及内涵和外延的相互关系。区域经济发展理论包括:区域经济发展梯度理论、区域经济发展辐射理论、区域经济发展增长极理论、区域经济发展的比较理论等。

1999年底召开的中央经济工作会议上, 正式把实施西部大开发战略列为2000年经济工作的一项重要内容, 国家开始实施西部大开发战略, 国家对不发达地区的援助进一步集中到西部地区, 国家区域政策的目标调整到促进地区协调发展上来。"十五"计划中将"实施西部大开发战略, 促进地区协调发展"专门列为一章, 强调国家要推进西部大开发, "国家实行重点支持西部大开发的政策措施, 增加对西部地区的财政转移支付和建设资金投入。并在对外开放、税收、土地、资源、人才等方面采取优惠政策"。2002年秋天在北京召开了十六大, 十六大报告明确提出:"支持东北地区等老工业基地加快调整和改造, 支持以资源开采为主的城市和地区发展接续产业。"这是中央首次提出振兴东北老工业基地的方略。十六大做出支持东北地区等老工业基地加快调整和改造的战略部署, 这是中央从协调区域发展和全面建设小康社会的全局着眼做出的一个战略决策。此后, 2004年中央又提出了"中部崛起"的中部地区发展战略。

摘要：由于历史、地理位置等因素使得我国各地区的经济发展水平出现不平衡的现状, 本文选取2012年数据运用因子分析与聚类分析对全国各地区的经济发展状况进行分析评价各地区经济状况在全国所处的地位, 主要对吉林省的现实情况做出详细分析, 最后根据发展状况提出一些可行建议。

关键词：因子分析,经济发展,建议

参考文献

[1] 李新蕊.主成份分析、因子分析、聚类分析的比较与应用[J].山东教育学院学报, 2007 (6) :23-26.

[2] 谭志云.西部地区文化竞争力比较研究—基于因子分析与聚类分析法[J].青海社会科学, 2009 (2) :44-48.

聚类分析论文范文第4篇

党的十九大强调要进行区域协调发展和乡村振兴计划, 四川作为西部大省, 在全国发展大局中具有重要地位。总的看来, 在西部地区, 四川经济发展较快, 稳中向好, 带动了西部地区的发展。然而, 在全国范围来讲, 四川的发展远比不上东部省市的发展。一方面是由于地理位置的制约和经济制度的缺陷, 另一方面则是四川辖区内的资源倾斜和发展失衡。四川既有奢侈品消费全国第一的一线城市成都, 也有积年贫困落后的甘孜、阿坝。坊间传言, 四川是在集全省之力发展省会成都, 四川的经济发展存在着严重的资源倾斜与失衡。无论传言真伪, 四川的经济发展裹足不前是不争的事实。近年来四川的GDP增长速度呈下降趋势;2015年四川省内各市州的GDP大不相同, 其中成都和攀枝花市尤为突出, 远超其他市州。

2 四川各市 (州) 经济发展的聚类分析

2.1 聚类分析的基本思想

聚类分析的基本思想是“物以类聚”——即我们研究的样本之间存在着不同程度的相似性。根据研究对象的多个方面的特征进行量化分类, 用它表示出研究对象间的相似程度。

2.2 评价指标的选取与处理

(1) 评价指标的选取

为了条理清晰地分析四川省的经济差异, 本文遵循科学性、合理性、可比性和可操作性的原则, 选取2015年四川21个市州的人均地区生产总值、第二产业比重、第三产业比重、人均固定资产投资、建筑业总产值、工业增加值, 人均可支配收入、进出口总额, 城镇化率、地方财政收入这10项指标。各项指标的数据均来源于《2016年四川统计年鉴》, 经计算整理后, 进行分析。

将以上指标数据输入spss18.0做描述性分析, 其输出结果如表1所示。包括各类指标的均值, 偏度, 峰度, 方差, 最大值及最小值。

再将数据输入SPSS18.0进行聚类分析, 采用系统聚类中的ward方法, 得到树状图如图1所示。

从树状图中我们可以直观地看到, 若将21个地市州分类, 则经过一次迭代, 内江、资阳、乐山、眉山、遂宁、宜宾、泸州、雅安、绵阳、广安、自贡、德阳、南充、达州、凉山、广元、巴中这17个市为一类;阿坝, 甘孜为一类;成都和攀枝花分别各为一类, 总计四类。

再将数据进行K-均值聚类, 得到单因素方差分析如图4所示:其中第三产业比重, 建筑业总产值, 进出口总额, 地方财政收入三者的P值小于0.05, 分类效果显著, 其他六项指标在0.05的显著性水平下分类不显著。针对以上十个指标来说, 我们的分类是不显著的。

3 实证结果分析

根据聚类分析结果图2, 四川21市州经济发展不均衡存在着显著差异, 发达得尤其发达, 比如成都, 落后的尤为落后, 比如阿坝, 甘孜。结合现实状况及实证结果, 四川的各市州可分成四个梯队。第一梯队是经济超发达地区:成都;第二梯队的绵阳, 德阳, 泸州, 攀枝花是经济发达地区;第三梯队是经济欠发达地区:自贡, 宜宾, 南充;其余市州为经济落后地区, 在第四梯队。

阶梯形成原因:

第一类地区:成都。自古为省会, 优越的地理位置、特色的旅游文化及政府的集中打造, 成都在工业、贸易、金融方面日渐繁荣。

第二类地区:与成都相邻, 有自己的特色产业。泸州老窖举国皆知, 德阳有发达工业, 攀枝花有钢铁产业, 绵阳是新兴的科技城。

第三类地区:自贡, 宜宾。没有大型的工业产业, 旅游业较为发达但没有形成特色。

第四类地区:自古以来无特色产业, 地理位置也并不优越, 地方发展主要靠政府拨款, 没有形成自身的产业结构。

总的看来, 以第三产业、建筑业, 进出口总额, 地方财政收入的不均衡划分的经济区域, 一定程度上是可信的。另外, 地理位置和政府政策的偏向性也是导致四川各市州区域经济的不平衡发展的原因, 本文在此不做赘述。

4 发展四川经济的建议

(1) 结合原有发展基础和区域禀赋优势, 大力发展特色产业, 走具有特色的经济发展道路。典型代表如德阳的工业、乐山的旅游业。未来, 四川各市州的经济发展要分门别类, 突出特色, 充分结合各自区域资源禀赋条件, 因地制宜, 思考发展潜在产业, 利用区域比较优势, 提高各区域的良性竞争力, 促进四川经济持续稳定发展。

(2) 要找出制约区域发展的因素, 促进产业结构的调整。四川各地经济水平差异极大, 很不协调。一些发达市州的发展甚至赶不上发展最好的成都市的十分之一。更别说阿坝, 甘孜受自然条件、地理位置、交通运输等因素的制约, 经济发展更为滞后。因此, 未来发展的首要任务是找出区域发展的障碍, 集中资源, 纠正基础设施、资金、技术和专业人才等方面的弊端, 促进各地发展。

(3) 完成产业结构的升级。对德阳、攀枝花这种有特色产业, 经济实力雄厚的地级市, 事实上固定资产投资和政府支出对促进区域经济发展的促进作用并不明显。其发展必须要结合区域战略发展规划, 在此基础上制定长期持续发展规划, 进行产业结构升级, 实现技术和规模的快速提高。形成更合理科学的产业结构, 促进经济的良性循环发展, 如此方能落实协调发展战略。

(4) 大力扶持落后地区的同时加强这类地区的产业的打造。凉山就是一个很好的例子, 从全国闻名的贫困地区到如今的脱贫大州, 政府的优惠政策与大力扶持功不可没。一个地区的发展, 不能完全由政府给予扶持, 自身需得立起来。政府要大力扶持甘孜, 阿坝, 给予足够的资源, 引领他们建立自身的特色产业, 落实国家的区域平衡发展政策, 使得四川经济更上一层楼。

摘要：四川经济在西部居龙头地位, 但全国只排在第9。四川本省内部不同地区间的经济发展的不均衡是制约其发展重要原因。本文首先选取四川各市州的人均GDP、人均固定资产投资、工业产值、人均可支配收入等指标, 进行描述统计分析, 然后使用聚类分析对四川各市州经济发展程度进行划分, 找出分类的显著因素, 并提出造成此类差异的原因和促进四川经济发展的建议。

关键词：四川发展,描述统计,聚类分析

参考文献

[1] 蒋志华, 顾振海.西部12省经济发展状况对比研究——基于聚类因子分析法的实证分析[J].经济体制改革, 2007 (5) .

[2] 蒋华.基于发展水平差异的四川县域经济聚类研究[J].西部大开发研究, 2013, (6) .

[3] 刘全.四川健康经济发展状况的因子聚类分析[J].问题探讨, 2006, (10) .

[4] 胡生军, 聂滔.四川区域经济差异与协调发展分析[J].合作经济与科技, 2015, (22) .

[5] 张鸿, 刘修征.电子商务对农村经济的影响——基于多元回归模型及聚类分析[J].江苏农业科学, 2017 (17) .

[6] 许利萍.基于因子分析的四川各市 (州) 经济发展评价[J].中国集体经济, 2012 (6) .

[7] 陈爽英.中国区域城市循环经济发展的聚类实证分析[J].中国软科学, 2017 (10) .

[8] 张鸿.电子商务对农村经济的影响_基于多元回归模型及聚类分析[J].江苏农业科学, 2017 (17) .

聚类分析论文范文第5篇

改革开放以来, 全国及各省内部的发展出现了不同的情况, 导致这些年来地区发展差异越来越大, 而西部大开发这一跨世纪战略的实施, 使位于西部地区青藏高原的青海省获得了前所未有的历史性发展机遇。近年来, 青海省各县市经济发展取得了明显的进步, 但是藏区的社会经济发展却呈现出严重的不平衡性。如何客观、准确地评价社会经济发展水平, 找出各个藏区经济发展的差距, 及产生差距的主要原因, 并确定各个藏区地方经济协调发展的策略, 是我们面临的主要问题。

社会经济发展水平评价的难点在于反映社会经济发展的经济指标众多, 每项指标从不同角度反映社会经济发展状况, 但依据它们做综合评价却有一定的难度。而多元统计分析是将多维因子纳入统一体系加以综合研究的定量化方法, 并在很多领域中得以应用。

本文选定青海省藏区25个县市为研究对象, 综合藏区的社会经济发展特点, 运用多元统计中的聚类分析法对其经济发展水平进行了定量化的综合评价, 并用类平均法对其结果进行分类, 从而探讨其发展的对策。

2 方法介绍

2.1 聚类分析的概念

聚类分析又称群分析, 它是研究 (样品或指标) 分类问题的一种多元统计方法, 所谓类, 通俗地说, 就是指相似元素的集合。

聚类分析内容非常丰富, 有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。本文主要采用系统聚类分析。

2.2 距离和相似系数

为了将样品 (或指标) 进行分类, 就需要研究样品之间的关系。目前用得最多的方法有两个:一种方法是用相似系数, 性质越接近的样品, 它们的相似系数的绝对值越接近1, 而彼此无关的样品, 它们的相似系数的绝对值越接近于零。比较相似的样品归为一类, 不怎么相似的样品归为不同的类。另一种方法是将一个样品看作这P维空间的一个点, 并在空间定义距离, 距离越近的点归为一类, 距离较远的点归为不同的类。

设有N个样品, 每个样品测得P项指标 (变量) , 原始资料阵如右式。

其中Xij (i=1, …, n;j=1, …, p) 为第i个样品的第j个指标的观测数据。第i个样品Xi为矩阵X的第i行所描述, 所以任何两个样品Kk与Xl之间的相似性, 可以通过矩阵X中的第K行与第L行的相似程度来刻划;任何两个变量xK与xL之间的相似性, 可以通过第K列与第L列的相似程度来刻划。

本文主要采用相似系数法进行分析。

2.2.1 夹角余弦

2.2.2 相关系数

通常所说相关系数, 一般指变量间的相关系数, 作为刻划样品间的相似关系也可类似给出定义, 即第i个样品与第j个样品之间的相关系数定义为:

2.2.3 类平均法

正如样品之间的距离可以有不同的定义方法一样, 类与类之间的距离也有各种定义。例如可以定义类与类之间的距离为两类之间最近样品的距离, 或者定义为两类之间最远样品的距离, 也可以定义为两类重心之间的距离等等。类与类之间用不同的方法定义距离, 就产生了不同的系统聚类方法。本文采用类平均法对样品进行归类。

以下用dij表示样品Xi与Xj之间距离, 用Dij表示类Gi与Gj之间的距离。

类平均法定义两类之间的距离平方为这两类元素两两之间距离平方的平均, 即

设聚类到某一步将Gp和Gq合并为Gr, 则任一类Gk与Gr的距离为

3 评价指标和数据来源

由于各地区的资源和天下无双条件的不同, 应采用不同的因素来进行分析。本文参考相关文献[3,4]选择能够评价经济发展水平的17个指标:

X1:人均国内生产总值 X2:人均工业增加值

X3:人均地方财政收入 X4:第一产业增加值比重

X5:非农业人口比重 X6:城乡居民人均 (元)

X7:城镇职工人均工资 X8:农民人均纯收入

X9:农民人均住房面积 X10:人均社会零售商品总额

X11:万人电话拥有量数 X12:万人拥有医院卫生院床位

X13:万人小学在校人数 X14:万人中学在校人数

X15:万人刑事立案数子力学 X16:万人民用汽车拥有量

X17:公路密度

对青海藏区25个县市的经济发展水平进行分析。原始数据来源为青海省2006年统计年鉴[2] (篇幅所限, 原始数据不再具体列出) 。

4 计算分析过程

4.1 评价方法的选择

多元统计中聚类分析的方法有多种, 各有优劣。本文中共选取了17个指标, 我们将要采用系统聚类方法中的pearson相关系数为度量指标, 来衡量个指标间的相关系数 (距离) , 再采用类平均法对各样品之间的关系进行度量。

4.2 指标的分析

首先为了消除量纲影响, 我们对原始数据进行标准化变化, 即对同一变量减去其均值再除以标准差:

而rij就会反映第i个指标和第j个指标的相似程度, 其值越接近1, 表示相似程度越高。如表1即为各指标间的相关系数表。

4.3 对各地区间的经济发展差异聚类分析

在对原始数据标准化, 求各指标间相似系数 (距离) 的基础之上, 采用系统聚类法中的类平均法对各地区间经济发展的相似程度进行分类, 具体聚类过程如表2。

采用软件SPSS10.0下的CLUSTER过程进行归类, 作图如下 (聚类分析谱系图) 。

从聚类分析谱系图可以看出, 在不同的聚类标准下, 聚类结果不同, 当距离标准逐渐放大时, 25个区域单元被依次聚类。

当距离为0时, 每个样本为单独的一类;当接近距离25时, 则25个区域单元被聚为3类 (效果最佳) ;最终, 当聚类标准 (距离) 扩大到25时, 25个区域单元被聚为1类。

5 结果讨论

依据以上结果将青海省藏区25个县市的社会经济发展水平划分为三个类别 (梯度) , 如表3。

通过表3可知:

I主要由环青海湖地区和柴达木盆地内的较发达牧业县组成;

II主要是由位于黄南州和海南州的一些中等地区组成;

III主要是由位于平均海拔高、自然条件恶劣、生态极为脆弱的青南玉树和果洛两个藏族自治州的落后地区组成。

环青海湖地区和柴达木盆地内主要是由于他们具有较发达的畜牧业产业, 以及较强的旅游业, 从而使得这些地区的经济发展在藏区的各县市中居于首位。而黄南州和海南州主要是以农业为主, 也不具备充裕的资源, 使得它们的经济发展呈现出中等水平。青南玉树和果洛两个藏族自治州位于平均海拔较高、自然条件恶劣、生态极其脆弱的地方, 其畜牧业及农业的发展相对太差, 经济发展缓慢。

但是青海省藏区总体经济发展水平较落后, 虽然这些地方拥有得天独厚的畜牧业条件, 可是由于这些地区的基础设施落后, 交通、信息条件差, 使得这些地区的社会经济发展水平较缓慢。而本文中的这三类分法正好符合藏区的社会经济发展形势, 能够为藏区社会经济发展策略的提出提供依据, 有利于政府正确及时为该地区的经济发展作出相应的对策。

摘要：本文通过多元统计分析中的聚类分析研究了青海藏区25个县市社会经济发展程度。使用了反映地方经济发展水平的17个指标, 运用相似系数法, 确定各个指标间相似系数, 然后再用系统聚类方法中的类平均法, 进行经济水平划分和区域划分, 对划分结果进行分析、研究。其中青海玉树和果洛两个藏区自治洲的经济发展水平太差, 政府应当给予更多的重视。

关键词：藏区,聚类分析,类平均法,经济

参考文献

[1] 孙文爽, 陈兰祥.多元统计分析[M].高等教育出版社, 1994.

[2] 青海省统计局.青海统计年鉴:2006[M].北京:中国统计出版社, 2007.

[3] 王晓鹏, 曹广超, 等.基于多元统计和AHP的青藏高原牧区可持续发展评价模型及应用[J].系统工程理论与实践, 2005, 25 (6) .

聚类分析论文范文

聚类分析论文范文第1篇

聚类分析论文范文第2篇

聚类分析论文范文第3篇

聚类分析论文范文第4篇

聚类分析论文范文第5篇

热门文章

精品范文

全站热搜