一种基于JavaWeb的数据挖掘系统功能的设计与实现

2022-11-04

目前信息处理的需求日益增涨, 比如电子商务需求, 即使是只算中国在2012年Q3财报季度的数据, 也都达到了2.05万亿的规模, 同比增长38.51%, 环比增长9.6%。其中, B2B电子商务市场交易规模达1.7万亿, 同比增长30%, 网络零售市场交易规模为2943亿元, 同比增长36.9%[1]。这种增长率和实际应用的复杂性迫切需要我们去探索适当的、快速的和有效的信息处理解决方案。

伴随如此迅猛互联网发展速度, 出现了大量的互联网商家, 做得大的如京东、凡客等, 这些商家都有自己的公司, 自己的团队和技术力量, 他们不需要也不用从外部获得推广的途径。但还有很多的小商家, 他们都是个人创业, 没有技术力量, 也没有多余的资金, 依附于淘宝、ebay、qq网购等商家来发布自己的商品。但是在互联网上, 同样的小商家千千万万个, 小商家们如何从这些网站中脱颖而出使得购物的用户能够很容易的找到自己的店铺, 这就成为小商家面临的最大的问题。

现在有很多企业推广解决方案可供选择。但如何结合实际应用这些解决方案是一个具有挑战性的课题, 很多完善的企业级推广系统虽然功能完善, 集成功能丰富, 但是价格非常昂贵, 不适合于小型商家使用。

本文提出了一种可适用于小型网站的数据挖掘集成应用的系统, 主要是使用户能够针对性的找到自己需要的产品或者使商家能够针对性的找到自己的客户。此系统是基于Java Web的基础而设计并结合实践进行了实际的应用。

1 国内外研究综述

1.1 国外研究综述

国外对Web服务技术的研究主要分为两个方面, 一方面是对Web服务的相关技术和标准本身的研究。包括微软、IBM、SUN等软件巨头对这一领域表现出了浓厚的兴趣, 他们不仅参与了Web服务及其相关标准的制定, 而且在Web服务的开发和相应的平台和工具支持方面也遥遥领先。目前己有许多有竞争力的Web服务框架和开发平台出现, 三个主要的竞争者是微软的.NET、IBM的Web Servise和SUN的Open Net Environment (NOE) 。这些框架都有其自身的侧重点, 但有着共同的基本Web服务定义和前景, 所有的框架都共用一套技术, 主要是SOAP、WSDL和UDDI等。同时, 他们都提供了Web服务应用的开发和集成环境。目前, 这些公司正致力于在世界范围内推广Web服务应用。另一方面是对Web服务技术的应用实践, 目前已有许多著名的网络企业采用了Web服务技术。著名网络销售商亚马逊发布了一套可以通过两种接口 (基于SAOP和HTTP协议) 访问的Web服务。通过这套Web服务, 用户可以使用程序获取亚马逊提供的各种商品信息, 包括产品名称、价格、制造商等。其中集成谷歌搜索功能, 搜索的接口是通过SOAP/WSDL实现的, 也就是说谷歌己将搜索功能包装成了WEB服务。由此可见, 在国外, Web服务技术的研究与应用己经进入了高速发展的阶段, 越来越多的商务应用将Web服务作为基础架构, Web服务己成为商务应用解决方案的首选。

1.2 国内研究综述

信息集成自被提出以来就引起了国内外众多科研人员的关注, 已成为当前数据库领域中的重要研究方向。很多研究项目是针对信息集成问题而开展的, 如TSIMMIS、Information Manifold、Garlic等系统都对不同的信息源提供了一种统一的集成存取。目前国内外信息集成的主要研究集中在数据集成上, 所使用的方法分为两种, 一类是以数据仓库技术为核心的物化方法, 另一类是以包装器 (Wapper) 和中间件 (Mediators) 为核心的虚拟方法。在前一类集成中, 所有待集成的数据都被实际存储到数据仓库中, 因而对于原有数据库的操作在集成后仍然可以直接使用。由于有实际大批数据的转换和集成过程, 这种方法需要耗费较大的时间和空间资源, 其最大的缺点是更新不及时和重复存储。在虚拟方法中, 中间层不存储任何数据实例, 只作为用户和信息源之间的接口, 通过查询规划将全局查询转换成信息源上的查询命令。在处理查询时, 由于需要访问信息源, 所以响应查询一般比较费时, 其查询代价较高。由于该方法不需要重复存储大量数据, 并能保证查询到最新的数据, 因此比较适合于高度自治、集成数量多且更新变化快的异构信息源集成。

近年来, 由于Web的飞速发展带来了网络信息大爆炸, 信息集成开始关注如何集成Web上的信息。虽然Web上的信息从本质上来说结构性较弱, 异构并且分散, 集成困难度较大, 然而由于这种信息载体覆盖的信息面之广、内容之全, 超过以往任何一种形式, 其信息集成的价值也非同小可, 因而逐渐成为研究热点。现有的研究中极少将传统数据集成与Web信息提取结合, 事实上这两种数据源对企业而言具有同等重要且优势互补的地位。此外, 数据集成作为信息集成的基础受到过多的关注, 而业务层次的集成鲜有学者深入。事实上, 业务层的集成相对于数据集成而言成本更低, 获得的数据更有效, 在特定情况下取得的效果则更为显著, 其最大的难点在于不同域、不同平台、不同架构之间的互操作。国内对Web服务及其相关技术的研究工作开展的较晚, 尚未取得突出的阶段性成果。目前对Web服务技术的研究主要集中在部分高校的科研机构内, 也有一些官方组织如UDDI-China (中国UDDI技术联盟) 正致力于在国内推广以UDDI/SOAP为核心的Web服务的实现和应用技术。在Web服务技术应用领域方面, 国内目前主要集中在少数企业内部, 如一些数据的查询、调用, 而涉及跨组织边界的、高安全性、高可靠性的Web服务应用还很不成熟。

2 系统设计思路

随着计算机技术和实际需求的发展, 开始向两个不同的方向拓展, 一是广度计算, 二是深度计算。

互联网就是广度计算的特征, 而数据挖掘就是深度计算的例子。本文说到的系统是基于这种发展趋势, 结合这两种计算特征, 采用B/S、Struts2框架, 在windows平台上采用Eclipse开发的集成应用DM、OLAP等数据分析技术来实现系统数据挖掘的功能。

本系统采用webservices来组织实现数据挖掘、OLAP等系统功能及其集成。这样进行逻辑应用层设计的好处是:1) 模块化程度高;2) 易于扩展;3) 集成方便;4) 维护性好。

3 系统体系结构及机制

本系统是基于WEB的四层体系结构, 其中的系统服务均基于struts2及spring框架构建 (如图1) 。

第一层为客户端的WEB浏览器, 用户使用Interent Explorer 5.5版本以上的浏览器即可访问, 也包括火狐、谷歌chrome浏览器等非IE内核的浏览器都可以正常访问;第二层为Web服务器, 采用Window XP程操作系统, 使用Tomcat6.02作为java服务器;第三层是应用服务器, 主要包括各类Web Service服务和数据挖掘引擎, Web Services包括主要的应用逻辑 (注册、登录、用户管理、后台管理等) , 其中数据挖掘引擎集成到Web Services中作为一项主要的应用服务;第四层是OLAP服务器, 采用My SQL, Analysis services组织并提供数据立方体。

本系统实现机制主要是考虑客户端的WEB浏览器如何与网络中的OLAP服务器进行交互。

4 系统应用及特点

目前, 很多广告的商业推广网站都是基于高级的数据挖掘技术而编写的, 价格贵, 对于小型的商家来说, 由于价格昂贵, 很多淘宝、QQ网购上的小商家无法负担, 因此局限性很大。现实中面向小型商家的数据挖掘技术应用于商业推广的网站并不多, 如何高效地开发出针对小型商家、与用户交互性强、容易使用和理解的数据挖掘应用系统, 以支持服务于小型网络商家的推广分析, 会针对每一个访问本网站的页面推荐其感兴趣的商品, 同时, 还能够根据用户对商品的浏览记录分析用户的偏好及习惯, 再通过此用户的偏好及习惯向其有针对性的推广对应的商品, 这样就能够使得大量的网络小商家能够更有效的推广自己的商品, 使得众多的小商家不必像以前那样盲目的推广自己的商品, 既节约成本, 又抓住了合适的客户。将这些功能集成起来的本系统为一个小型商业推广系统在这方面进行了有益的实践。

1) 主流的系统架构和技术:系统基于Windows2000/My Sql5.0/Tomcat6.02/Java/truts2/Spring平台, 采用B/S四层结构的分布式设计, 开发工具使用Eclipse、Dreamweaver等。

2) 实用性和有效性:前后台分工。后台为数据仓库和挖掘引擎, 主要由计算机专家和业务专家设计组织数据以及挖掘算法的实现;前台是应用逻辑通过WEB浏览器展示。这样就可以对一般用户屏蔽数据仓库和数据挖掘的复杂性。

3) 多种分析技术的集成:结合小型商家推广的特点分析, 主要集成OLAP、DM等数据分析技术, 主要以报表配合各种图形的呈现形式来达到分析用户浏览商品偏好并以此推广对应商家的目的。

4) 定制分析易于理解和使用:本系统针对小型网络商家推广方式和用户浏览的特点, 专为不同用户群体量身打造。

(1) 使用者:分为浏览用户 (未注册) 、普通用户 (注册未付费) 、高级用户 (注册并付费, 但付费有各种等级) 、管理员。

(2) 内容:分为查询和分析。使系统易于理解和使用。其中核心的分析模块, 一般用户只需简单的查询就可以从图形、图表中直观地获取实际有用的信息, 不必深知具体的分析技术过程及数据的结果分析过程。

5) 较强的可扩展性和可维护性:由于采用了分布式多层结构、Web Services技术, 使系统具有较强的可扩展性和可维护性。

6) 可靠的安全保证:可选择设定用户、操作系统、数据库、数据源和应用系统等多级安全设置, 使系统具有很强的安全保障。

本系统主要面向小型的网络用户, 主要集成了数据挖掘的数据分析方案, 同时由于未使用大型的、商业化的数据库, 因此成本低廉, 十分便于小型商家的推广使用。

数据挖掘集成应用是一种重要的数据分析应用解决方案, 具有很大的研究潜力。本文针对数据挖掘集成应用提出了一种简单的系统设计, 该系统结构基于Web多层框架, 具有很强的交互性和实用性;采用Web Services技术使集成应用DM和OLAP等技术易于实现;采用java、Tom Cat平台等技术, 使系统功能组织合理、可扩展性和可维护性强。实践证明该系统具有针对性强、交互性好、容易理解和使用的优点, 具有很大的实践意义和应用价值。

摘要:数据挖掘集成应用在现今的网络应用中, 是一个非常普遍的课题。本文提出了一种可适用于小型网站的数据挖掘集成应用的系统, 此系统是基于JavaWeb的基础而设计并结合实践进行了实际的应用。

关键词:数据挖掘,系统集成,小型网站

参考文献

[1] 2012年Q3中国电子商务市场数据监测报告.100ec.cn.

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:关于住院医师规范化培训档案管理工作的若干思考下一篇:推进党政机关保密工作的几点思考