数据挖掘技术研究范文

2023-09-19

数据挖掘技术研究范文第1篇

摘 要 随着计算机信息技术的发展,网络的开放性越来越强,并随之带来更大的信息安全隐患。为确保涉密网络与非涉密网络之间数据的安全传输,基于光纤通信的数据单向传输能够实现数据失泄密的零风险。因此对基于光纤的数据单向安全传输的研究具有十分重大的现实意义。

关键词 光纤通信;单向传输;数据安全

计算机所展现的巨大便利性使其迅速在各行各业得以运用和普及,网络信息技术的高速发展是信息化建设成为各部门单位的重点建设项目之一,比如政务网络、金融网络、商业网络等,给人们生产生活打来巨大便利。信息网络的普及使得信息成为社会主要生产力和重要资源,这也引发了网络信息安全问题,其中信息在网络传输过程中遭受破坏是其主要潜在安全隐患。为确保信息在传输过程中的安全可靠,基于光纤通信的单向数据传输成为目前最为安全可靠的技术研究课题。

1 单向安全传输技术总述

目前的网络通信各层协议中,数据通信都是双向的,尚无实现网络层面的数据单向传输。基于光纤信息通信的数据单向传输是从物理层面出发,利用通信物件的单向物理特征,然后借助软件设计,共同实现数据不可逆传输。这种基于物理硬件的数据传输,就目前为止是真正安全的数据单向传输技术。单向安全传输技术的工作原理是利用外网服务器的光纤网卡,以单模光纤为传输介质,运用光电转换技术,结合光分路器,实现物理层面的数据单向安全传输。从数据传输速率方面考虑,光纤通信可实现传统以太网接口等不具备的高速传输。

基于光纤的数据单向传输技术研究,根据相关设备构成可分为四个层次,即硬件、系统、驱动和单向传输。四个层面的设备技术在发送端和接收端同时存在,且之间存在相互逻辑

关系。

2 基于光纤的数据单向传输系统实现

2.1 硬件设计

硬件设备分为发送端与接收端,分别由USB2.0接口电路、高速串行收发器电路、逻辑控制电路和千兆光模块发送(接收)电路组成。USB2.0接口电路、高速串行收发器电路、千兆光模块发送(接收)电路分别于逻辑控制电路相互连接,前三者又成串联模式,由USB2.0接口电路连接高速串行收发器电路,高速串行收发器电路连接千兆光模块发送(接收)电路。为确保数据单向传输,硬件设计由物理器件组成,其中发送与接收端分别采用只发光与只收光模块,除USB2.0端口外,其他硬件部分仅允许单向通信。

为实现高速传输及即插即用的功能和操作简便性,USB2.0接口选用Cypress公司的EZUSBCY7C68013A芯片;选用TI公司的SERDES TLK1501串行收发器芯片来确保数据在光纤设备中的传输是单向的,并且通过该芯片实现数据串行化;逻辑控制电路部分,为实现数据实时控制,采用可编程逻辑电路FPGA技术;千兆光模块需要专门定制只发光与只收光两种元器件。

2.2 系统功能设计

数据单向传输的两个终端是不同的两个网络结构,要想通过物理隔离模式完成两个不同网络间的数据单向传输,需要具备两个独立的平台,具备四个方面的主要功能。系统配置方面实现通道、目录配置及设计删除功能,主要分辨目录属性、IP、网卡等参数及数据传输速率;系统管理方面主要面向用户管理,内容包括操作日志,历史数据管理等;实时监控方面主要实现数据的发送、传输、接收等活动的监控,以及数据流量的统计;文件查询方面实现对发送、接收数据参数属性等方面的查询,包括名称、时间、速率、用途等。

2.3 驱动程序设计

驱动程序设计以EZUSB开发包为基础,利用EZUSB开发包自带的固件自动下载驱动和通用功能驱动程序的源代码,实现数据的自动下载、固件重新枚举、自动驱动,该程序能够自动识别EZUSB设备,并通过USB接口完成数据单向下载传输。该驱动程序的结构框架如下图所示。

2.4 单项传输业务系统软件设计

单向传输业务系统软件是面向用户的部分,以计算机为运行工具,通过用户的操作实现数据数据交换和单向传输。系统软件的主要功能分为两部分,一部分是以发送端软件为主,一部分是以接收端为主,其作用于数据管理交换的整个过程。该程序主要工作部分为发送端和接收端,同时又存在二次开发包,便于用户针对自身情况做针对性的二次开发。

从发送端看,其是数据单向传输的起点,主要作用于数据发送管理,比如系统参数的初始化、数据发送的状态监测、自动搜索数据文件、文件数据发送和协议打包等。从接收端看,其是数据单向传输的终端,主要作用于数据接收,用于管理接收设备的文件操作,工作内容主要包括系统参数初始化、接收单向传输过来的数据文件和协议包,解析协议包、将文件进行保存、接收文件状态的检测。从二次开发包部分看,其主要作用于系统的维护与升级,能够在原有功能基础之上,简单开发适合自身的应用程序。

3 系统运行状况

为验证本系统是否能够安全可靠的运行,在本单位进行实验,采用1 km多模光纤,分6项多周期进行验证,单向传输不同大小的数据包,每项数据传输重复实验多次。经过一定实验周期的检验,基于光纤通信的数据单向传输系统完全实现了数据从互联网与内网间的安全单向传输,并且其传输速率远大于串行或并行传输,且传输状态稳定,取得不错成效,具有实际推广运用意义。

参考文献

[1]杜宁.基于光纤传输的数据存储技术的研究与实现[D].哈尔滨工程大学,2007.

[2]王海洋,凡勇.基于光纤的数据单向传输系统设计与实现[J].信息网络安全,2011(9).

[3]孙楠楠.多点分布式光纤数据传输系统设计[D].中北大学,2014.

数据挖掘技术研究范文第2篇

根据目前基础地理空间数据生产技术发展和用户的需要, 基础地理空间数据产品主要包括以下四种基本模式:数字线划图 (DLG) 、数字正射影像图 (DOM) 、数字栅格地图 (DRG) 、数字高程模型 (DEM) , 简称为“4D”。这些产品可根据需要以数字和模拟二种形式提供。根据用户的需要可形成复合产品, 如数字线划图与数字正射影像图叠加可形成数字影像地形图。

(1) 数字线划图, 简称为DLG:是地形图上基础要素信息的矢量格式数据集, 其中保存着要素的空间关系和相关的属性信息。数字线划图可满足各种空间分析要求, 与其他信息叠加, 可进行空间分析和决策。

(2) 数字正射影像图, 简称为DOM:是利用数字高程模型对扫描处理后的数字化的航空像片或遥感影像, 逐像元进行辐射纠正、微分纠正和镶嵌, 按标准分幅的地形图范围进行裁切生成的影像数据, 带有公里格网和内、外图廓整饰和注记的影像平面图, 具有地图的几何精度和影像特征。DOM具有精度高、信息丰富、直观真实的特点, 可作为背景控制信息、评价其它数据的精度、现势性和完整性;从中可提取自然资源和社会经济发展信息或派生出新的信息, 可用于地形图的更新。

(3) 数字高程模型, 简称为DEM:是在高斯投影平面上规则或不规则格网点的平面坐标 (X, Y) 及其高程 (Z) 的数据集。为控制地表形态, 可配套提供离散高程点数据。

(4) 数字栅格地图, 简称为DRG:是以栅格数据格式存储和表示的地图图形数据文件。在内容、几何精度、规格和色彩等方面与地形图图形基本保持一致, 可用于DLG数据的采集、评价和更新, 也可与DOM, DEM等数据叠加使用, 从而提取、更新地图数据和派生出新的信息。

2 基本特征

2.1 数据格式

基础地理空间数据的数据格式主要分为矢量和栅格二种, 数字线划图为矢量数据集, 每一地理要素分别采用点、线、面描述其几何特征, 并赋予属性, 同时按要素分类分为若干数据层, 提供地理信息系统做空间检索、空间分析使用。数字正射影像图、数字高程模型和数字栅格地图为栅格数据集, 数据结构就是像元阵列, 每个像元由行列号确定它的位置, 且具有表达实体属性的类型或值的编码。

矢量数据能全面地描述地表目标, 可随机的进行数据选取和显示, 与其它信息叠加, 可进行空间分析、决策。具有严密的数据结构, 数据量小, 可完整地描述数据的拓扑关系, 便于深层次分析, 输出质量好, 数据精度高, 但其数据结构复杂、技术要求高。栅格数据具有数据结构简单, 空间数据的叠加简便, 易于进行空间分析, 相对来说图形数据量大, 数据和信息量受像元大小的限制。

2.2 基本内容

考虑到基础地理空间数据采集时间和产品的提供周期, 基础地理矢量数据可分为三个层次:第一层次分为核心地形要素;第二层次为在核心地形要素的基础上, 根据各地不同的需要, 选取更多的其它要素 (可选要素) ;第三层次为全部地形图要素 (全要素) 。

矢量数据的基本内容:大地控制测量数据 (包括平面控制点、高程控制点、天文点、重力点) 、水系及附属设施、建筑物及附属设施、交通运输与管线设施、境界、地表覆盖、地貌。栅格数据:DEM格网数据, 格网间距5m或12.5m;DOM影像数据, 地面分辨率为1m;DRG图形数据, 分辨率不低于250dpi。文本数据:地名数据, 含地名位置、类型、行政区划、经济信息等;元数据, 说明数据内容、质量、状况和其他有关特征的背景信息, 是数据自身的描述信息。

3 航空遥感数据生产流程及关键技术研究

基于全数字摄影测量的空间数据生产流程如图1所示。

3.1 资料准备

航摄资料如航摄底片、控制点资料、相关的地形图、航摄机鉴定表、航摄验收报告等应收集齐全;对影像质量、飞行质量和控制点质量应进行分析, 检查航摄仪参数是否完整等。

3.2 影像扫描

根据航摄底片的具体情况, 设置与调整扫描参数, 使反差适中、色调饱满、框标清晰, 灰度直方图基本呈正态分布, 扫描范围应在保证影像完整 (包括框标影像) 的前提下尽可能地小, 以减少数据量。影像扫描分辨率根据下面公式确定。

影像扫描分辨率R=地面分辨率/航摄比例尺分母。

3.3 定向建模

自动搜寻框标点, 放大切准框标点进行内定向, 对定向可由计算机自动完成, 人机交互完成绝对定向如不符合要求, 需重新定向, 直至符合限差要求。

检查定向精度, 需满足要求;完成定向后需检查坐标残差。

3.4 数据采集

(1) 立测判读采集, 需严格切准目标点要求按中心点、中心线采集的要素, 其位置必须准确, 点状要素准确采集其定位点, 线状要素上点的密度以几何形状不失真为原则, 密度应随着曲率的增大而增加。每个像对的数据必须接边, 自动生成的匹配点、等视差曲线或大格网点、内插的小格网点均需漫游检查, 保证其准确性, 为提高DEM精度, 需人工加测地形特征点、线和水域等边界线。 (2) 采集的数据应分层, 进行图形和属性编辑, 矢量数据线条要光滑, 关系合理, 拓扑关系正确, 属性项、属性值正确;利用DEM数据, 采用微分纠正法对影像重采样获得DOM数据。 (3) DEM和DOM数据需进行单模型数据拼接, 检查拼接处接边差是否符合要求;同样矢量数据接边应符合要求各属性值要一致, 任何不符合要求的数据均需重新采集, 修改正确的数据按图幅裁切, 生成最终的以幅为单位的数据, 提供检查和验收。

3.5 元数据制作

可由相应的专业软件进行计算输入各属性项中, 无法自动输入的内容由人工输入。

摘要:本文研究探讨了航空遥感数据产品生产流程及其中所涉及的关键技术, 文章首先对空间数据产品的模式和基本特征进行了详细的阐述, 而后给出了基于航空遥感的空间数据生产流称, 最后结合笔者工作经验, 重点探讨了流程中所涉及的关键技术, 全文既是笔者长期工作实践基础上的经验总结, 同时也是在实践基础上的理论升华, 相信对从事相关工作的同行有着重要的参考价值和借鉴意义。

数据挖掘技术研究范文第3篇

1 数据压缩的必要性和可能性

一幅1024×76、由24位真彩色构成的图像, 未经压缩所需存储空间为2.25兆, 一分钟24位真彩色、320×240分辨率、25帧/秒的PAL制式的视频所占存储空间喂兆29.6兆。由此可以发现, 未经压缩的多媒体数据量非常大, 如果不对如此巨大的数据量进行压缩, 无疑将给存储器的存储、网络的传输、数据的携带和计算机的处理速度带来极大的压力。另外, 分析多媒体数据可以发现他们之中存在极强的相关性, 同时还可以根据人的感知生理、心理规律, 利用人对数据或属性的不敏感性, 除去数据中存在的冗余。

2 数据压缩编码方法分类

多媒体数据压缩方法的本质是算法, 衡量一种压缩编码方法的优劣主要有如下指标:压缩比、压缩算法实现复杂程度、压缩和解压缩速度、解压后恢复的效果。经过几十年的多媒体数据压缩研究, 已经产生了各种各样的压缩算法, 并逐渐趋于成熟。按照不同的分类方法, 可以将多媒体压缩编码方法划分成不同的类, 比如, 从基本原理来划分, 压缩编码方法可以分为基于像素或波形的编码方法和依赖于对人类感知特性的研究的压缩编码方法两大类。犹如按照压缩后的质量是否存在损失划分, 可分为有损压缩编码和无损压缩编码。

2.1 无损压缩编码

无损压缩编码, 也称熵编码, 就是指使用压缩后的数据进行还原时, 与原数据完全相同, 不存在数据丢失的压缩编码, 无损压缩编码是可逆和可恢复的。典型的无损压缩编码有统计编码 (包括霍夫曼编码、算术编码) 、行程编码、LZW (Lempel Ziv Welch) 编码、不进行量化处理的预测编码。

2.2 有损压缩编码

有损压缩编码是指使用压缩后的数据进行还原时, 存在与原数据不同的地方, 存在数据丢失的压缩编码, 是不可逆和不可恢复的。主要的有损压缩编码有预测编码、变换编码、模型编码以及混合编码等。

3 静态图像压缩标准JPEG

3.1 JPEG标准的主要内容

ISO/IEC10918号标准“多灰度连续色调静态图像压缩编码”即JPEG标准选定ADCT (自适应离散余弦变换) 作为静态图像压缩的标准化算法。本标准有两大分类:第一类方式以DCT (离散余弦变换) 为基础;第二类方式以二维空间DPCM (差分脉冲编码调制) 为基础。

3.2 JPEG静态图像压缩算法

基于DPCM的无失真编码。为了满足无失真压缩的需要, JPEG选择一个简单的预测编码, 这种编码的优点是硬件容易实现, 重建图像质量好, 缺点是压缩比太低, 大约为2∶1。

基于DCT的有失真压缩编码。基于D C T的压缩编码算法包括两种层次的系统:基本系统和增强系统, 而且这种算法还定义了二种工作方式:顺序方式和累进方式。基本系统采用顺序工作方式, 只采用哈夫曼编码, 解码器中只存储两套哈夫曼表。增强系统除包含基本系统外, 还可采用自适应二进制算术编码。DCT编码的基本过程:首先进行DCT正变换, 再对DCT系统进行量化, 并分别对量化后的系数进行差分编码或游程编码, 最后再进行熵编码。

基于DCT的累进操作方式编码。基于DCT的顺序操作方式的编码过程是一次扫描完成的, 基于DCT的累进操作方式编码方法基本与顺序方式一致, 不同的是, 累进方式中每个图像份量的编码要经过多次扫描才完成。为了事先累进操作方式, 需在量化器的输出与熵编码的输出之间, 增加一个足以存储量化后DCT系数的缓冲区, 对缓冲区中存储的DCT系数多次扫描, 分批编码。通常有两种累进方式, 频谱选择法和按位逼近法。

基于DCT的分层操作方式。分层方式是将一副原始图像的空间分辨率, 分成多个分辨率进行“锥形”的编码方法, 水平 (垂直) 方向分辨率的下降以2的倍数因子改变。

4 运动图像压缩标准MPEG

4.1 MPEG-1系统

MPEG-1标准名为“用于大约高达1.5Mbps速率的数字存储媒体的运动图像及其伴音编码”。MPEG-1压缩的基本方法为:在单位时间内首先采集并保存第一帧图像的信息, 此后在对单帧进行有效压缩的基础上, 只存储其余帧图像中相对第一帧图像发生变化的部分, 以达到图像数据压缩的目的。它包括时间上的压缩和空间上的压缩两个方面。MPEG-1采用的是有损图像质量的非对称压缩算法, 压缩时间 (大约几十小时) 远远大于解压时间 (1个多小时) 。压缩只有一次, 需大量运算, 进行图像的比较分析, 而解压可有上千次, 运算量较少。

4.2 MPEG-2数据压缩标准

MPEG-2是建立在MPEG-1的基础上、以提高图像质量为目标的通用国际编码标准, 共包括系统、视频、音频、符合性测试、软件、数字存储媒体的指令和控制、非向后兼容音频、10比特视频、实时接口等9个项目。其中第1到3部分作为MPEG2的核心, 已在1994年11月正式公布执行, 其它的部分将在1995到1997年陆续公布。MPEG-2的压缩方法与MPEG-1的方法相似, 基本算法相同, 但增加了场间预测。MPEG-2的传输码率可以调整, 支持从可视电话到HDTV多种应用, 针对不同的用途, MPEG-2标准又分为4个等级和5个档次。

4.3 MPEG-4数据压缩标准

MPEG-4即“甚低速率视听编码”标准是针对低速率下的视频、音频编码和交互播放开发的算法和工具, 其显著特点是基于内容的编码, 更加注重多媒体系统的交互性、互操作性和灵活性。MPEG-4对每个视频对象的形状、运动和纹理信息进行编码形成单独的视频对象, 以便能够单独对视频对象进行解码。与MPE G-1和MPE G-2相比, MPEG-4更适合于交互视听服务, 它的设计目标使其具有更广的适应性和可扩展性, 应用在数字电视、交互式图形应用、实时多媒体监控、移动多媒体通信、Internet/Intranet上的视频流传输, 可视游戏、交互多媒体服务等方面。

摘要:随着多媒体技术的发展, 多媒体计算机系统要传存储、处理、传输的数据量越来越大, 由于多媒体数据中存在压缩的必要性和可能性, 因此数据压缩技术是目前尚需解决的一个迫切的问题, 本文主要讨论多媒体数据编码和压缩技术, 侧重于数字图像压缩技术的研究。

关键词:多媒体,数据编码,数据压缩,算法

参考文献

[1] 马华东.多媒体技术原理及应用[M].北京:清华大学出版社, 2002.

[2] 张小川.多媒体实用技术[M].北京:电子工业出版社, 2005.

[3] 钟玉琢, 等.多媒体计算机技术基础及应用[M].北京:高等教育出版社, 2005.

数据挖掘技术研究范文第4篇

近年来,随着计算机硬件价格的急速下降、通信技术的飞速发展,计算机在各个行业的应用的逐渐普及。 同时,由于各行各业的大量数据需要处理并且基本都建立了相应的数据仓库, 这些数据都只是具有表面特性,还没有得到有效利用。 通过在平时的工作和学习中,我们发现,在深入研究后,这些数据就犹如有个大“宝藏”,里面蕴藏着很多重要信息。 数据挖掘(Data Mining, DM)技术就是通过对海量数据信息资源的筛选和和深层次的发掘,发现其中隐含的各种潜在信息。 本文以遗传算法为数据挖掘的基础,初步其数据挖掘技术反洗钱应用问题[1]。

2数据挖掘概述

2.1数据挖掘的概念

数据挖掘是通过分析每个数据,从海量的、不完全的、有噪音的、模糊的、随机的实际应用数据信息中提取隐含在其中的、 人们事先不知道的, 但又是潜在有用的信息和知识的技术,主要有数据准备、规律寻找和规律表示3个步骤。 数据挖掘是数据库与人工智能技术相结合的产物,是目前国际上数据库和信息决策领域最前沿的研究方向之一,其典型系统结构如图一所示:

2.2关联分析介绍

数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等,其中数据关联分析是数据挖掘的重点。 数据关联是数据库中存在的一类重要的可被发现的知识。 如两个或多个变量的取值之间存在某种规律性,就称为关联。 关联分析的主要目的是找出数据库中 隐藏的关 联网 。 Agrawal等学者与1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。 他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。 关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。

设I={i1,i2,… ,im}是项集合 ;T={t1,t2,… ,tn}是事务集合 。 在事务集合T中,包含AUB的事务占全部事务的百分比称为T中关联规则A->B的支持度,记为support(A->B)=P(AUB)=s。 在事务集合T中,包含AUB的事务占包含A的事务的百分比称为T中关联规则A->B的置信度,记为confidence(A->B)=P(B|A)=c。

3遗传算法的基本原理和作用

遗传算法(Genetic Algorithm - GA)是当前国内外比较流行的关联规则挖掘的主要方法, 是对遗传选择和自然淘汰的生物进化 过程的模 拟 , 最早于1975年被美国Michigan大学的Holland J. 教授提出[2], 其包括5个基本要 素 : 1参数编码 ; 2初始群体的设定;3适应度函数的设计;4遗传操作设计; 5控制参数设定。

遗传算法的核心是遗传操作技术, 该技术的主要功能有以下三方面实现:

(1)选择算子 :该操作属于选择淘汰行为 。 从群体中对优胜的个体进行保留,从而淘汰掉劣质的个体。 其目的是吧优胜的个体特性遗传到下一代个体之上。 当前常用的选择算子有很多方法,比如常见的有适应度比例方法、排序选择法、排挤法等等[3]。

(2)交叉算子 :该操作是对两个父代个体的部门结构用替换重组的方式生成新个体,其目的是得到更优良的基因座个体。 国内研究比较普遍的是基于字符串编码的交叉方法。

(3)变异算子 :该操作是对个体的某些基因座进行基因值改变, 其目的是使得遗传算法具有局部的随机搜索能力, 通常比较流行的变异算子有基本变异算子、逆转算子等。

遗传算法作为数据挖掘的重要方法, 其基本步骤可以用图二来描述[4]:

遗传算法具有和强的鲁棒性,在解决大空间、多峰值、非线性、 全局优化等复杂度高的问题时具有独特的优势, 因此在数据挖掘中具有很高的研究价值。

4遗传算法在反洗钱中的应用

本文以西南 ** 大型图书销售集团为例,在该销售集团的销售数据中使用基于遗传算法的数据挖掘技术, 寻找最佳图书销售模式和图书货架摆放方式,以提高集团销售数量。 已知客户购买信息数据如表1:

根据客户购买数据, 本论文定义4个染色体来定义客户购买信息类型,即:1图书大类编码分为15种,采用二进制编码为4位 (2^4);2图书小类编码分为8种 ,也采用3为二进制进行编码;3单价分为三种,高、中、低,分别用00、01、10表示;4购买数量分为两种:批发和零售,分别用00、10表示。

遗传算法中需要设计的有染色体个体编码、初始种群、适应度函数、选择算子、交叉算子、变异算子等,其关键参数又包括群体规模n、交叉概率Pc、变异概率Pm、代沟G等,这些对遗传算法都会有很大的影响,因此必须详细考虑和设计。本论文从遗传操作的三个主要方面进行设计, 选择相应的交叉概率和变异概率,设计出符合图书销售模式的函数,找到最佳的图书货架摆放方式[4]。

(1)选择算子 :首先按照期望值 的整数部分进行取值,如果配对和交叉成功,则下一代期望数目减0.5;反之减1,然后将期望值按照大小进行列表,从大到小一次选择, 直到选满为止。

(2)交叉算子 :采用通用的两点交叉方式 。

(3)变异算子 :采用基本的变异算子 ,对销售数量基因以小于5的随机整数进行变异。

(4)变异概率Pm:变异概率Pm控制新基因的导入比例 ,因此过高或者过低都会造成后代失去双亲继承的好特性, 通过采用自适应调整的Pm:

其中,fmax是群体最大适应度,favg是群体平均适应度。依据经验值,在图书销售管理中,变异概率通常取得0.05比较合适。

(5)交叉概念Pc:交叉概率Pc是控制交换操作的频率 , 比较高的Pc可以达到比较大的解空间,但是如果太高又会损耗大量的时间在对解空间的搜索上,因此同样采用自适应调整的Pc来进行计算:

其中,fmax是群体最大适应度,favg是群体平均适应度,xmax是某次参与交叉操作中比较大的一个。依据经验值,在图书销售管理中,交叉概率通常取得0.8比较合适。

(6)适应值函数的设计 。

首先用支持度来定义规则,其规则的适应值函数f(x)可以用下式求出:

上式中,Sj是经过遗传操作后形成的一条新染色体规则Rj的支持度;S为用户给定的支持度的阀值。

(7)算法方案 。

a. 初始化随机生成一个规模为n的初始群P={A1,A2, … , An};获取销售出库单支持度S,置信度C。

b. 对当前种群中的每个个体计算适应值 :f(A)=S’/S,根据适应值对个体进行筛选;如果f(A)>1则保留该规则进入下一代,否则删除,并计算保留下来的个体数m。

c. 如果m

d. 按照交叉概率进行交叉 ;按照变异概率进行变异 。

e.判断是否满足终止条件 ,满足则结束计算并输出结果 ,否则跳至步骤b。

f.进行规则提取[5]。

5数据挖掘结果

通过以上给出的遗传算法和设定的相关参数,对西南 ** 图书商城的销售出库清单进行数据挖掘, 我们可以方便图1的挖掘结果。

从图中,我们可以看出,图书编号为0001(婴幼儿读物类) 和编号为0010(食谱类读物)之间的关联程度非常高,也就是说购买婴幼儿读物和食谱类读物的读者同时购买两类书籍的概率非常高。 从日常生活中,我们也可以很容易分析得到:购买婴幼儿读物的一般为家庭主妇或者还在照料小朋友的妇女, 他们一般都经营全家的饮食也有很高的兴趣。所以,书城可以把这两类书籍靠近摆放,这样对于提高销量有一定的帮助。 同样,图书编号为0110(军事类读物)和编号为1101(建筑类读物)也具有相当高的关联程度,而编号为0011(文学类读物)和编号为1001 (医学类读物 )关联程度比较低 ,这两类图书可以分开摆放 。

6结语

本论文通过基于遗传算法的数据挖掘技术,对西南 ** 商城的图书销售出库清单进行了相关的数据分析。根据最后的结果, 可以得出基于遗传算得的数据挖掘方法是有效的, 在图书销售的应用中也是成功的。通过算法的实现和分析指导,我们可以尽量通过摆放图书的位置,来提高消费者的购买兴趣,最终提高图书销售量。

摘要:基于遗传算法的数据挖掘技术是当前比较流行的海量数据分析方法。本文通过对数据挖掘相关概念、遗传算法的基本原理进行介绍和分析,采用合理的遗传算法和设定相关的参数,最后得出合理的数据处理结果,旨在为反洗钱应用提供数据支持。

数据挖掘技术研究范文第5篇

交通大数据平台架构主要由三大技术模块组成:首先是交通数据的采集, 也是架构中最核心的部分;采集完毕后则需要对采集到的数据进行分析以及处理以供相关交通管理部门或者车辆驾驶员对数据进行使用。

(一) 交通大数据信息采集模块

交通大数据信息采集是平台架构中最为关键也是最为核心的内容, 通过移动通信技术、车联网设备、高清监控以及云计算平台等, 实现对交通大数据信息的全面采集。获取车辆各项基础信息, 包括:车辆的定位, 行驶数据, 车辆状态, 周边路况信息等。采集数据是交通大数据平台技术环节中最为关键的一步, 要求的数据准确性, 精度很高, 一旦数据信息采集错误, 就会导致严重后果, 甚至威胁到人民的生命财产安全。

(二) 交通大数据分析模块

交通大数据采集完毕后, 下一步就是对采集上来的车辆行驶数据进行分析, 这项技术重要性仅次于采集技术。采用的方法是通过大数据挖掘技术、数据可视化分析、数据库分析等多种只有大数据具有的分析方法, 把结构化、非结构化以及多结构化交通大数据整合到大数据后台管理系统并对数据进行实时分析后, 产生出对交通主体决策和判断有价值的信息, 方便交通管理部门、交通各个领域的使用者以及社会公众对交通状况进行维护管理。后续方便提高交通信息服务质量, 优化出行方案, 实现交通领域的智能化提升与发展。

(三) 交通数据处理模块

通过对交通大数据进行分析后, 下一步则需要对数据进行处理。交通大数据相对于其他领域的数据具有数据量大、分布广的特点。数据处理模块就是通过具有一定规模的计算中心以及完整的计算框架, 实现高性能的强大数据处理和分析。由于交通数据分实时交通数据以及历史分析数据, 所以交通数据处理模块分两种框架, 实时计算框架处理实时交通数据流, 非实时计算框架处理历史分析等批处理数据, 虽然处理方式不同, 但是最终展现给用户的数据是相同的, 目的都是提供给相关交通管理部门使用的。

二、技术实现

大数据交通信息采集技术, 主要有静态交通信息采集方式和动态采集方式。静态采集方式的核心技术主要概括为:利用固定在道路的感应线圈或视频监控, 将安装在路面下的一个或多个感应线圈产生电磁感应, 然后检测通过的车辆行驶信息。动态交通信息采集方式则是通过, 磁频、微频、光电等检测器、路面情况及测重传感器等自动采集交通实时流量、车辆速度、时间、交通事故等交通参数来实现。交通大数据平台通过整合不一致的原始上传交通数据信息, 建立起统一的视频、图形、图像接入平台, 然后对数据进行抽取、集成以及深度的分析, 为交管部门和汽车用户提供可用的信息和知识, 方便对交通信息进行及时管控。

三、大数据技术应用实例

涉及到大数据应用方面有很多, 如果要把所有应用实例都列举出来, 不是一两篇文章所能完成的, 本文针对一款面向终端用户的智能交通终端软件“智驾行”来阐述下大数据技术在实际中的应用实例。首先介绍下这款软件所要实现的功能:“智驾行”是一款典型的车联网大数据方面的软件应用, 硬件是以安装在汽车上的OBD终端为载体, 通过硬件设备传输行驶数据到大数据平台, 后台对数据进行分析处理后, 通过终端面向用户的软件展现给用户, 用户可以通过软件实时查看车辆以及路况的信息, 为出行提供帮助。涉及到大数据的主要有: (1) 记录行车过程的驾驶数据, 包括:行车油耗、行车产生的油费、总里程、总时间、每个行程的碳排放等驾驶行车数据自动记载, 为汽车用户的驾驶行为习惯提供可靠性出行分析建议, 帮助驾驶员改善开车不良习惯。 (2) 建立车辆健康档案, 充当私人智能车医生, 车主通过查看该终端APP软件相关菜单功能项可以实时掌握所驾驶车辆的发动机、冷却液、变速箱、燃油、电瓶、节气门状况。 (3) 该车联网软件全方位提供了安防提醒功能, 车辆实时定位信息、碰撞提醒消息提醒、车辆异常报警、车辆故障、震动、电压、点火、驶入驶出所设置的围栏等多项提醒功能, 同时车辆管家还为车主保驾护航, 实现安全出行的保护。 (4) 精彩车生活导航、挪车隐私保护、紧急救援、路书游记记录、车辆行驶轨迹记录数据、商旅预定、上门维保、找代驾、附近停车、违章查询功能在该APP内可以通过大数据传输技术直接显示给车主。支撑智驾行APP运行的系统有:OBD车载终端、大数据后台管理系统 (主要对车辆上传, 采集的数据进行分析处理, 然后以用户便于理解的方式反馈给车辆用户, 实时掌握车辆的状况) 、智驾服务平台、智驾坐席系统 (主要提供紧急呼叫救援、车辆故障等一系列人工服务) 、智驾4S服务系统 (提供车辆保养, 维修等服务) 五部分组成。

四、结束语

随着越来越多的人涌入大城市, 随着带来的城市交通问题也越来越严峻, 路况拥堵, 事故频繁发生给相关交管部门带来就大压力, 智能交通大数据的出现及时缓解了这个问题, 为交通管理部门提供了极为有价值的交通大数据。虽然目前智能交通大数据技术还处于发展中阶段, 技术还不算太完善, 但也很大程度上缓解及解决了关于交通方面的诸多问题, 很大程度上提高了人们生活质量保障。后续随着科技的快速发展, 未来智能交通大数据技术将越来越趋于完善。

总之, 有效及时的引入交通大数据技术, 是一项利国利民的举措, 交通大数据技术研究与开发任务是艰巨的, 需求迫切度也是很大的, 未来发展前景一片光明。

摘要:随着交通的快速发现, 车流量数据、违法数据和道路设施信息正常速度不断加快, 传统数据库技术在数据存储和业务处理性能上已经无法满足庞大数据需求, 而大数据处理平台很好的解决了该问题。本文首先介绍说明了大数据架构的组成部分, 然后阐述了交通大数据的技术实现, 最后实例说明大数据技术在交通领域的具体应用实例。通过对智能交通大数据分析和挖掘, 实现了智能交通管理优化的目的, 更好地实现了决策科学化和出行智能化。

关键词:智能交通,大数据分析平台,智驾行APP大数据

参考文献

[1] 王宝云, 物联网技术研究综述[J].电子测试与仪器学报, 2009, 23 (12) :1-7.

[2] 邱卫云.智能交通大数据分析云平台技术[J].中国交通信息化, 2013 (10) :106-110.

数据挖掘技术研究范文第6篇

(1) 目前开展的旱情监测主要还是停留在气象灾害层面上, 还没有深入到农业层面, 现有的监测仅是气象灾害或灾害性天气的监测, 仅知道哪里有旱情发生, 但这种旱情能否成为农业灾害, 还不能确切地得知。

(2) 随着遥感传感器的发展, 用不同的传感器获取数据成为可能, 但是旱情监测对于遥感数据的选择有一定的限制。空间分辨率提高, 则微观尺度监测的结果精度会提高;时间分辨率提高, 对各种突发性、快速变化的自然灾害有更强的实时监测能力。一般空间分辨率越高, 时间分辨率就会降低。因此, 在遥感数据的选择上需要考虑空间和时间上的折衷, 这取决于旱情监测范围、精度要求以及旱情自身的特点等等。例如, 小范围的监测可以选择TM数据或雷达数据计算反映旱情的指标, 全国范围内的监测可以选择NOAA/AVHRR数据或MODIS数据。由于干旱是一个累积的过程, 如果有一个长时间序列的遥感数据进行干旱的监测, 就可以很好的监测旱情的发展趋势, 为决策提供更加可靠的信息。遥感数据多通道信息可以增强对地球复杂系统的观测能力和对地表类型的识别能力。在考虑遥感数据空间分辨率和时间分辨率的前提下, 也要充分利用遥感数据提供的多光谱信息。因此, 实现全国范围内的旱情监测, 遥感数据是否容易获取也是旱情监测最后能否运行的一个决定因素。

(3) 目前利用遥感数据计算各种能直接或间接反映干旱情况的物理指标, 己形成了很多种方法。但是干旱的发生由众多因素决定, 而旱灾更为复杂, 涉及农作物生长及其对水分的时空需要变化。因此, 指标的选取也是旱情监测最后能否运行的一个决定因素。各种指标都有自身的优缺点, 例如, 有些对于作物的监测比较好, 有些对于裸土监测效果比较理想;有些指标容易计算, 但考虑的影响因子比较少, 有些指标考虑的影响因子比较全面, 但太过于复杂, 使得全国范围内的计算难以实现。因此在指数的选取上不仅要体现对作物旱情监测的优势, 而且要考虑指数在全国范围内的计算是否可以进行。

1 国内遥感旱情监测指标反演进展

我国对VCI和TCI两人指数的应用都相对晚一些, 蔡斌等用VCI参照当时降水对全国1991年春季干早进行了监测和研究, 使用的是1985年至1991年的NOAA全球标准化植被指数资料, 时间分辨率为7天。选取出中国范围内的NDVI时间序列数据, 并对NDVI时间序列资料采用中值滤波法来去除噪声然后计算NDVI最大值和NDVI最小值。冯强等在基于植被状态指数的全国干早遥感监测试验研究中, 使用的是1981年至1994年的NDVI时间序列数据, 空间范围覆盖全国, 空间分辨率为8km, 时间分辨率为10天。但是在计算NDVI最大值和最小值时首先将NDVI历史数据从8km重采样为1.1km。冯强等在基于植被状态指数的土壤湿度遥感方法研究中使用的数据与上述一样。

2 某地区遥感旱情监测指标反演

遥感技术提供了丰富的信息, 从可见光到短波, 再到热红外, 最后是微波。1990年以来, 利用各波谱段数据计算各种反映干旱指标的方法己经有很多, 例如NDVI、距平植被指数、植被状态指数 (VCI) 、温度条件指数 (TCI) 等等。最近十年里, 遥感监测干旱的方法的研究有以下三个特点, 一是使用己有的指数, 如NDVI、VCI、TCI、CWSI和TS/NDVI等等。计算的原理相同, 使用的数据空间时间分辨率不同, 或是计算时参数的处理方法不同或是模型的不同;二是根据已有的原理, 提取新的指数, 如VTCI、VTDI、DSI等等;三是遥感与气象或是水文数据结合建立的新的指数如BMVCI等等。借用某种气象或水文指数, 分析其原理并将其中一些参数用遥感数据代替得到新的指数。

现将最近几年中用于旱情监测的几种主要方法的原理分别介绍如下。

(1) 距平植被指数法。

归一化植被NDVI是迄今为止应用最广的一个植被指数。很多卫星遥感数据都提供了计算这个指数所需的通道信息, 以MODIS为例, 计算式为:

其中1ρ为第一波段 (红波段) 的反射率, ρ2是第二波段 (近红外波段) 的反射率.它可以反映植被的长势, 可以间接反映旱情。

距平植被指数, 指某一年某一特定时期NDVI与多年该时期NDVI平均值的差值。计算式如下:

式中, ANDVIj为某年内j时的NDVIj距平指数, NDVIj为某年内j时的为多年内j时的NDVI平均值。可以用这个差值来反映偏旱的程度。多年平均值可以近似反映土壤供水的平均状况。因此NDVI资料的时间序列越长, 计算得到的平均值代表性才会越好。

本文所用数据是2009年4月与7月的MODIS月合成的NDVI产品。MODIS数据的几何纠正和镶嵌是用USGS EROS数据中心开发的MRT几何纠正软件进行的。得到该地区的每月合成数据后, 生成生长季4月与7月的ANDVIj数据 (图1) 。从图上可以看出, 7月份相对于4月旱情有所缓解。

(2) 植被状态指数法。

在不同地区, 因为不同区域作物生长季处于不同阶段, 需水情况不同, 旱不旱不能通过NDVI值的大小来说明, 而NDVI与历史平均值的偏差, 又弱化了天气的影响。

NDVI的变化受天气的影响, 尤其是类似严重干旱的极端天气现象时, 会远远超过正常年际间的NDVI变化, 有可能造成某一特定时期内不同像素间监测结果的可比性变差。为了反映天气极端变化情况, 消除NDVI空间变化的部分, 使不同地区之间有可比性, Kogan提出了植被状态指数VCI。定义如下。

其中, VCIj为j时的植被状态指数;NDVIj为j时的NDv工值;NDVImax为所有图像中最大的NDVI值;NDVImin为所有图像中最小的NDVI值。VCIj是NDVI在j时的相对于最大NDVI的百分比。Kogan假设植被NDVI最大值在最佳的天气中得到 (考虑到土壤营养的吸收, 天气条件可以刺激生态系统资源的利用) , 最小值在非有利的情况下得到, 如干旱和热, 通过生态系统资源的减少 (干旱年缺水减少了土壤营养的吸收) , 直接抑制了植被的生长。这样, 如果有足够长时间的NDVI序列数据, 就可以从中提取出NDVImin和NDVImin, 反映出极端气候状况, 计算的VCI结果在不同地区的比较更为合理。VCI是基于NDVI反演得到的, 因此对植被的监测效果比较好, 作物播种或收割后的时间, 监测效果比较差。

本文所用数据是2009年4月与7月的MODIS月合成的NDVI产品。MODIS数据的几何纠正和镶嵌是用USGS EROS数据中心开发的MRT几何纠正软件进行的。得到该地区的每月合成数据后, 生成生长季4月与7月的VCIj数据 (图2) 。从图上可以看出, 7月份相对于4月旱情有所缓解。与ANDVIj反映的趋势基本相同。

3 结语

本文应用MODIS数据对南方某地区的旱情进行了监测, 以作物生长季的4月和7月作为对比, 分析了, 及NDWI三个指标的变化趋势。相信对从事相关工作的同行有着重要的参考价值和借鉴意义。

摘要:本文基于笔者多年从事遥感减灾应用的相关工作经验, 以基于MODIS数据的遥感旱情监测为研究对象, 以某地区生长季的4月和7月为研究背景, 分析了ANDVIj, VCIj及NDWI三个指标的变化趋势, 给出了该地区旱情的变化趋势, 全文是笔者长期工作实践基础上的理论升华, 相信对从事相关工作的同行有着重要的参考价值和借鉴意义。

关键词:MODIS,遥感,旱情,NDVI

参考文献

[1] 杨玉永, 郭洪海, 隋学艳, 等.山东省小麦主产区旱情遥感监测系统的构建[J].科技创新导报, 2009 (1) .

上一篇:参观图书馆心得体会范文下一篇:疫情期间工会总结范文