数据探讨范文

2024-05-08

数据探讨范文(精选12篇)

数据探讨 第1篇

近年来, 水利信息化建设取得重大成就, 并逐步进入全方位、多层次推进的新阶段。水利信息网络基本覆盖全国;截至2012 年12 月底, 国家政务外网已连接31 个省 (区、市) 和新疆生产建设兵团、311 个市 (地、州、盟) 和2 251 个县 (市、区、旗) , 地市和区县级政务外网整体覆盖率分别达到93.9% 和80.1%;国家政务内网“十二五”计划扩充至县级[1]。水利日常工作基本实现电子化, 应用系统数量迅速增加, 积累了大量分布异构独立的业务数据;水利普查工程、水资源监控能力建设等项目的开展为水信息提供了持续更新的能力。与此同时, 各级水利单位及业务系统间的互联互通、信息共享、业务协同, 成为水利信息化深入发展的迫切要求。建立数据交换平台是整合信息资源、深度利用分散存储数据资源的有效途径。

随着水利信息化进程的不断推进, 特别是国家水资源监控能力建设项目的建设和水利信息网络覆盖范围的扩大, 为充分利用水利信息资源提供了肥沃的土壤, 水利信息的多点获取、分散处理与分布存储特性将促使各个业务部门建立相应的数据交换系统。这就迫切需要从整体上对水利数据交换平台进行规划, 做到信息化建设的“五个统一”[2], 避免出现交换平台建设过程中各自为政、互通困难、重复建设的现象, 进而保证交换主体间数据共享、发现与交换能够高效有序的进行。

1 交换平台的需求分析

国家水利数据中心总体布局为“三级两域四区”, 国家、流域和省级节点组成三级节点[3], 政务内网和外网形成两域, 并根据保密和访问权限分为A, B, C, D四区, 其中A区完全开放, B区运行于政务外网, C区运行于政务内网, D区为本级政府首脑机关提供特殊信息服务, 如图1 所示。水利信息资源分布存储于这些数据节点中, 数据间具有不同的保密等级, 信息交换体系需要支撑三级之间, 以及各节点内部不同区域之间信息交换的实现。

水利领域长期的信息化实践积累了大量的数据资源, 从采集方式视角归纳如下:实时监测信息, 主要包括水文观测 (地表地下水量水质状态等信息) 、水利设施在线运行状态、用水户用水排水等信息;通过自身业务办理过程搜集整理或不定期专项调查获得的信息;通过与国土、环保、气象和农业等政府涉水部门交换获得的信息资源。这些数据又以结构化、非结构化和半结构化等形式, 分散地利用文件、数据库等各种系统存储于国家水利数据中心各级节点 (数据中心内部亦分布存储) , 形成模式各异数据资源[3]。这就要求, 数据交换平台不仅要支持中央、流域和地方内网/外网的数据交换 (甚至是面向水利行业外的涉水政府部门以社会大众的数据交换需求) , 也要支持结构化、非结构化、半结构化等多种数据格式的交换。

在现有数据的基础之上, 国家防汛抗旱指挥系统 (二期) 、水资源监控能力建设项目等的开展也为水利大数据提供了持续更新的能力。此外, 随着水利信息化进程的不断推进, 水利业务应用将日益增加, 新生数据交换需求旺盛。水利数据交换平台还需具备前瞻性, 不能以特定的专用数据交换系统为目标, 要保障先期建设的数据交换系统能够为后续的数据交换需求提供基础, 面对新生数据交换需求时, 能够对后续建设系统进行指导, 快速利用现有交换资源[4], 尽可能少地进行新的建设就能快速形成解决方案, 满足新的交换需求;构建起分布数据资源和交换服务目录, 以形成可以“生长”的水利交换平台。

2 交换平台的体系架构

水利数据交换平台的总体体系架构用以描述构成水利数据交换平台的各组成部分, 以及各组成部分之间的相互关系, 便于从整体上了解“交换体系”概念。总体体系架构包含水利数据交换平台、交换节点和涉水政府部门交换业务系统, 如图2 所示。

水利数据交换平台作为构建于具体交换业务系统之上的控制与管理平台, 部署于国家水利数据中心国家级节点, 包括软硬件环境, 提供交换节点、服务管理, 以及数据目录和平台管理服务, 形成交换服务门户。交换平台中的中央交换库用以存储各级交换节点共享的交换数据 (构建数据目录服务支持发布与订阅) 及行业外交换过来的数据。

数据交换节点是指中央、流域和省三级水利单位构建的实现信息资源推送和拉取的单元。通过注册方式进入交换平台, 基于交换平台的标准与规范进行软硬件条件的建设和交换业务支撑软件的开发与部署, 依据交换平台的服务配置指令构建相应的交换服务 (结构化数据表、非结构化数据目录资源配置等) 。

交换节点是交换平台数据交换任务的执行单元, 实现数据资源传送和处理。交换节点部署交换库用以存储需要向外交换和从外接收的数据资源;针对具体的交换需求, 进行交换任务的管理, 实现对结构和非结构化数据交换服务的启动、停止等管理功能, 利用交换业务服务实现交换库中数据的推送与拉取。采用主动推送的方式将交换服务的运行状态推送至交换平台。特别注意的是, 水利数据交换服务平台需要具备基本的FTP数据传输能力, 各级交换节点在进行建设时必须构建相应的FTP服务。

国土、环保、农业与海洋等行业外涉水政府部门通过数据共享交换门户发现数据资源, 提交数据交换请求, 通过拉取与推送的方式获取数据;由涉水政府部门交换过来的数据资源统一进入中央交换库, 交换平台通过监控中央交换库, 实现对涉水数据交换过程的监控。

3 交换平台的工作流程设计

按照数据交换用户参与工作的内容, 水利数据交换平台用户可以分为数据拥有者、使用者, 交换平台和节点的管理者。其中数据拥有者是中央、流域和省等水利数据资源的拥有机构与个人;数据使用者是指需要从数据拥有者处获取交换数据的机构与个人;交换平台管理者是交换平台的维护与管理机构与个人;交换节点管理者是指中央、流域和省等三级交换节点的维护与管理机构与个人。数据拥有者和使用者是参与数据交换用户的不同角色, 同一用户可以同时承担这2 种角色。

水利交换平台的工作流程如图3 所示。数据拥有者从水利信息资源库中提取数据资源的特征信息, 编目形成交换资源核心元数据, 注册到交换资源核心元数据库中, 生成数据资源目录, 为使用者提供数据发现服务;针对数据使用者的交换需求, 数据拥有者从中抽取出需要交换的数据资源, 并根据需要进行转换和封装, 采用推送方式放入交换平台中的交换前置库中;数据使用者通过水利数据交换平台的数据交换服务拉取所需的数据资源 (或者由交换平台主动推送给数据使用者) 。数据拥有者和使用者通过推送方式将数据交换状态信息发送到交换平台运行管理支撑库, 交换管理者 (包括交换平台和节点管理者) 通过数据交换平台门户, 实现对交换平台数据拥有者与使用者交换过程的监控及交换平台的维护。

4 交换平台的功能设计

4.1 交换节点管理

交换节点管理用以实现中央、流域和省等三级交换节点的注册、配置和查询等功能, 对于3 种业务功能, 交换平台以门户访问和Web服务调用等方式对外提供服务。

交换节点注册供交换节点管理员依据节点元数据规范向交换平台进行注册。注册信息参考北京市地方标准《政务信息资源共享交换平台技术规范第3 部分:政务信息资源交换管理》[5], 主要包括:节点名称、类型、编码, 以及数据交换功能描述 (本节点具备的交换能力, 例如具备FTP, Tong GTP和Tong Link Q的交换功能软件) 、交换节点的类型 (由交换节点配置功能进行管理) 。

交换节点配置用以支持交换节点管理者配置交换节点的类型 (接收、发送、混合, 以及本节点能够接收和发送的数据类型) 。类型配置修改后, 需要再次提交到交换平台进行审核通过后生效。交换节点的交换能力可以通过逐步构建的交换业务系统得到丰富和完善。

水利数据交换平台通过交换节点注册形成交换节点目录服务, 通过交换节点查询功能提供按类型、状态查询各个交换节点的情况。

基于统一规划、分步实施的原则, 中央、流域和省级交换节点可以根据基础设施情况 (例如政务内外网的网络条件、软硬件设施等) 逐步构建交换节点, 节点建设完成后, 通过节点注册接入交换平台, 逐步形成对“三级两域四区”数据交换的需求。

4.2 交换服务管理

交换服务是指交换节点为实现水利信息资源的交换而提供的一组对数据操作的集合。为了实现交换服务的可生长性, 交换服务采用平台统一规划, 交换节点分别建设实施的模式进行构建, 各级交换节点依据交换平台的服务配置指令进行服务构建与运行维护。三级数据交换节点构建的交换服务须经交换平台审核后发布成为交换服务目录, 提供给数据拥有者和使用者使用, 以保证交换服务的全局通用性 (通过服务构建可以将交换节点现有的交换基础设施进行公用, 达到兼顾现有交换系统的目的) 。交换服务管理用以实现各级交换节点交换服务的建模、发布和查询。

交换服务建模用以支持在交换节点交换软硬件基础设施之上, 根据交换业务需求生成数据交换服务的构建指令, 交由交换节点进行构建, 建立起交换节点间的数据交换能力。交换服务审核用以审查交换平台管理者交换节点构建的服务是否符合交换平台的服务构建指令和接口规范;并将审查通过的交换服务发布成为交换服务目录。交换平台支持以门户和Web服务等方式查询交换服务目录获取相应的交换服务。

4.3 交换平台管理

交换平台管理包括监控、用户、日志和中央交换库的管理等功能, 用以维护交换平台的日程运行。

监控管理包括平台监控 (平台自身运行状态的查询和监控) 和交换监控 (对交换业务系统数据交换过程的监控) 。交换监控包括数据流量和状态的查询、统计与审计。交换平台支持主动和被动相结合的多模式交换监控策略, 其中主动监控指交换平台基于节点和交换服务目录, 主动获取相关服务运行状态;被动监控则由部署于交换节点的交换服务主动推送状态信息供交换平台进行交换统计。

中央交换库管理用以实现中央交换库交换数据的存储组织, 数据推送、转发 (经由中央节点下发的数据) 等;并依据交换平台的服务构建指令实现中央交换库交换服务的构建。

日志管理用以记录系统的运行状态, 及时发现运行过程中出现的问题, 并提供日志审核的功能, 形成对交换平台监控的支持。

用户管理用以实现交换平台管理员及数据拥有者和使用者 (数据目录的用户) 的管理功能, 包括对相关用户的权限、角色的分配与访问控制。

4.4 数据目录服务

交换平台提供对数据资源的共享服务功能, 支持数据拥有者将需要交换的数据 (包括中央交换库的数据资源) 发布成为目录服务, 以便数据使用者订阅与获取。数据目录服务包括资源编目, 目录审核、发布和发现等基本功能, 并支持以Web服务和门户等方式向外提供服务。

资源编目用以提供数据资源核心元数据的编辑功能, 并对数据资源核心元数据中的分类信息进行赋值, 实现元数据到交换平台汇集。通过建立相应的审核系统, 平台管理者确认提供者提交的数据资源元数据是符合标准要求的, 审核通过进行入库操作, 未通过审核的元数据返回给提供者修改。平台管理者通过部署于中央节点的目录服务器, 把数据资源核心元数据发布到交换门户系统上, 实现数据目录的发布。目录发现用以为应用系统提供标准的调用接口, 支持公共资源核心元数据的查询;提供无关键字的目录浏览、单条件的快速定位和多关键字组合的精确定位等方式的多途径目录内容查询。

5 交换平台的交换服务建模

通过交换服务建模, 后续构建的交换业务系统可以充分利用已有交换软硬设施, 保证交换平台具备“生长”能力, 例如水资源项目已建设部署有Tong DXP, Tong GTP和Tong Link Q等交换软件和相应的服务器, 后续的交换业务系统可以通过交换服务配置继续使用上述软硬件设施, 只需要通过交换平台进行服务配置即可达到快捷构建交换解决方案的目的。通过配置构建满足不同类型数据的不同周期、频次数据交换的需求, 以保证交换平台能够适应水利交换业务节奏。

交换服务的建模过程如下:

1) 获取交换节点服务能力。要构建相应的数据交换服务, 需要先判断相应的交换节点是否具备相应的数据交换能力, 即交换节点是否具备相应的交换软硬件设施, 交换平台管理员根据交换业务需求, 通过交换节点管理功能查询交换节点目录, 获取数据交换源和目的节点的交换服务能力。

2) 生成交换服务配置指令。基于交换源和目的节点的交换服务能力, 交换平台管理员结合交换需求生成交换服务配置命令下发给交换源和目的节点, 并将数据交换服务注册到交换服务目录中, 等待交换节点进行交换服务构建。

3) 构建交换服务。交换源和目的节点的管理员根据交换平台下发的交换服务构建指令, 基于交换平台的交换服务接口规范构建相应的交换服务, 并将所构建服务的信息反馈给交换平台。

4) 发布交换服务。交换节点依据指令建立交换服务后, 交换平台管理员对构建的服务进行形式化审查 (服务参数、时空范围值域等) , 审查通过后发布成为交换服务目录, 构建起交换节点的数据交换能力, 逐步丰富交换平台, 形成对“可生长”交换模型的支持。

通过交换服务建模形成丰富的交换服务目录, 数据拥有者可以通过交换平台的交换节点和服务的查询服务等功能, 获取交换节点具备的数据交换能力和相应的交换服务接口参数, 进而完成数据推送。同样的, 数据使用者可以查询交换节点的交换能力和服务接口参数进行数据的拉取。

6 结语

随着国家防汛抗旱指挥系统 (二期) 、国家水资源监控能力建设项目等的开展, 水利大数据时代已经到来, 大数据时代下, 如何通过数据交换实现水利数据中心“三级两域四区”大规模数据资源的自由流通, 是水利信息化建设必须破解的难题。本文从水利数据中心数据交换的需求出发, 总结多年来水利信息化实践经验, 对水利数据交换平台的设计进行探讨;为建设统一规划的数据交换平台, 实现水利大数据的深度利用迈出坚实的一步。

水利数据交换是一项系统工程, 交换平台的建设仅仅是万里长征的第一步, 如何保障数据交换常态化进行是关键, 后续需要针对具体的交换需求和数据资源构建交换服务, 充实数据目录, 完善管理机制和规章制度等。

参考文献

[1]中华人民共和国工业和信息化部.国家电子政务“十二五”规划[R].北京:中华人民共和国工业和信息化部, 2009.

[2]水利部水利信息化工作领导小组办公室.水利信息化顶层设计[R].北京:水利部水利信息化工作领导小组办公室, 2009.

[3]艾萍, 吴礼福, 陈子丹.水利信息化顶层设计的基本思路与核心内容分析[J].水利信息化, 2010 (2) :9-12.

[4]水利部水利信息化工作领导小组办公室.水利信息化顶层设计初探及进展[J].中国水利, 2009 (8) :8-10.

数据探讨 第2篇

摘要:为确保在大集中数据管理模式下数据的安全,本文就目前流行的ORACLE数据同步技术DATA GUARD、STREAM、GOLDEN GATE技术进行比较,分析其优劣,并结合业务需求,就如何建立同地和异地的数据同步机制进行探讨。

关键词:关键字:数据库 ;ORACLE;数据同步;安全

1. 现状及需求

1.1现状

从开始,我市建立了重庆市主城范围内集中统一管理的城镇地籍数据库,实现了城镇土地登记系统和数据的大集中,中心数据库采用ORACLE数据库平台。

按照我市土地和房屋合一登记的管理模式的要求,从开始,我市各房屋登记中心在全市集中的城镇地籍数据库的基础上,结合原有的房屋登记系统,以宗地为线索开展了房屋登记数据的清理工作,建立了全市集中统一的城镇地房籍数据库和应用系统。

1.2 需求

由于我市实行的是大集中的数据管理模式,中心生产数据库在出现故障的情况下如不能得到及时恢复,将导致全市土地和房屋登记业务停顿,因此必须在中心机房建立与生产数据库实时同步的数据库,确保在生产数据库出现较长时间不能恢复的故障的情况下,启用备用数据库,保证业务的连续。

同时,由于数据在市局统一存放,各单位无数据库。而各单位由于对数据使用的需求千差万别,无法在市局统一的数据库上满足其个性化的需求。因此需将市局集中的数据同步到各区,既可实现数据的异地备份,同时各区可利用改回备数据进行各类统计分析和专题利用。

2. 技术比较

目前基于Oracle数据库的数据同步技术大体上可分为两类:Oracle自带的数据同步技术和第三方厂商提供的数据同步技术。Oracle自带的同步技术主要有DataGuard,Streams, GoldenGate三种技术。第三方厂商的数据同步技术有Quest公司的SharePlex和DSG的RealSync。

本文重点就ORACLE本身提供的DataGuard,Streams, GoldenGate三种同步技术进行比较。

2.1 DataGuard技术

DataGuard是Oracle数据库自带的数据同步功能,基本原理是将日志文件从原数据库传输到目标数据库,然后在目标数据库上应用(Apply)这些日志文件,从而使目标数据库与源数据库保持同步。

DataGuard为源数据库提供了两种日志传输方式,ARCH传输方式和LGWR传输方式,其中,LGWR传输方式可实现同步和异步的传输。在这些日志传输的方式上,可提供三种数据

保护模式,即最大性能(Maximum Performance Mode)、最大保护(Maximum Protection Mode)和最大可用(Maximum Availability Mode)。

根据目标数据库对日志应用方式(Log Apply)的不同,该技术可分为Physical Standby(Redo Apply)和Logical Standby(SQL Apply)两种方式。物理同步是指目标库通过介质恢复的方式保持与源数据库同步。逻辑同步是指目标数据库通过LogMiner挖掘从源数据库传输过来的日志,构造成SQL语句,然后在目标库上执行这些SQL,使之与源数据库保持同步。

2.2 Streams技术

Streams技术是指利用挖掘日志文件生成变更的逻辑记录,然后将这些变更应用到目标数据库上,从而实现数据库之间或一个数据库内部的数据同步。

其实现步骤为利用Capture进程分析日志,生成逻辑记录(LCR),将其放入一个队列。Propagation进程将生成的逻辑记录发送到目标数据库中。目标数据库利用Apply进程将LCR应用到数据库中,实现与源数据库的同步。

Capture进程一般位于源数据库,Capture进程将日志分析后生成的LCR,然后再传输到目标数据库中进行应用。也可将Capture进程配置在目标数据库中,源数据库直接将日志文件传输到目标数据库,然后再利用配置在目标数据库的Capture进程进行分析,生成逻辑记录再利用Apply进程进行应用。

2.3 GoldenGate技术

GoldenGate数据同步的基本原理是由Extract进程读取源数据库的事物日志(Oracle中是redo log),将其中的变更操作(、update、等)按事务执行的顺序组合在一起,直接将其发送到目标服务其上,或者存放到Trails文件中,然后由Data Pump进程将Trails文件传输到目标服务其上,在目标服务器上Collector进程接收从源服务器传送过来的Trails文件,最后由Replicat进程将Trails文件中的.数据装载到目标数据库中。GoldenGate通过网络传输的数据量通常是日志量的1/4或更少。

以下为三者的优劣比较:

3. 技术选择

3.1 中心数据库与本地数据库同步技术选择

为避免中心数据库在出现长时间不能恢复故障引起业务的长时间停顿,我们利用购置的IBM P650小机建立了中心数据库的镜像数据库。考虑到中心数据库和镜像数据库均使用UNIX操作系统,而且都在一个局域网内,为方便配置,我们通过DATA GUARD实现中心数据库与镜像数据库的数据同步。同时,为确保数据数据的零丢失,日志传输采用最大保护模式。

3.2 中心数据库与区(县)数据库异地同步的技术选择

由于我市市级集中的中心数据库安装在UNIX操作系统上,而各区只能提供普通的PC服务器均安装的为WINDOWS操作系统进行数据回备,而且单位数量有三十多个,由于DATA GUARD只支持同平台的数据库之间的数据同步,而且只支持最多9个的STANDBY数据库。同时考虑到中心数据库之间与其他单位的数据库分别处于不同地方,之间用6M的网络相连,正常工作时间还需通过网络传输大量的业务数据,而通过STREAM的数据同步技术需占用大量的网络带宽。

由于中心数据库与区(县)数据库平台操作系统平台异构,同时要实现一个中心数据库与30多个数据库的同步,尽量减少因同步数据对网络带宽的占用,考虑到GOLDEN GATE在这些方面都具有明显优点,因此中心数据库与区(县)数据库的同步采用GOLDEN GATE的技术实现。

参考文献:

[1] 郭伟华 浅谈ORACLE数据同步技术 《科技资讯》.2

《数据结构》教学探讨 第3篇

关键词:数据结构;算法;教学;教学设计

中图分类号:G623文献标识码:A文章编号:1006-8937(2009)08-0172-01

1前言

1.1 “数据结构”课程的重要性

“数据结构”在计算机科学中是一门综合性的专业基础课,是介于数学、计算机硬件和计算机软件之间的一门核心课程。主要研究非数值计算的程序设计问题中计算机操作对象以及它们之间的关系和操作等。本课程可以为理解、应用和开发程序提供技术和方法支持, 是程序设计的基础。“数据结构”的教学旨在锻炼学生的抽象思维和创造能力, 培养学生的实践能力, 使学生学会用计算机解决实际问题时能有效地组织、存储和处理数据的方法, 并设计出相应的结构清晰、可读性好、质量高的高效率算法, 为后续课程的学习和计算机应用软件的研制打下坚实的理论和实践基础。

1.2 教学中普遍存在的问题

“数据结构”课程的先行课是相应的算法描述程序设计语言(如C++程序设计语言), 学习本课程要求学生掌握一定的用算法描述语言来编程解决问题的能力。 因此, 基础差的学生对本课程的学习会更加敬畏。另外, “数据结构”课程本身逻辑性强、抽象性高。因此在多年的教学实践中发现, 学生认为这门课程理论性太强、不好学, 学了不知有什么用、怎么用; 当面对具体问题时, 不知该如何应用学过的知识来给出切实可行的解决方案以及编制程序, 得到正确的结果。

2教学设计要点

要解决上述问题, 首先要加强理论教学, 教师在教学过程中尽量多采用一些动态效果来描述算法的思想, 使学生易于接受和理解, 并加深印象; 尽可能多地将前后内容联系起来从中寻找一些规律进行归纳提炼和使其系统化, 使学生能较好地理解各个知识点间的联系, 从而“削减”课程的复杂度。然后通过合理、有效地设计实验内容, 来强化理论教学的效果。

2.1以学生为主体, 温故而知新的教学方法

笔者在教学过程中发现, 由于C 语言是学生最先接触的程序设计语言, 编程思想与以往的思维方式不同, 教学难度比较大, 使得教学时间大部分花费在基本概念上。而学生对数组、结构体、指针这三种数据类型的认识和理解不深, 甚至印象模糊, 对函数、函数的参数、函数的返回值、函数调用的理解也不够, 对递归及递归过程更是难以理解。但是, 这些内容是数据结构课程的重要基础, 在数据结构课程中使用频率很高。对这些内容, 在数据结构课程教学中, 尽管老师费尽唇舌, 学生仍然模糊不清, 致使教学效果不理想, 学生甚至丧失对该课程学习的兴趣和信心。

为了解决这一具体问题, 要求学生在课余时间认真复习C++语言,课堂上结合课程实际适当补充C++语言必要的知识, 培养他们建立程序设计的思想体系, 逐步提高学生阅读和理解算法的能力。在本课程的教学过程中,同时设置、讨论、检查C++相关内容题目,穿插教学、温故知新。在教学中以学生为主体, 改变“ 填鸭式”的做法, 有效设计“ 提问—— 解决方法—— 再提问”的方式, 让众多的学生参与, 用问题去激发学生思考, 引导他们如何解决问题。

2.2多举实例, 调动学生学习兴趣

由于《数据结构》理论性很强, 直接从定义出发讲解相关概念学生不易接受, 在教学过程中, 结合日常生活中的事例引入, 可大大激发学生的兴趣, 从而调动学生的求知欲。

例如, 在讲解栈和队列这一章时, 分别举出日常生活中的事例。如栈的例子, 在刷洗盘子时, 依次把每个洗净的盘子摞到洗好的盘子上面, 相当于进栈; 取用盘子时, 又从上面一个接一个地向下拿, 相当于出栈。又如穿、脱衣服时, 一层一层往身上穿相当于进栈, 脱衣服时, 又反过来一层一层地向外脱相当于出栈。队列的例子, 人们为了购物或等车时所排的队就是一个队列, 新来购物或等车的人接到队尾(即进队) , 站在队首的人购到物品或上车后离开(即出队) , 当最后一人离队后, 则整个队列为空。通过引用实例既形象又直观, 即而使学生更加明确结构与算法的作用, 提高学生运用算法解决实际问题的能力。

2.3注重实验题目实用性和现实性, 提高学生兴趣爱好

在设计实验题目时应注重相关课程和实际生活和学习中的应用, 题目生动、接近学习和生活实际, 学生容易接受和理解, 易调动学习积极性。

2.4用普遍授课,不同设问的教学方法,提高所有同学的学习兴趣

教学中强调学生思考, 针对基础不同的学生采用不同提示和设问, 提高学生的学习信心。教师还应根据学生对基础内容的掌握情况来设计上机实践内容, 采用对不同学生进行不同提示和设问的教学方法, 在实验过程中充分发挥每个学生的思维能力和实践能力, 通过实验, 使每个学生都有不同程度的收获, 以提高他们对该课程学习的自信心。

2.5注意知识点的分类对比、适时总结

《数据结构》课程中很多内容是具有类比性的, 在具体教学过程中我们要把握这方面的特点, 充分挖掘出内容相关的知识点进行分类对比。比如对于《数据结构》内部排序的学习, 我们总共要讲述近十种排序方法, 对于每一种排序方法都要讲清楚排序算法的执行原理、算法的执行效率、算法的执行步骤以及所需存储空间的情况。内容非常多, 学生很容易把问题弄混淆。在教学过程中如果能够对所有算法从时间复杂度、空间复杂度、稳定性等方面进行列表、归类、对比; 然后给出具体的一组待排序数值序列用不同的排序方法通过多媒体演示的方法分别进行排序, 学生便可以一目了然, 轻松的掌握各种排序方法。

《数据结构》课程中同样有很多内容是层层递进, 前后联系的, 比如数据类型的存储结构始终是顺序存储和链式存储两种方式。与此同时, 学生对学过的知识又是分散的、片面的, 无法将知识相互衔接起来, 做到举一反三。这就要求我们在教学过程中要承前启后、不断总结、及时复习、注重理解。以链表学习为例,在线性表章节我们学习了单链表、双链表以及循环链表。它们三者是相互关联、层层深入的, 而后面章节中树的链表表示、图的邻接表和逆邻接表表示、拉链法解决哈希表冲突都是链表的应用。 在授课的时候应注意将前面的内容加以复习, 把有联系的内容相互串联起来形成一个完整的知识体系。

2.6设计综合性实验, 提高学生实践创新能力

综合理论教学和实践教学的结果, 组织学生以小组为单位,由教师布置综合性的题目, 或者由学生自己寻找感兴趣的题目,教师引导学生全面、综合地运用所学的基础知识来解决实际问题, 如开发一套具有售票、退票、查询、统计等功能的火车票自动售票系统, 或编一个学生爱玩的游戏等, 使学生进一步掌握数据结构的应用和软件开发的方法, 提高学生分析问题、组织数据、解决实际问题的能力。学生在整个过程中, 可以相互讨论、交流, 充分发挥学习积极性, 发挥团队精神, 共同进步。把优秀的解决方法放在校园网内供大家学习参考, 或者由完成者进行讲解, 让学生了解其他解题方法, 从中分析和比较不同算法的效率, 教师要及时了解学生对知识的掌握情况、题目的完成情况和学生意见, 有利于及时调整教学方法, 提高教学效果。

3结语

由于“数据结构”课程在计算机专业课程中的重要性, 及其较强的理论性和实践性, 使得它更需要合理、有效、系统地组织教学及实验,形成一个以教学方法、内容和手段为一体的教学体系, 才能有效地提高教学效果, 提高学生分析问题和解决问题的能力。

参考文献:

[1] 严蔚敏, 吴伟民.数据结构(C 语言版)[M].北京:清华大学出版社,1997.

[2] 严蔚敏, 吴伟民.米宁数据结构题集(C 语言版)[M].北京:清华大学出版社,1999.

大数据时代数据挖掘技术探讨 第4篇

随着信息化社会的快速发展, 已经诞生了云计算、 移动计算、 分布式计算、 互联网智能存储等关键技术, 促进电子商务、 电子政务、 金融通信等各个领域信息化系统的广泛发展, 积累了海量数据资源, 包括多媒体声音视频资源、 文本资源、 图片资源等, 使人们快速地进入到了大数据时代[1]。 数据规模变大增加了搜索的难度, 使得人们利用数据变得更加复杂, 为人们使用信息服务带来了严重的障碍, 采用数据挖掘技术可以过滤大数据资源的噪声, 更加精准地获取有价值的信息。

2 大数据发展应用现状

目前, 大数据已经在医疗信息、 智慧旅游、 在线学习、电子商务等领域得到了广泛的应用, 取得了显著的效果。

(1) 医疗信息。 医疗信息大数据可以为医疗服务提供有效的支撑, 实现智能诊断、 病例挖掘、 医保大数据服务等,提高医疗信息的智能化, 比如可以详细地分析某种疾病在每年各个月份的发生率, 寻找最大发生率月份进行专项防治,降低疾病对人类造成的损害[2]。

(2) 智慧旅游。 智慧旅游大数据可以有效整合旅游资源,将旅游景点、 酒店餐饮、 交通出行等形成一条完整的产业链,为用户推荐最佳的旅游线路资源。 在用户搜索旅游景点、 选择酒店住宿、 购买交通票务时为用户量身定制和推荐最佳方案, 智慧旅游经过深入研究和应用, 已经能够实现旅游资源的网上查询、 发布、 点评, 数据挖掘技术可以发现旅游者对景点资源的偏好, 发现旅游旺季、 淡季的时间, 以便制定完善的旅游体系, 提高游客自主性、 互动性、 趣味性和积极性,给游客带来新的体验, 提高旅游服务水平[3]。

(3) 在线学习。 大数据可以为在线教育整合、 集成和设计教育产品, 包括在线教育平台、 网校、 APP应用软件等,可以根据学习者的需求, 利用大数据挖掘算法进行细分, 将其划分为英语培训、 出国留学培训、 考验培训、 中小学课外辅导、 职业教育培训、 公务员考试培训等。 目前, 随着在线教育市场的火爆, 在线教育超越时空限制, 为人们提供了便捷性、 灵活性、 经济性等高质量服务, 已经诞生了新东方网校、 人人网在线学习等各大企事业单位推出的网上大学等,并且能够进行网络模拟考试、 端点续传等操作, 为人们提供极其方便的学习源地[4]。

(4) 电子商务。 目前, 目前, 随着淘宝网、 天猫网、 京东商城、 国美商城、 蘑菇街等电子商务网站的快速发展和进步, 电子商务已经如雨后春笋般出现在人们的生活过程中, 积累了海量的用户消费数据资源, 根据用户的购买喜好使用数据挖掘算法为用户推荐商品, 可以提高消费者搜索的精准程度,提高消费者的商品搜索的便捷性, 同时可以为商家制定营销策略, 及时准确地获取最畅销的商品信息, 提高供销比[5]。

3 数据挖掘技术在大数据分析中的应用

3.1 应用现状

大数据时代, 为了能够提高网络数据资源的利用率, 需要设计高效的数据挖掘算法, 从互联网中提取、 组织和处理相关的数据信息, 并且根据用户需求反馈搜索结构, 以便满足人们利用大数据资源进行医疗诊断、 文档分类、 语音识别、视频搜索等需求[6]。 数据挖掘技术可以有效地从网络海量数据资源中提取有价值的信息, 实现信息资源分类管理, 为人们的决策提供有效帮助。 目前, 数据挖掘已经在多个领域得到了广泛的应用, 并且引起了许多学者的研究。 大数据挖掘常用的技术包括支持向量机、 神经网络、 遗传算法、 专家系统等[7]。

(1) 支持向量机

支持向量机(Support Vector Machine, SVM) 基于统计学习理论, 采用结构风险最小化原理, 可以解决非线性、 小样本、 高维空间大数据挖掘问题, 以便能够利用有限的样本发现数据中隐藏的有价值信息, 为人们提供良好的大数据挖掘结果。 支持向量机与其他算法相结合, 逐渐应用到火炮控制、雷达扫描、 地质勘探等非线性大数据挖掘复杂场景。

(2) 神经网络

神经网络可以对训练数据进行自组织、 自适应的学习过程, 并且能够学习到最具典型的特征的样本和区分数据能力,以便能够得到不同的数据价值信息。 神经网络具备的分布式存储、 并行处理和容错能力, 都可以通过训练学习时调整不同的神经网络参数权值进行, 具有较强的外界环境适应变化能力, 同时具备非常强的抗干扰能力。 神经网络的不足之处是很难获得样本数据, 并且学习精度也需要依赖于神经网络训练次数, 如果加入了新的数据特征, 需要重新训练网络, 训练步骤较为复杂, 耗费较长的时间。 神经网络已经在医学图像处理、机器人、 工业控制等大数据挖掘领域得到了广泛的应用。

(3) 遗传算法

遗传算法是一种非常有效的模拟生物进化的大数据挖掘算法, 该算法可以针对一串描述字符的位串进行操作, 不同位串在实际的应用环境中代表不同的问题。 遗传算法可以从若干个初始的种群开始搜索, 根据当前的种群成员, 模仿生物的遗传进化过程, 选择基因优良的下一代作为进化的目标。目前, 遗传算法已经在很多领域得到了广泛的应用, 比如自动组卷过程中、 基因序列预测过程中、 数据库连接优化过程中, 均得到了广泛的使用。

(4) 基于专家系统方法

专家系统是最为常见的一种大数据挖掘技术, 其依赖网络中产生的专家经验知识为基础, 构建一个核心的知识库和推理机, 以知识库和推理机为中心, 构建一个能够进行规则识别、 分析的系统, 并且可以通过规则匹配进行模式识别。专家系统已经在经营管理、 金融管理、 决策分析等领域得到了广泛应用, 并且逐渐引入了马尔科夫链、 贝叶斯理论、 概率论、 模糊数学等统计分析知识, 可以确保专家系统量化识别功能, 不再仅仅依靠经验知识推论。

3.2 发展趋势

随着大数据的应用和发展, 数据量将会更大, 数据结构也更加负责, 因此大数据挖掘技术未来的发展趋势主要包括以下两个关键方面:

(1) 提高数据挖掘准确度。 由于大数据资源具有动态性、分布性等特征, 大数据在应用过程中也日趋复杂, 为了提高电子商品推荐精确度、 智慧旅游线路推荐的合理性等, 需要提高大数据挖掘的准确度, 提高精确度的方法包括引入自适应、 模拟退火、 粒子计算等理论, 具有较好的作用。

(2) 改善数据挖掘的时间复杂度。 大数据挖掘过程中,由于用户的时效性要求较高, 为了提高用户的感知度, 需要改善数据挖掘算法的时间复杂度, 以便能够更加迅速地挖掘数据中潜在的知识, 为用户进行在线学习、 医疗诊断等提供决策支撑。

4 结语

临床数据造假入刑探讨(推荐) 第5篇

2017年9月,《最高人民法院、最高人民检察院关于办理药品、医疗器械注册申请数据造假刑事案件适用法律若干问题的解释》(以下简称《司法解释》)正式予以实施,该《司法解释》规定1:

(1)药物非临床研究机构、药物或医疗器械临床试验机构、合同研究组织故意提供虚假的非临床研究报告、临床试验报告的,可以按提供虚假证明文件罪定罪处罚2;

(2)对于药品注册申请人自己弄虚作假,提供虚假的非临床研究或者临床试验报告及相关材料,骗取药品批准证明文件的,可以按生产、销售假药罪定罪处罚3;

(3)药物非临床研究机构、药物或医疗器械临床试验机构、合同研究组织与药品注册申请人共谋,提供虚假的非临床研究或者临床试验报告及相关材料,骗取药品批准证明文件,同时构成提供虚假证明文件罪和生产、销售假药罪的,以处罚更重的犯罪定罪处罚4。

2017年5月,即《司法解释》审议并通过后一个月,清华大学法学院组织召开了一次专题研讨会,针对《司法解释》上述三项内容的规定进行深入讨论。在讨论过程中,有部分学者针对其内容提出了不同看法,其中最主要的观点是:针对将临床数据造假的行为,视为生产、销售假药的预备过程,这一解释存在扩张解释的嫌疑,过分延长了生产、销售假药的预备过程,不符合法律精神的要求。针对《司法解释》进行如下分析。

(一)提供虚假证明文件罪是否科学

《司法解释》规定:“药物非临床研究机构、药物或医疗器械临床试验机构、合同研究组织故意提供虚假的非临床研究报告、临床试验报告的,可以按提供虚假证明文件罪定罪处罚。”

首先,从刑事主体角度分析,该规定中,明确规定了刑事主体包括:“药物非临床研究机构”、“药物或医疗器械临床试验机构”、“合同研究组织”5。对比 12 《重磅:药品临床试验造假入刑《司法解释》已通过》[J].《世界最新医学信息文摘》,2017(31)

王晨光,李广德,《药品注册申请数据造假入刑的法理评析》[J].法律适用,2017(17):109-114 3 王晨光,李广德,《药品注册申请数据造假入刑的法理评析》[J].法律适用,2017(17):109-114 4 王晨光,李广德,《药品注册申请数据造假入刑的法理评析》[J].法律适用,2017(17):109-114 5 王晨光,李广德,《药品注册申请数据造假入刑的法理评析》[J].法律适用,2017(17):109-114 这三类刑事主体,不难发现,这三类主体其本质都属于“中介组织”。我国刑法第229条对“中介组织”规定应满足如下条件:

(1)合法性,即该组织应依法成立;

(2)连接性,即该组织能够在市场各类主体之间形成联系;(3)服务性,即该组织为各类主体提供服务而从事相关的行为。上述三类主体,虽从其名称其从事业务来看,不属于刑法第229条中“资产评估、验资、验证、会计、审计、法律服务”等内容6,但从其本质来看,这三类主体都是依法成立的、具有连接性的、从事特定业务为市场主体提供服务的特定组织,属于“中介组织”,因此其符合“提供虚假证明文件罪”的主体特征。

其次,从侵犯客体的角度分析,“提供虚假证明文件罪”中所指“资产评估、验资、验证、会计、审计、法律服务”中介机构,其提供虚假文件的行为7,具体损害的客体是国家的工商管理制度,上述中介机构提供的文件主要针对的企业或公司的成立资格或经营情况。对比《司法解释》中的三类主体,其所提供的数据,主要用以证明药品实验数据的科学性和合理性,是药品注册申请人获取药品批准证明文件的基础和依据,其所侵害的客体不是工商管理制度,而是药品生产的安全性和药品市场的健康与稳定。

笔者认为,将上述三类主体的数据造假行为,定义为“提供虚假证明文件罪”缺乏科学性,对其行为的本质定义存在偏差。药品临床数据的真实客观,关系着药品功能和效果的真实客观,它不仅是药品监管部门对药品安全性审核评价的标准,是药品进入生产流通领域的关键,同时也是关系社会大众生命健康是否得以尊重和保障的基础,其重要性与刑法229条所规定的证明文件存在显著差异,其造价的危害性,更加不是损害我国工商管理制度所能比拟的,临床数据造假不仅危害公众生命健康和安全,而且对药品市场的健康稳定发展也会造成不良影响,损害我国医药企业的发展,损害国家监管机关的公信力,对国家综合国力也会造成损害。

(二)生产、销售假药罪是否科学

《司法解释》第二项内容规定:对于药品注册申请人自己弄虚作假,提供虚假的非临床研究或者临床试验报告及相关材料,骗取药品批准证明文件的,可以 67 杨兴培;陆敏,《破坏市场经济秩序犯罪中的法条竞合问题研究》[J].《华东政法学院学报》,2000(01)

阿山,《伪造检验结果 承担法律责任》[J].《中国质量报》,2001(10):27-28 按生产、销售假药罪定罪处罚;第三项内容规定:药物非临床研究机构、药物或医疗器械临床试验机构、合同研究组织与药品注册申请人共谋,提供虚假的非临床研究或者临床试验报告及相关材料,骗取药品批准证明文件,同时构成提供虚假证明文件罪和生产、销售假药罪的,以处罚更重的犯罪定罪处罚8。

对于“临床数据造假”、“骗取药品批准者证明文件”等行为,两高给出解释,按照“生产、销售假药罪”予以定罪处罚。司法解释认为,临床数据本身属于药品生产与销售的预备阶段,是药品生产的基础和前提,属于药品生产与销售的上游行为。从这一角度分析,药品临床数据,是在药品实验过程中获得的数据,是药品最终生产的参数,但药品临床数据的获得,是一个漫长的复杂过程,其需要经过长时间的反复实验,并通过动物实验,最后在确保安全性的前提下,进行人体试验,再反复观察、分析与研究,才能对药品的成分、含量、功能、不良反应等基本内容,获得准确的结果和数据,将其作为药品生产与销售阶段似乎在情理之中。但从司法解释的角度来分析,扩张解释的痕迹也不容忽视。

扩张解释,实在遵循立法精神的基础上,根据社会现实的客观需求,对刑法条文的含义,进行扩大范围的解释。从本质上讲,扩张解释中解释的内容,是对刑法条文字面含义的扩充,是范围的扩展,而扩张内容与刑法条文之间的法律联系,是扩张解释合理性的基础9。扩张解释在合理范围内,一定程度上改善了刑法条文局限性和滞后性的缺陷,能够通过解释,丰富条文内容,扩充条文范围,更加适应社会发展过程中的客观需要,但一旦出现不合理的扩张解释,就会导致司法解释过于扩大化,这既不符合刑法的立法精神,同时也不利于我国立法的进步于发展。

我国刑法第141条规定,生产、销售假药罪,指的是生产者、销售者违反国家药品管理法规,生产、销售假药,足以危害人体健康的行为10。从主体来看,本发条所指的主题包括药品的生产者和销售者,但临床数据造假的主体,只有药品注册申请人符合本发条的主体特征,属于药品的生产者,而药物非临床研究机构、药物或医疗器械临床试验机构、合同研究组织此三类主体11,其本质是中介机构,是从事药品临床试验的机构,是为药品注册申请人提供药品临床试验服务 89 王晨光,李广德,《药品注册申请数据造假入刑的法理评析》[J].法律适用,2017(17):109-11

4陈兴良,《当代中国刑法新境域》[M].中国人民大学出版社,2007年 10 杨涛,《完善法律 严厉打击生产销售假药行为》[N].《人民政协报》,2010,12-17 11 王晨光,李广德,《药品注册申请数据造假入刑的法理评析》[J].法律适用,2017(17):109-114 的组织,其既不属于药品的生产者,亦不属于药品的销售者。

从客体来看,刑法第141条规定“足以危害人体健康的行为”,即其要求药品对人体健康造成危害,但临床数据造假则不以“对人体健康造成危害”为主,而是包含各类临床数据造假的行为,譬如捏造数据、损毁原始数据、瞒报数据等,这类行为本质上是对药品安全性、有效性的损害,该行为本身就属于违法行为,并不仅指“对人体健康造成危害”。

综上,笔者认为,将药品申请注册人、药物非临床研究机构、药物或医疗器械临床试验机构、合同研究组织利用虚假数据,骗取药品批准生产证明的行为,定为“生产、销售假药罪”范围内缺乏科学性,“生产、销售假药罪”从主体、客体、行为构成,都与临床数据造假的主体、客体和行为构成存在出入。

(三)罪行处罚是否全面

《司法解释》第三项内容规定:药物非临床研究机构、药物或医疗器械临床试验机构、合同研究组织与药品注册申请人共谋,提供虚假的非临床研究或者临床试验报告及相关材料,骗取药品批准证明文件,同时构成提供虚假证明文件罪和生产、销售假药罪的,以处罚更重的犯罪定罪处罚12。

临床数据造假的犯罪行为,主要包括提供虚假数据的行为、制作虚假报告的行为、提交虚假材料的行为等。但对于临床数据造假与其他犯罪行为的竞合以及罪数形态方面的规定却略显不足,仅规定了提供虚假数据、骗取药品批准文件,同时构成提供虚假证明文件罪和生产、销售假药罪,且以处罚更重的犯罪定罪的情形,但对于其他行为与临床数据造假行为同时存在的情形,却未做规定。譬如提供虚假临床数据同时向他人索取财物或收受贿赂的行为,二者该如何定罪量刑的情况。足见,《司法解释》将临床数据造假纳入到刑事处罚范围内,虽然在立法发展方面取得了一定的进步,但无论从罪名的确定,还是从罪数形态方面,都还有待进一步的商榷。

二、临床数据造假入刑立法的不足

(一)司法解释立法规定存在不足

首先,临床数据造假入刑刑罚处罚上限偏低。《司法解释》中规定,对于临床数据造假的行为,且达到“情节严重”的情况时,可判处5年以下有期徒刑,12 王晨光,李广德,《药品注册申请数据造假入刑的法理评析》[J].法律适用,2017(17):109-114 并处以罚金。可见,临床数据造假的行为,在情节严重的情况下,最多也就判处5年有期,刑罚处罚上线过低,会导致刑法处罚的威慑力大打折扣。尤其是在巨额利益的驱动下,难免会有人甘冒“五年以下有期徒刑”的风险,继续通过数据造假,谋取暴力。此外,随着犯罪分子犯罪技术的提升以及反侦察能力的具备,在运用各方人力、物力和财力的基础上,仍然可以在不受或少受处罚的情况下,进行非法活动。

其次,关于“情节非常严重”的规定。《司法解释》中对临床数据造假的“情节严重”列举了六项具体内容,除了第六项兜底条款外,其余五项主要包括:在药物非临床研究或者药物临床试验过程中故意使用虚假试验用药品的;瞒报与药物临床试验用药品相关的严重不良事件的;故意损毁原始药物非临床研究数据或者药物临床试验数据的;编造受试动物信息、受试者信息、主要试验过程记录、研究数据、检测数据等药物非临床研究数据或者药物临床试验数据,影响药品安全性、有效性评价结果的;曾因在申请药品、医疗器械注册过程中提供虚假证明材料受过刑事处罚或者二年内受过行政处罚,又提供虚假证明材料的13。除了第五项之外,第一项内容中关于“故意”的判断,存在一定的难度,因为我国《刑法》在临床数据造假方面,并没有具体的规定,而对于造假“故意”主观意识的判断也缺乏相应的作证,即没有有力的证据来证明其造假的行为是否存在“故意”;第二项内容中关于“与药物临床试验用药品相关的严重不良事件”的规定也十分的模糊,具有抽象性,哪类事件属于“严重不良事件”,是虚假数据下药品上市后的销量,还是虚假药品上市后造成的药品使用者的不良反应,不良反应到如何程度才算“严重”等等,“严重不良事件”的规定,看似对临床数据造假行为的恶果进行打击,但实质上却为其提供了一定的法律漏洞,让其有机可乘。

再次,《司法解释》第七条中规定,对药品注册申请负有核查职责的国家机关工作人员,滥用职权,玩忽职守导致虚假证明的药品获得注册,并造成国家人民集体利益损害的,以“玩忽职守罪或滥用职权罪”论处14。该项规定缺乏合理性。“玩忽职守”针对的是对本职工作不负责任、不够认真的行为,而“滥用职权”则主要针对的是越权行使权力的行为,在临床试验数据造假的审核过程中,13 最高法、最高检,《最高人民法院、最高人民检察院关于办理药品、医疗器械注册申请材料造假刑事案件适用法律若干问题的解释》 14 最高法、最高检,《最高人民法院、最高人民检察院关于办理药品、医疗器械注册申请材料造假刑事案件适用法律若干问题的解释》 负责核查的国家工作人员确实存在上述行为,但上述行为却不足以囊括所有的不正当行为,而相应的处罚力度也比较小,无法真正起到制约国家机关工作人员行为的作用。

(二)扩张解释痕迹明显

纵观我国法理界学者对《司法解释》相关内容的理论分析,发现大多数的学者都对此次《司法解释》的内容持以肯定的观点。其中对临床数据造假主体范围的确定,对药物非临床研究机构、药物或医疗器械临床试验机构、合同研究组织三主体的“中介组织”本质的判定15,对临床数据造假行为的定义以及对“情节严重”具体情况的规定,都是值得肯定的。这些内容的确立明确了临床数据造假的构成要素,包括主体、主观方面、客体、客观方面,不仅是我国法治的一大进步,同时对于临床试验造假的问题,也起到了积极的作用,弥补了行政处罚力度的不足,通过临床数据造假入刑,威慑造假行为,肃清药品市场。

但在罪名的确定方面,扩张解释痕迹明显,虽存在一定合理性,但仍不够科学和准确。对于药物非临床研究机构、药物或医疗器械临床试验机构、合同研究组织对临床数据造假的行为16,认定为“提供虚假证明文件罪”存在明显重罪轻刑的问题。无论从危害的广度还是深度来看,临床数据造假的危害性都比提供虚假评估报告、验资报告、审计报告等行为要来的广泛,来的深刻,其所损害的法益,是普遍的、广泛的、不确定的大众的生命健康与安全,是国家药品监管部门的公信力,是我国药品市场的健康发展,仅以“提供虚假证明文件罪”对该行为定罪量刑,其所损害的法益与刑罚之间缺乏对等价值。

“以生产、销售假药罪”定义行为主体提供虚假临床数据,骗取药品生产批准报告的行为,从主体构成、行为构成和结果构成方面,都不够严谨准确。除药品申请注册人外,药物非临床研究机构、药物或医疗器械临床试验机构、合同研究组织都不属于药品生产与销售的主体范围,它们仅仅是开展药品临床试验的组织,是提供药品临床试验服务的中介机构;临床数据造假行为,包括捏造数据信息、编造虚假实验信息、提供虚假数据、隐瞒不报临床试验过程中严重不良反应事件等行为,这些行为从本质上看,是对临床试验数据的造假和隐瞒,并不是 1516王晨光,李广德,《药品注册申请数据造假入刑的法理评析》[J].法律适用,2017(17):109-11

4王晨光,李广德,《药品注册申请数据造假入刑的法理评析》[J].法律适用,2017(17):109-114 17 王晨光,李广德,《药品注册申请数据造假入刑的法理评析》[J].法律适用,2017(17):109-114 对药品的具体生产活动,更不是药品的销售活动,其所导致的结果是影响药物的安全性和有效性,还包括无法实现治疗效果的情况,比“危害人体健康安全”范围要广。

(三)司法解释不够完善

《司法解释》中,关于临床数据造假的罪数形态,并没有进行充分的规定,仅规定了药品注册申请人与药物非临床研究机构、药物或医疗器械临床试验机构、合同研究组织共谋清醒下的罪数问题18,但对于与其他罪行同时存在的罪数问题以及对于罪行竞合的问题,还处于空白状态,譬如临床数据造假与收受贿赂行为同时存在下的罪行认定和处罚,临床数据造假后又生产、销售假药的行为的认定和处罚等。

五、临床数据造假入刑的完善建议

第一,要进一步完善司法解释的内容。将临床实验数据造假入刑,是我国药品市场管理的一项重要突破。但以《司法解释》的方式进行管理,仍然存在很多不足。因此,要进一步完善司法解释的相关内容,尤其是针对“情节严重”的几项条款的内容,予以具体化的规定,减少抽象性规范内容;对“弄虚作假”的行为,进一步予以明确,譬如修改、捏造、隐瞒、隐匿、替换、瞒报、故意损毁等行为,确保司法解释的准确性;对《司法解释》中关于罪数的问题,进一步完善和丰富,针对临床数据造假与其他行为并存或竞合的问题,做出具体规定,包括罪名的确定和处罚,譬如临床数据造假与收受贿赂行为同时存在的情况,可以按照提供虚假证明文件罪与受贿罪、或非国家人员受贿罪判罪,并从一重罪处罚。

第二,要加快相关立法的建设,对临床数据造假行为进行界定,将临床数据造假的行为以刑法的方式进行全面、细致的规范,通过构建系统的刑法制度,将临床数据造假行为真正纳入到刑法的管理范畴当中。目前,在我国刑法立法发展过程中,不断丰富和完善司法解释,是我国刑法发展的中心。司法解释主要是在刑法条文的基础上,对刑法条文进行解释和扩张,进而满足社会发展对刑法的客观需求,同时也符合刑法谦抑性的基本准则,能对刑法起到一定的抑制作用,防止犯罪圈扩大化。刑法谦抑性的本质是确定刑法介入社会的具体程度,确保刑法在国家与国民之间的分权具有适当性和合理性。在法治不断发展的过程中,以及 18 王晨光,李广德,《药品注册申请数据造假入刑的法理评析》[J].法律适用,2017(17):109-114 受到发达国家法治改革和发展的影响下,犯罪圈扩大是当前我国刑法发展的一大趋势,而我国大部分学者则对此持反对态度,认为犯罪圈扩大会导致刑法泛化,使得刑法介入社会的程度加深,是公权力的扩大。但从犯罪圈扩大的本质来看,扩大犯罪圈本身是扩大犯罪的范围,降低入罪的门槛,即任何符合入刑基本原则的行为,都可纳入刑法的范畴,这与刑法谦抑并不当然对立。入刑基本原则是硬性标准,及时降低入刑门槛,扩大犯罪圈,任何一个纳入刑法的行为,也必须且首先要满足入刑基本原则的要求。因此,笔者认为,与其通过司法解释将临床数据造假入刑,纳入到已有的罪名当中,不如将其作为新的犯罪行为,制定与之相符的、特定的刑法条文。前文中,针对临床数据造假司法解释的不合理之处,已经做了详细论述,临床数据造假是药品市场发展的必然结果,是其发展到一定阶段的产物,而临床数据造假行为,也符合入刑的基本原则,将临床数据造假的行为,包含在“提供虚假证明文件罪”和“生产、销售假药罪”在准确性和科学性上都有所欠缺。

譬如药物非临床研究机构、药物或医疗器械临床试验机构、合同研究组织故意提供虚假的非临床研究报告、研究实验报告的行为,可以“临床试验数据造假罪”定罪,主要针对的是药品临床试验中介组织机构的造假行为,如捏造、编制、隐瞒、替换、篡改临床数据等,任何非真实的数据,影响药品效果和安全性的数据,都属于数据造假;对于药品注册申请人自己弄虚作假,提供虚假的非临床研究或者临床试验报告及相关材料,骗取药品批准证明文件的,可以“提供虚假临床数据罪”定罪,主要针对药品申请注册人故意向审核机构提供虚假的临床数据;药物非临床研究机构、药物或医疗器械临床试验机构、合同研究组织与药品注册申请人共谋,提供虚假的非临床研究或者临床试验报告及相关材料,骗取药品批准证明文件,同时构成“临床数据造假罪”与“提供虚假临床数据罪”19,且从一重罪处罚。

第三,要促进监督管理体制的完善,通过监督制度的完善,加强监管力度,堵住立法和制度方面的相关漏洞20。目前,我国负责医药领域监督的部门主要是食药品监督管理局。但食药品本身的监督管理工作是非常复杂而庞大的,相关管理制度的建设也不够完善,这就导致国家对药品临床试验数据的监督方面,比较 19 王晨光,李广德,《药品注册申请数据造假入刑的法理评析》[J].法律适用,2017(17):109-114 廖海金,《临床数据造假,必须施以最严格的刑罚》,[N],《人民政协报》,2017,5-9 薄弱。要引进相应的监督管理体制,通过体制的构建,对药品临床试验过程进行监督,实现有效的监督和管理。

第四,对负责证明文件核查的工作人员的相关违法行为的罪名的认定,建议以“渎职罪”论处,渎职罪将玩忽职守和滥用职权两种行为都概括到其中,对于国家机关审核人员违规审核的行为,更具概括性和准确性;渎职罪的内涵更加贴近负责证明文件审核的国家机关人员的性质,渎职罪保护的是国家机关以及公职人员的客观公正性,维护人民对国家机关信赖,人民之所以放心购买国家上市的药品,就是基于对国家公权力的信赖;渎职罪较之玩忽职守罪和滥用职权罪的处罚力度较重,能够更好的对国家公职人员的行为进行约束,更符合药品管理予以重刑的理念。

六、总结

临床试验数据,是关乎公民生命健康的大事,而临床实验数据造假的行为,不仅严重损害了医药市场的有序性,导致国家公信力严重下滑,同时对于我国公平的生命权和健康权也构成了极大的威胁。因此,对于临床实验数据造假的行为,采用严刑峻法予以管理和惩治,无论从那个角度讲,都是十分必要的。著名的“破窗理论”告诉我们,打破一面玻璃,可以带动十片玻璃破碎,从经济学的角度分析,破窗效益可以带动经济的发展,但归根结底,“破窗”仍是“破坏”,其所引发的效益联动现象,不过是短期效益,是泡沫现象,只有探索问题的根源,从根本上解决问题,才是真正的、长久的发展之路。临床数据造假的行为,亦是如此,临床数据造假从表面上看,能够推动我国药品企业和药品市场的发展,但从长远的角度和本质上来看,临床数据造假的危害,比其所带来的短暂的发展与效益,具有更深、更广、更严重的危害性,是对我国药品市场和药品企业致命的荼毒。药品企业想要健康发展,药品市场想要不断完善,必须从药品的根源——临床数据着手,严格把控,确保临床数据的真实性、客观性、准确性和有效性,只有确保临床数据的真实可靠,才能确保生产和销售的药品,是符合大众生命健康需求,具有真实有效的治疗功效的合格产品,才能药品企业得以恒久发展的关键,才是我国药品市场不断完善的保障。临床数据造假入刑确立,标志着我国对开始从严治理,是我国药品市场发展的必然结果,是依法治国的必然要求,也是法治

2121 赵然;李文斐;李巍;刘宏举;贾立民;李彦博,《基于数据挖掘技术的医疗设备配件采购管理系统的研究》[J].《中国医学装备》,2017(04)水平提升的重要表现22,是关乎国计民生的大事。要立足《司法解释》,进一步丰富和完善司法解释的相关内容,同时从立法的角度出发,经过反复研究,创设属于临床数据造假的独立条文,真正从刑法的角度,实现对临床数据造假行为的约束和限制,构建起完善、全面、科学、有效的临床数据造假行为刑法治理体系。

数据探讨 第6篇

关键词:第二次土地调查数据库;扩展利用;土地综合整治;扩展系统

第二次全国土地调查工作已经完成了一段时间,并且顺利地进行了多次数据库年度变更,各级国土资源管理部门在日常工作中对二调数据库的利用很广泛,但是也发现了一些不足。国土部门涉及的各个方面的工作,如果需要土地利用数据,都必须使用二调数据库作为基础数据,提供工作目标地块的各类属性和图形、表格。在数据的权威性、准确性、现势性和统一性方面,都有二调前的土地数据库无法比拟的优势。但是可以看到,在每一项工作中它都只能提供基础数据。比如建设用地的“批、供、用、补、查”,耕地的开发、整理、复垦,村庄综合整治,矿产资源勘察、开发、保护和合理利用工作等,使用起来也并不比二调前的数据方便太多。为了使二调数据利用更加高效,更加方便,很有必要对其进行扩充利用。

1 应用模式设想

土地管理部门内部各个机构的工作虽然有很大不同,工作的领域和对象也有较大差别,但是,从数据应用的角度来说,却可以总结出相似的模式:当前地块发生变化后,从二调数据库获取基础数据(如图斑、线状地物的图形和属性等),作出相应的处理,整理资料,最后按二调数据库的更新要求提交变更资料。

根据上面的模式可以认为,要扩展数据库的应用需要做到以下几点:

能准确、全面、方便、快捷地提取二调数据库的数据;

对当前工作流程中的所有细节都有对应的处理程序;

有核算各项工程量、资金等指标的能力;

有安全、细致、便捷的资料管理能力;

应当能够根据权限和工作领域开放对应的功能;

能从当前的工作中总结资料,形成二调数据库年度变更所需的数据。

以上需求,可以用三个模块来解决。一是数据交换,二是工作流程处理,三是资料管理,而权限管理贯穿始终。对于不同的具体工作,只要稍作设置第一、三个模块可以通用,第二个模块则要依据各项具体工作来分别设计。下面以土地综合整治工作为例来说明在具体工作中怎样扩展应用二次调查数据库。

2 实施方法设计

实际上,土地综合整治是一个复杂的大概念,它包括利用、开发、保护、治理、法规、规划、管理等诸多要素。建立土地综合整治数据扩展系统流程初步设计如下:

第一步:数据预处理。

从各数据库获取数据:

完成的二调数据库一般有VCT格式、MDB格式、SHAPE格式,扩展的应用系统应当可以方便地从这几种格式中的一种或几种得到完整的基础数据,不失真地引用正确的数据源。这是很关键的一个步骤,如果从一开始就用了错误的数据源,那么后面的工作会全部失去意义。对于土地综合整治工作,要用到的基础数据有:基础地理要素(包括正射影像、行政区、行政界线、行政区注记、坡度图)和土地利用要素(包括地类图斑、线状地物、地类界线、土地利用要素注记、符号)。正射影像图层是栅格数据,为了直观判读项目区情况,必须能引用。

获取其他资料数据:

建立扩展数据库之前已完成的和正在进行的项目资料,这包括整治区、规划或竣工的线状地物、点状地物、土地平整土方量计算区等矢量图层,还有实测地形图资料。实测地形图资料一般都使用DWG格式。另外几个常用的数据源是坐标表格、图片、文档资料等,这些资料都要能方便地录入新系统并快速调用、输出。其中坐标表格指的是如勘测定界图上的界址点表,新系统也必须可以方便地用它生成图形,方便地根据图形生成指定格式的坐标表格。

根据获取的源数据,形成土地综合整治要素:

我们设计的重点图层有土地综合整治项目总区、土地综合整治图斑、项目可研设计图斑、项目规划设计图斑、土地综合整治线状、土地综合整治点。由于是作简单介绍,只对土地综合整治图斑列出结构详表。

土地综合整治项目总区描述项目的总体情况,通过它可以快速了解项目各项指标,主要设置如下属性结构:整治项目名称、总规模等各项工程特性指标、项目区四至、竣工日期。如果要求对比可行性研究、规划设计、竣工后各阶段的情况,可设置可行性研究项目总区和规划设计项目总区,与土地综合整治项目总区对比,其属性结构的设置基本相同。

土地综合整治图斑属性结构:

土地综合整治图斑是指项目竣工验收之后的项目图斑区。因为直到项目完成并竣工验收之后,才不会再有设计和施工上的改变而需要进行变更,它的各类性质才真正定下来,对应的各项属性都能确定赋值。土地综合整治图斑需要用来统计一个项目中面积等各项细节数据,是十分重要的一个图层。因为各个项目不可能在一个地块上重复实施,所以所有的项目的图斑都可以存储在一个图层中。其属性结构设置如下表:

土地综合整治图斑与二调数据库的关系是:权属单位、坐落单位、地类编码、图斑编号以及所有的图斑拓朴边界完全一致,可认为土地综合整治图斑是在二调数据库做好项目的年度变更后裁取下来,增加了项目的特有属性结构、内容后形成的新图层。但实际工作中,是它先根据竣工资料和基起年二调图斑情况形成的,并且提交资料作为年度变更依据项目可研设计图斑和项目规划设计图斑是项目未竣工阶段的图斑,它们的属性结构与竣工后的土地综合整治图斑一致,但是很有可能它们的总范围等会与设计内容会有出入,为了表达这一变化過程,这两个图层有必要单独设置。

土地综合整治线状地物属性结构在二调数据的线状地物属性结构基础上附加下列字段:线用途(填田间道、生产路、斗渠等内容)、线编号。为了完整表达设计内容,不对其做上图综合处理(比如宽度小于1米的线不舍弃,平行的线不合并等)。

土地综合整治点包含机埠等点状要素,但都不参与面积计算,其主要属性结构设置为:点名称、描述。

其他的注记与二调数据库属性结构完全一致。

第二步:根据具体工作流程设计对应的处理程序块。

总的来说,要达到的目标是每一个步骤的处理程序块都要能够方便地管理对应的资料(包括图片、表格、审批文档、图形),提供增加、删除、修改、导入导出图形和数据、输出规定格式的图形和表格文档的功能。当然最主要的是这些功能组合起来要能达到工作目的,下面列举土地综合整治工作主要流程需要的主要功能。

首先要收集已完成项目的资料,包括农业部门的农田整治项目,并将它们录入系统中以便查用。将它们的相关图形录入点、线、区要素,表格文档、图片存档。对录入之后的资料进行面积核对、工程量核对、投资核对等,生成核对报表报告以供审核。

如果是一个新的项目,在前期新系统必须能根据后备资源要素(已经有项目的后备资源地块当然也不要再次整治了,包括农业部门的农田整治项目)选定可供开发、整理等工作的项目区地块,生成项目申报的图、表、数。然后要注意跟进项目,及时录入项目的审核文档、村民大会的相关材料、项目的设计施工招投标材料、项目的实地踏勘和勘测定界资料,进入项目的可行性研究阶段、规划设计阶段、竣工验收阶段,最后提交备案。

在可研、规划、竣工阶段,成果要及时整理收集,并按第一步的要求,分门别类地输入新系统。和已完成的项目一样,系统必须能对项目进行一次校核,对新项目的要求是要及时地录入,不然就谈不上数据现势性的优势了。这三个阶段中,系统要加入核算各项工程量、资金等指标的功能,以便更好地监督项目。

第三步:生成二调数据库年度变更所需的数据资料。

土地综合整治项目相对二调数据来说比较细致,使用的比例尺都比较大,点线区的上图面积都很小,不能将设计内容直接用来变更,而要经过一定的综合取舍。

点和线的内容较容易处理,主要是舍弃和合并,但区图层会涉及较复杂的过程,也就是设计比例尺向1∶10000比例尺缩编的过程。新系统可参考土地利用图缩编相关规程和软件来设计。

系统的权限管理和资料管理贯穿始终,要保证整个系统方便实用,也要保证所有资料数据安全无忧。

3 一些思考

现阶段国土部门使用的土地数据库系统越来越多,如土地利用数据库、总体规划数据库、后备资源数据库等,如果再加几个专题数据库,会使工作变得复杂,最主要是这个数据库的同步更新问题会越来越突出,作者建议最好能在一个系统中实现这些功能。

如果要统计面积,最好利用土地综合整治项目总区,到二调数据库管理系统中对变更后的数据查询统计。因为现阶段土地综合整治工作并没有统一规定面积的计算方法,各单位的统计方法、统计口径并不一致,其结果的准确性值得推敲。而在项目竣工后,都要统一到二调数据库进行变更,变更后就能计算出一个项目最终的新增耕地等各项指标,而建设用地的占补平衡面积必须用这个面积才会正确。

参考文献:

[1]叶剑平,张有会. 一样的土地、不一样的生活.中国人民大学出版社,2010.3.

[2]第二次全国土地调查数据库建设技术规范.国务院第二次全国土地调查领导小组办公室,2007.12.

[3]《土地利用数据库标准》(TD/T 1016-2007).

[4]《湖南省农村土地综合整治(土地開发整理)项目设计编制规范》 ,湖南省国土资源厅,2010.4.

数据探讨 第7篇

随着信息技术和网络技术的迅猛发展,互联网迎来了大数据[1]时代。大数据的主要特点就是一个字“大”。具体来讲,主要体现在两方面:一是数据量巨大,从TB级别跃升到PB级别;二是数据类型繁多,包括文本、网络日志、视频、音频、图片、地理位置信息等等。

面对互联网中浩瀚的大数据,人们却很难从中获取有用的信息,这就是所谓的“数据爆炸”现象。造成这一现象的原因是计算机无法“理解”数据的语义和数据之间的关联性,而大数据中真正有意思的数据正是数据之间的关联性。计算机理解数据要解决三个问题,一是语义数据的描述;二是语义数据存储;三是语义数据的查询。语义数据描述是必要条件,语义数据的存储是实现有效查询的关键。为了解决这些难题,学者进行研究,也提出不同的方案,其中,语义Web[2,13]的理念逐渐得到大家的认同。

语义Web是由万维网联盟的蒂姆·伯纳斯-李(Tim Berners-Lee)在1998年提出的一个概念,所谓语义Web就是一种能理解人类语言的智能网络。计算机能认识网络中的数据,能帮助人们进行分析和处理,从而将有用的数据信息提交给人们。语义Web的设想和大数据的要求比较吻合,虽然到目前为止,语义Web还没实现,但语义Web的理念为解决大数据难题提供了很好的思路。

1 语义数据描述

语义Web理念是一个很大的理论框架,包括一系列理论和方法,其中一个核心问题就是语义数据的表示。所谓语义数据就是赋予含义和关联性的数据。

语义Web中的语义数据表示采用了资源描述框架标准,即RDF[3]。它能保证数据的语义完整地描述出来,而且也能表示各数据间的关联性,是目前最佳的描述语义数据的方式。

RDF语义数据描述形式有三种:三元组、RDF/XML和RDF Graph,下面通过一个例子来说明这三种描述形式。用到的语义数据例子:一篇wiki文章Tony_Benn的title是Tony Benn,出版者是Wikipedia。

1.1 三元组

这种描述方法中,一个RDF文件有很多陈述语句组成。一条陈述语句包含三个部分:即主体,属性,客体,通常称为RDF三元组。其中主体是被描述的资源,属性表示资源的特征或关系,客体表示主体在属性上的取值,可以是另外一个资源或者是文本,如图1所示。第一条陈述句的含义是Tony_Benn的title是“Tony Benn”,第二条陈述句的含义是Tony_Benn的publisher是Wikipedia。

1.2 RDF/XML

RDF通过可扩展标记语言XML实现。XML用于标记文件使其具有结构性的标记语言,是一种允许用户对自己的标记语言进行定义的源语言,可以用来标记数据、定义数据类型。如图2所示。

1.3 RDF图

通过将RDF三元组看作带标签的边,主体和客体是节点,属性是边,RDF数据很自然地符合图模型结构,即一个有向的图。同时图模型符合RDF模型的数据的语义层次,可以最大限度地保持RDF数据的语义信息,也有利于对语义信息的查询,如图3所示。

2 语义数据存储

RDF资源描述框架解决了语义数据的描述问题,RDF语义数据存储问题如何解决呢?首先要认识到存储问题不是简单地将数据写入数据库和存储介质,其将直接影响到数据库各个方面的性能,包括数据组织、读取、维护,以及最重要的查询性能等。存储方式的不同将直接到影响RDF语义数据的查询的效率和效益。语义数据存储是整个互联网性能最关键的因素,因此RDF语义数据存储时就要考虑到查询性能优化的问题。

目前RDF语义数据存储有五种方案:关系数据库、Big-Table、Key-Value、RDF图、XML文档,其中关系数据是最成熟的数据库类型,后4种属于No SQL[4]。下面将从查询性能优化角度对不同RDF语义数据存储方案进行分析。

2.1 关系数据库

关系数据库是当前是最成熟、应用最广的数据库。许多研究者试图将RDF语义数据直接存储在关系数据库中,以便充分利用关系数据现有的一切优势和成果。关系数据库存储语义数据基本是三元组及其拆分的思想,有五种具体形式[5,14],分析如下:

(1)三元组表存储方案。本方案是构建一张三列表(主体,属性,客体),将所有的RDF三元组都放在这个表中,其优点是这种方案具有很好的通用性,问题是查询时产生多个表的自连接操作,查询性能差。

(2)水平存储方案。本方案是将所有的属性均作为一列形成一个大表,优点是:这种策略的好处在于设计简单,同时很容易回答面向某单个主体的属性值的查询。问题是:列数太多,空值太多。

(3)属性表。对水平存储方法的优化,通过对相关属性的分类,将大表分成若干的子表,避免了表中列数过多等问题,但很难兼顾减少空值和查询效率的问题,减少空值的话尽量将表的列数减少,势必增加表的个数,那么查询涉及的表就增多,查询效率下降。

(4)二元存储。有的文献叫垂直分割法,三元组表被重写为n(n等于RDF数据中属性的个数)张包含两列的表。每一张表都以对应的属性为表名,第一列是所有在这个属性上有属性值的主体,第二列是该主体在这个属性上的值。优点是存储空间减少,空值减少,缺点是增加了表连接的运算数。

(5)全索引策略。为了提高简单三列表存储的查询效率,目前一种普遍认可的方法是“全索引”策略,即列举三列表的所有排列组合的可能性,有6种,并且按照每一种排列组合建立聚集B+-树。全索引策略可以弥补一些简单垂直存储的缺点,但增加了存储空间。

通过以上分析表明,关系数据库存储RDF语义数据,有以下不利因素:

(1)受到关系数据库很多先天特征的限制,例如,模式的固定和不灵活,模式和外模式的隔离,NULL数据处理。

(2)关系数据库强调的是实体本身,是显性的,而语义数据更重视实体间的关系,或者说更重要更多的信息是实体间的关系,是隐形的。

(3)关系数据库中,表连接操作效率低[6],语义数据的关系又多,势必表连接多,势必效率低。很难兼顾查询效率和增加索引的开销,往往顾此失彼,很难平衡。

因此,关系数据库不适合存储RDF语义数据。

2.2 Big-Table

Big-Table[7]是Google采用的存储方案,本质是一种列存储,数据模型是一个稀疏的、分布式的、持久化的、多维的排序映射。该映射的索引是行关键字、列关键字以及时间戳;映射中的每个值都是一个未经解析的byte的数组。数据模型就是一种map,表现为一种表的形式,主要用来存储网页内容,因此Big-Table不适合存储RDF语义数据。

2.3 Key-Value

Key-Value数据模型的思想来自哈希表,包含一个特定的key和一个value指针,指向某个特定数据。Key-Value[8]模式的典型代表是亚马逊的Dynamo[9]存储平台,其可用性和扩展性都很好,采用动态哈希表,实现数据分布存储和查询,但这只是P2P模式的改进,对关系数据库性能进行权衡和取舍,为了得到高可读写性,牺牲其他的性能,而且也仅考虑到了分布式和大规模数据,没考虑数据的关联性,弱化了数据结构,不是语义数据,只解决了数据库分布式的问题,而且只提供Get、Set等操作。因此Key-Value不适合存储RDF语义数据。

2.4 RDF文件系统

RDF文件系统又称为面向文本存储,基本思想是文本封装数据,解析工具是语义Web基础框架Jena。典型例子有Mongo DB,其集合(类似关系数据库中的表)里包括文档(关系数据库的表里的一个记录),为关系数据库的table。文档为一种键值对形式,键ID用于唯一标识一个文档。优点是采用无模式形式,能实现海量大数据,缺点是和关系数据库一样,无法体现数据间的关系。因此RDF文件系统不合适存储RDF语义数据。

2.5 RDF图存储

以上四种数据库模式难以实现RDF语义数据存储,许多研究者开始考虑使用图形式存储RDF语义数据,RDF图存储的优点主要有以下几点:

(1)RDF用图描述方便直观。

(2)图模型符合RDF模型的语义层次,可以最大限度地保持RDF数据的语义信息。

(3)图能够直接映射RDF模型,避免了为适应存储结构对RDF数据进行转换。

(4)以图结构存储RDF数据避免了重构,以其他形式存储时,查询RDF数据的语义信息需要重构RDF图。

(5)可以借鉴成熟的图算法、图数据库来设计RDF数据的存储方案与查询算法。

图存储也有其缺点,一是存储空间大,二是查询的算法时间复杂度较高。正因为这两点,图存储一度没有得到重视和很好的发展,但当前存储介质的容量越来越大,单位容量的价格越来越便宜,因此存储空间大的缺点已经不是关键问题。至于算法复杂度,也正有很多研究者正精心设计算法以降低实时查询的时间复杂度,出现很多类型的图数据库,目前典型的RDF图数据库有6个:Neo4j、Allegro Graph、Bigdata、Open Link virtuoso、Oracle Spatial and Graph、R2DF等,其中Neo4j[10]是目前最具权威性的,使用最多的开源图数据库系统,下文将分析Neo4j的特性及其开源Java开发。

3 Neo4j图数据库

3.1 Neo4j特性分析

Neo4j是一个用Java实现、完全兼容ACID的图形数据库。数据以一种针对图形网络进行过优化的格式保存在磁盘上。Neo4j的内核是一种极快的图形引擎,具有数据库产品期望的所有特性,如恢复、两阶段提交等。

Neo4j的典型数据特征有三点:

(1)数据结构不是必须的,甚至可以完全没有,这可以简化模式变更和延迟数据迁移。

(2)针对常见的复杂领域数据集,可以方便建模,如CMS里的访问控制可被建模成细粒度的访问控制表、对象数据库的用例、Triple Stores以及其他例子。

(3)典型使用的领域如语义Web RDF、Linked Data、GIS、基因分析、社交网络数据建模、深度推荐算法以及其他领域。

3.2 Neo4j系统实现

在安装部署了Neo4j Server后,可以通过地址:http://127.0.0.1:7474/进行访问。Neo4j Web管理工具是当前官方提供的主要管理工具,主要功能有:

监控Neo4j Server的运行,维护和浏览数据,通过控制台与数据库进行交互,浏览原始数据管理对象(JMX Mbeans)。

如图4所示demo系统实现图数据Web UI界面。该界面直观,所见即所得。方便添加或者删除数据节点,方便查询所需的数据:可以通过节点查询,也可以通过边(关系)查询。

Cypher语言[11]是Neo4j图数据库的专有查询语言,是一种图描述查询语言,可以在不对图结构进行写遍历的情况下,进行高效查询,进行高效更新图存储。Cypher是一种人性化查询语言,适合于系统开发者和专家,进行随时的查询图数据库。它是一种描述语言,结合SQL和Spar QL的特性,其中关键字类似于SQL,模式匹配方式借用了Spar QL,如图5所示,Cypher查询语言界面。

3.3 查询优势分析

任何数据库,只要是进行数据查询,一般都要用到索引。根据索引来查询数据是快速的,但建立索引和更新索引是非常消耗时间的。

在关系数据库中,通过索引在一个表中能快速找到相应的记录数据,但当连接两个表时,要重新为这两个表中所有的数据建立一个新的大的索引,如果还连接其他表时,又要重新为三个表中的所有数据建立一个新的更大的索引,这是一个完全递归的过程,每次都需要扫描所有的数据元素建立索引,这个开销是非常惊人,这是为什么表连接要付出如此昂贵的代价的原因。而且语义数据的关联性很强,几乎查询任何有意义的数据都需要表连接,很多时候还是多个表连接,因此关系数据库中存储RDF语义数据时,查询的效率肯定非常低,查询请求快速密集加入时,有可能导致数据库资源耗尽而崩溃。

Neo4j图数据库,进行数据查询,只在查询出发点时用到索引,然后就可以通过出发点沿着边进行遍历,而且再也不使用索引就能查找到下一个数据,这就是所谓的“index-free adjacency”[12]。一个图数据库只维护一个或有限的几个索引,只在语义数据变动时进行索引的更新,因此索引建立和维护的开销是非常有限的。语义数据量增加时,索引会相应的增加,找到出发点的速度会变慢一点点,但遍历的网络不会变慢,因为并非一切都将被连接在一起,从运行的查询的角度看,没有连接到开始节点的其他东西可以简单地理解为“不存在”。

因此Neo4j的查询快速,没有表连接的代价和开销,受索引更新的影响小,性能是稳定的。

3.4 实例验证

下面通过一个语义数据集的实例运行来阐明Neo4j查询的过程,并和关系数据库进行比较,以验证Neo4j图数据库进行RDF语义数据查询的高性能和稳定性。

Neo4j中的一个RDF语义数据集,如图4所示,表示的是一个家族的宗谱信息,包括19个节点,18条边,节点表示一个人,每条有向边表示母子或者父子关系,默认的索引是按人名建立的一个索引。如果要查询这样的数据:Shana Willems的兄弟姐妹有哪几个?比较关系数据库和Neo4j的不同查询方式。

(1)关系数据库中,数据采用常用的三元组表(名为T)方案存储,如图6所示。

通过SQL查询的语句是:

SQL能得到正确结果,但SQL查询过程产生表连接操作,显然,这里有表T1和T2的表自连接操作,有表连接必然要重新建立索引,当三元组表列的规模比较大时,建立索引将消耗大量时间,必严重影响到数据查询性能。

(2)Neo4j图数据库中,通过Cypher查询语句来查询,语句如下:

Cypher语言查询语句和结果如图5所示,先使用索引node_auto_index找到起点“Shana Willems”,通过MATCH遍历找到节点m,m是“Shana Willems”的MOTHER,再通过节点m找到所有的节点a,所有a正是Shana Willems的兄弟姐妹,有两个,它们是“Sharonda Peele”和“Melda Reza”。整个过程只使用索引一次,然后遍历即可查询到所需的数据,其效率很高的。即使数据节点增加时,因为索引只使用一次,受其影响非常小,查询性能依然很高;而遍历的复杂度也是有限,因为现实世界里所有的节点不可能都与起点链接,没有连接的节点不用去比较。

以上比较可知,RDF语义数据存储在关系数据中,进行数据查询时,因为每一次表的自连接都要进行索引的建立,而索引建立消耗时间,使得查询效率低下,并且随着三元组规模增大,索引建立时间会迅速增加,从而查询性能不断降低。RDF语义数据存储在Neo4j图数据库中,查询时使用默认索引一次,不存在表连接的情况,不用建立新索引,因此不存在索引影响查询性能的问题,而且通过索引找到出发点后进行遍历,只和出发点向关联的节点进行比较,这将大大减少计算次数,因为现实世界中不存储很多或所有节点与出发点向连的情况,大部分的情况是出发点和少数节点相连。因此Neo4j中查询RDF语义数据是高效快速的,而且查询性能是稳定的。

4 结语

大数据时代下灾害档案数据管理探讨 第8篇

一、大数据的概念

关于大数据的定义, 最早提出“大数据”时代到来的全球知名咨询公司麦肯锡称:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。维基百科的定义:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具, 在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。还有学者认为大数据指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产[1]。可以看出, 大数据由海量交易数据、海量交互数据和海量数据处理三大主要的技术趋势汇聚而成[2]。

从本质上看, 大数据主要解决的是海量数据存储、计算、挖掘和利用的问题。其特点可概括为“4V”, 一是规模性 (Volume) , 数据容量巨大, 大型数据集合一般在几十TB至PB级的数据量;二是多样性 (Variety) , 数据类别繁多, 数据来自多种数据源, 数据种类和格式日渐丰富;三是高速性 (Velocity) , 数据处理速度快, 在数据量庞大的情况下, 实现数据的实时处理;四是价值性 (Value) , 数据真实性高, 愈发需要有效的信息资源确保其真实性与安全性[3]。可以说, 大数据时代是一个数据资源更加丰富的时代, 是一个信息技术更加先进的时代。

灾害档案数据资源主要来自灾害管理和科研活动产生的电子文件, 按照来源和形成方式不同, 可以分为数据库文件、电子数据表、字处理文档、电子邮件、扫描图像、地理空间数字记录、数字照片、网站及其相关文档。灾害档案数据具有分布性、多源性、异构性等特点。从灾害档案管理部门来看, 灾害档案资源主要集中在民政、水利、气象、地震、国土、环保、测绘、军队、海洋等部门, 档案数据源分散在不同部门、不同地点, 并由不同行业、不同单位和组织机构所拥有。从灾害档案内容来看, 包括灾情、气象、遥感影像、基础地理、专题地图、涉灾行业、经济统计、现场多媒体等多种数据。近年来, 灾害档案数据管理有了较大提高, 但由于缺乏强有力的技术支持, 档案信息服务水平还比较落后, 普遍存在管理意识薄弱、数字化建设不足、服务方式被动、开发利用欠缺等一系列的不足, 利用信息技术进行档案数据分析、开发、利用、交换、共享的水平还很低, 没有充分发挥档案信息的凭证、参考和情报作用, 无法满足管理部门对灾害档案信息的需求。

二、大数据技术在灾害档案数据管理中的应用优势

目前大数据研究成果最多的是大数据技术和大数据应用。大数据技术的特色在于它依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术对海量数据进行分布式数据挖掘, 在金融、医疗、教育、军事、电子商务甚至政府决策等几乎所有的领域都有非常广阔的应用空间。随着大数据时代的到来, 应用大数据技术让灾害档案数据获取、储存、搜索、共享、分析, 乃至可视化地呈现, 成为了可能, 为灾害档案数据管理提供新思路和新方法。

1.大数据技术对实现灾害档案智能管理提供强大保障。大数据技术具有的可靠安全的数据存储、方便快捷的云服务、超强的计算能力、诸多技术的集合体、良好的经济效益以及以用户为中心的个性化服务等优势, 对实现灾害档案“存储数字化、管理自动化、利用网络化”智能管理提供保障。应用大数据技术对分散于不同部门、不同地理位置的档案数据资源进行管理、传输、检索和提供利用, 满足用户对档案信息的远程访问操作, 包括信息查询、检索、统计、提取等, 实现档案数据资源的互联互通和共享利用, 将档案“藏”和“用”的功能都提高到一个新的水平, 对于充分发挥档案数据资源的价值具有前所未有的推动作用。

2.大数据技术对实现灾害档案数据挖掘提供有力支持。数据越来越多。传统的档案管理以文档管理为主, 档案基本处于被动利用, 沉淀的档案没有人去分析利用, 也没有技术工具去支撑挖掘和分析。大数据最核心的价值就在于对海量数据进行存储和分析, 只有通过分析, 才能获取更多智能的、深入的、有价值的信息。在大数据时代, 档案系统中除了大量的文档之外, 还有海量结构化数据, 并且数据利用的效果要大于文档利用效果。档案部门在收集大数据之后, 通过主动调查利用者的需求, 建立各种数据模型, 对海量数据进行聚类、分类、相关性分析, 找到数据之间的关系, 提高档案价值, 将原来的“死档案”变成“活信息”, 为灾害管理决策提供参考。

3.大数据技术对实现灾害档案知识服务提供解决途径, 解决灾害档案如何实现知识服务, 如何从浩如烟海的档案数据中快速识别、选择和有效利用档案信息, 为灾害管理部门提供知识服务和智力支持, 发挥档案的参考凭证、决策咨询、评估依据作用。应用大数据智能识别、传感与适配等技术, 构建基于基础框架体系、大数据处理体系、过程管理体系、大数据分析与决策体系、交互体系的大数据知识服务平台[4]将成为有效的解决办法和途径。灾害档案大数据知识服务平台搭建的是一个大数据获取、存储、组织、分析和决策服务资源和服务能力共享、交易和协作的智慧平台, 依据灾害管理不同行业、不同领域、不同需求的大数据处理需求, 在平台上实现数据、知识、资源、能力、服务、过程和任务等资源和能力的共享和协作。

三、大数据时代下灾害档案数据管理的应对策略

当前, 我国经济发展已进入新常态, 认识新常态、适应新常态、引领新常态, 是当前和今后一个时期中国经济发展的大逻辑, 也是发展档案事业的基本遵循。灾害档案工作主动适应新常态, 需要分析发展新变化, 顺应发展新趋势, 这既是经济社会发展对灾害档案管理提出的更高要求, 也是档案事业深化改革和持续发展的内在需要。在大数据时代背景下, 灾害档案的产生主体、利用群体、生态环境都发生着新变化, 灾害档案数据管理应用大数据技术分析、挖掘出庞大的档案数据独有的价值, 从“被动服务”向“主动服务”转变, 还面临着诸多挑战, 需要从以下方面加以完善和提高。

1.建立高效有序的运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程, 必须建立良好的运行机制, 以促进建设过程中各个环节的正规有序, 实现统筹协调, 搞好顶层设计。应当增强灾害档案数据管理意识, 做好灾害档案数据发展规划, 并将其纳入国家综合防灾减灾规划中, 建立灾害档案数据标准与规范, 构建档案数据管理系统, 实现灾害档案数据有效组织、集中存储、共享与服务。

2.制定科学规范的建设标准。灾害管理涉及部门多、领域多、专业复杂, 各部门都是按照各自定义的内部数据标准进行信息系统建设, 因此存在灾害档案数据资源结构不统一、标准不配套等问题。没有标准就没有系统, 应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准, 为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。

3.搭建共享利用的服务平台。我国的灾害管理涉及多个部门, 通过几十年的努力, 已经积累了海量与防灾减灾相关的专题数据, 并建立了一些信息网络系统, 部分开展了信息共享, 但绝大多数灾害管理相关数据还没有实现有效共享和利用。数据只有不断流动和充分共享, 才有生命力, 所以应在各专用数据库建设的基础上, 通过数据集成, 实现各级各类信息系统的数据交换和数据共享。

4.培养高素质的专业队伍。灾害档案大数据建设的每个环节都需要依靠专业人员完成。一方面, 需要培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍;另一方面, 需要加强档案管理人员对信息技术的掌握, 加强档案管理人员大数据相关知识的培训和辅导, 做好大数据背景下档案管理的人才储备。

结语

档案大数据技术的战略意义不在于掌握庞大的数据信息, 而在于对这些有较高价值的饱含历史意义的数据进行专业化处理[5]。大数据时代下灾害档案数据的巨大价值如何从“沉睡”中醒来并在灾害管理实践中发挥作用, 无论是在档案数据资源建设、科学技术支撑, 或是在管理机制运行、人才队伍培养等方面都还存在巨大的发展空间, 大数据技术应用也还有大量基础性工作亟待开展。一场不同于以往的技术革新已经到来, 大数据时代的发展对灾害档案数据管理既是挑战, 更是机遇。可以预料, 在不远的未来, 随着大数据技术的日臻完善和成熟应用, 对灾害档案数据管理必将产生深刻影响。目前我们需要关注的是清晰了解、充分掌握大数据服务的技术实质、特征、基本属性与应用价值, 然后有所选择地引入灾害档案数据管理领域, 从而进一步提升灾害档案的服务能力, 将档案管理事业推向一个全新的发展高度。

参考文献

[1]杨旭, 汤海京, 丁刚毅.数据科学导论[M].北京:北京理工大学出版社, 2014.

[2]陶雪娇, 胡晓峰, 刘洋.大数据研究综述[J].系统仿真学报, 2013, (8) :142-146.

[3]于晓萍.大数据时代下档案管理的应对策略研究[J].兰台世界, 2014, (10) :12-14.

[4]李晨晖, 崔建明, 陈超泉.大数据知识服务平台构建关键技术研究[J].情报资料工作, 2013, (2) :29-34.

基于后关系数据库的数据挖掘探讨 第9篇

关键词:数据挖掘,后关系型数据库,Caché

0 前 言

从数据库系统诞生30多年来,数据库的研究和发展经历了最初的70年代以技术为中心的非开放式的层次/网状数据库,到80年代的以用户为中心的二维数据模型的关系数据库,再到90年代的以网络为中心的非结构化的后关系数据库的三代演变[1]。

随着网络技术的发展,特别是Internet和Intranet技术的快速发展,使得非结构化数据大量涌现和海量数据的产生,导致主要用于管理结构化数据的关系数据库的局限性暴露得越来越明显,因此一种融合了关系型数据库和面向对象技术的数据库-后关系数据库应运而生。同时,如何从海量数据中发现其中有用和有意义的信息,成为人们日益关心的问题,而数据挖掘作为一种能从大量的、不完全的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但潜在有用的信息和知识的技术[2],已逐渐被人们所应用。

1 关系数据库的优势及缺陷

关系型数据库产生的时间较早,适合于将数据表示为简单的两维模型,即用行与列的记录来进行存储处理,虽具有简单性、易于理解,并被广泛的应用,但是随着Internet技术的快速发展,非结构化数据的大量产生,使得关系数据库开始不断暴露出它的局限性,并越来越难以应付各种复杂的应用。

1.1 关系数据库的优势

1) 安全性

提供了多级安全措施来保护数据库将会遭受到的恶意破坏、非法存取和泄露。

2) 数据共享

支持并发控制,允许多个用户程序并行地存取数据库,提高了资源的利用率。

3) 数据完整性和一致性

关系型数据库提供了三类完整性:实体完整性、参照完整性和用户定义完整性。可以有效防止数据库中存在不合语义的数据和错误的结果。

1.2 关系数据库的缺陷

1) 数据类型简单

关系型数据模型仅限于二维或平面型,它只能把现实世界的数据按照二维模型来进行分类建模,但是现实世界是复杂的,并且每个事物的特点及其与外界事物的关系也是复杂的,二维关系难以体现这些特征,同时由于表间连接经常隐藏在应用程序中,而不是存在于易于管理的数据库中,从而降低了系统的处理性能;并且关系数据库支持的数据类型有限,只支持结构化的数字或字符,对于非结构化的数据类型则很难描述,因而对此类数据的处理只能停留在简单的二进制代码文件的存储,无法实现对该类数据的查询和检索。

2) 长事务处理性能低

关系型数据库是为静态应用设计的,其应用基本上都是短事务的,因而只能访问数据库中较小的部分,并且执行时间都为两三秒钟以内。而在处理运行周期很长(例如数个小时,甚至数天)的事务时,关系型数据库的性能往往不能令人满意。同时在对大量的数据进行多用户和长时间访问处理的时候,二维数据存储机制会带来巨大的进程资源消耗,也将严重制约大批量数据的处理性能。

3) 扩展性差

由于关系数据库结构的不灵活,只能通过新增表结构来表示新增的业务逻辑,从而数据冗余度不断增加,不能够随着用户和事务的数量大小进行方便的伸缩。

2 后关系数据库的优势和缺陷

后关系型数据库是在关系型数据库的基础上融合了面向对象技术和Internet网络应用开发背景,并结合了传统数据库如网状、层次和关系数据库的一些特点,以及Java、Delphi、ActiveX等编成工具环境,适应于新的以Internet Web为基础的应用。因而后关系型数据库在继承了标准关系型数据库优点的同时,采用了独特的多维数据结构,这样不仅能够真实反映和更好描述现实世界复杂数据及其之间的关系,同时也使数据的存储能够更快地实现。随着后关系型数据库技术的发展,后关系型数据库已不再停留在模型的基础阶段,并已有了成型的产品出现,如美国InterSystems公司的Caché数据库管理系统。

2.1 后关系数据库的优势

1) 开发效率高

数据库中引进面向对象技术,从而具有了模块化和互操作功能,能够有效地提高开发者的生产效率,由于对象是模块化的,一个对象内部如何改变或改变成什么样子,都不会影响外部对象,只要该对象保持其唯一性的标识不改变,外部世界无需知道它内部发生的变化,从而可极大简化应用程序升级和维护处理。此外,对象还是内部可操作的,一个对象建立后,它就可以被其他应用程序理解、使用和更改。

2) 数据建模简单

后关系数据库的存储机制为多维存储引擎,这种数据结构可以存储丰富的数据类型,具有比关系型数据库更高的存储和压缩效率。采用多维结构可以把一个对象描述成一个多面的global,中心元素即为“立方体(cube)”,而每一面即为一个属性或维,而且属性之间可以相互映射,并且由于数据长度是可变长的,同时空的global单元不占用空间,从而降低了存储磁盘空间。

3) 分布式缓存

在客户端采用缓存其需要读取的数据信息的办法,避免了对网络上数据的频繁访问,从而极大地减少网络上的数据流量。

4) 数据访问速度快

采用数据压缩存储法,使得数据操作可以通过简单的I/O进行,进而提高了性能,节省了空间,并能加快数据访问速度和代码处理速度。同时,后关系数据库的访问方法有:对象访问、多维化访问和SQL访问等三种主要访问机制,使得后关系数据库有更好的兼容性和更快的数据访问速度[3]。

2.2 后关系数据库的缺陷

与关系型数据库相比,后关系型数据库缺乏统一的形式描述和坚实完备的理论基础,现有的后关系型数据库产品在系统概念、用户接口、实现技术和对用户查询的支持等方面存在着不同程度的差别。

3 基于后关系数据Caché的数据挖掘

数据挖掘就是从大量的、不完全的、模糊的、随机的、原始数据中提取隐含在其中的事先未知的、但又是潜在有用的信息和知识的过程,它是集数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息提取、并行计算等技术的一个交叉性研究领域,而数据挖掘的诞生正是人们对数据库技术进行长期研究和开发的结果。由于在传统的关系型数据库进行数据挖掘,存在着两个主要问题:a)需要消耗大量的时间和空间来建立“立方体”;b)在关系型数据库应用中,由于业务系统和分析系统的数据库通常是分开的,因而系统间存在数据延迟,从而很难实现实时的数据分析。而Caché数据库所特有的关键技术可以解决上述问题。

3.1 Caché的多维部署,解决“立方体”问题

在分析数据的时候,通常需要进行多维度考虑,例如可以从时间、空间、人物和动作等维度来分析业务,而建立“立方体”的目的就是把数据放在一个多维度的空间(通常三维空间被称为立方体,而四维及以上维度则称为超立方体)。当数据部署在多维度空间以后,就可以进行多维度的挖掘和分析。

Caché数据库的核心技术是高效的多维数据引擎。通过内置的Caché对象脚本语言,可以直接访问多维数据结构,这样可以获得良好的性能和数据存储利用率。

当在进行高性能数据查询分析时,可以直接通过“global”来访问数据对象。如图1为一个简单的库存应用系统的例子,其提供的信息有:项目、型号、颜色、样式,它的数据结构可能就是存放该标准的项目的数量:

^Stock(项目,型号,颜色,样式)= 数量

如果型号为4号的蓝色带花的衬衣有3件,则为:

^Stock(“衬衣”,4,“蓝色”,“带花”) = 3

在这种数据结构中,很容易确定是否有型号为4号的蓝色带花衬衣——只要访问一下这个数据节点就可以了。如果客户想要型号为4号的衬衣,但不明确它的颜色和样式,很容易按以下要求列出一个数组:

^Stock(“衬衣”,4)

同时由于Caché数据库中一个节点可以同时存储多个数据元素,尤其将一组常常被一起访问的相关数据存储在一起时,可以大大减少访问数据库次数,因而在多维数组上建立数据挖掘的架构,可以不需要建立“立方体”,就可直接将数据部署在多维的结构上。甚至,可以在一个设计好的底层数据中进行数据挖掘,从而不需要把原系统中的数据导出到另一个专门的数据仓库中的,从而提高数据库挖掘处理的性能。

3.2 Caché的位图索引,解决实时分析的问题

索引是数据库的一个重要机制,它通过一个指定指针指向表中所选定的字段信息的方式,将这些信息以某种规律进行排序,从而可以有效、合理、快速、正确地将对应数据查询出来,以加快读写表中信息的速度。由于数据库的性能极大地依赖于属性索引的创建,尤其是在查询数据库中需经常使用的属性时,可大大提高数据库的性能,因而大多数数据库都支持两种基本的索引类型,有序索引和散列索引[3]。

位图索引作为一种类型的索引机制,是将每一个列/属性的每个可能值都对应一个独立的位图,每个存储的行/对象分配一个比特,"1"意味着这个行/对象含有该行/属性的特定值,图2为简单客户关系的位图索引示例。由于位图索引的优势是复杂查询,只需对索引进行简单的Boolean运算(AND,OR)处理即可,不需对整个数据库进行查找,从而可直接高效地确定哪个行符合查询条件。当查询数据量大到GB级或TB级时,位图索引能显著降低响应时间,但位图索引也存在着不适用于属性可能值的数目较少的情况,由于我们不可能仅对一个ID或者timestamp建立位图索引,如果每个位图只有一个1,其他都是0,那么其结果也就没有意义了。然而对于需要挖掘的数据,我们不会只去分析1/n这样的情况,因为对于要建立的分析维度模型,不可能只有一个域。因而对于一个海量数据源,我们需要分析的是大部分的数据是什么,或者值域的范围或者趋势等等;而不会去统计一些其统计结果都是只有万分之一的逻辑。所以说位图索引机制是适合对需要进行数据挖掘的海量数据建立索引。但位图索引还受到了两个问题的困扰:a)当要更新关系型数据库时,它将变得很慢; b)它可能会占据太多的存储空间。因而对于关系型数据库,位图索引机制在事务处理的应用程序中使用得相对较少。

客户关系表

Caché数据库则提供了事务型位图索引,通过提升数据仓库中实时数据的查询效率来提高复杂查询的性能。由于更新这些事务型位图索引要比更新传统的索引更快,同时采用了复杂的压缩技术显著地降低了所需的存储空间,其结果是:不用一秒钟就可以在一个在线事务处理数据库中搜索成百万条记录。因为商务智能和数据仓库应用通常是运行在这些实时的数据上的,因而可以对需要统计的数据加上事务型位图索引,从而可以打破OLAP和OLTP的局限,实现了在OLTP的系统上进行OLAP。

4 结束语

InterSystems公司作为数据库提供商,它自身不会通过构建组件或产品,来侵蚀应用合作伙伴的业务领域,因而其不可能像Microsoft,Oracle等公司那样,在Caché数据库中提供相应的数据挖掘组件或产品,而其应用合作伙伴Hesper公司的Speedminer就是一款以Caché数据库为基础进行数据挖掘的产品,并且已在医疗卫生领域广为应用。因而相信,随着对后关系型数据库越来越深入地认识,基于后关系型数据库的数据挖掘应用系统会不断得到发展。

参考文献

[1]何英.后关系数据库与关系数据库的对比分析[J].新余高专学报,2003,8(2):28-31.

[2]范明,孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2001.

《数据结构》教学探讨 第10篇

《数据结构》在计算机科学中是一门主干课、专业基础课。主要介绍用计算机解决一系列问题、特别是非数值信息处理问题时所用的各种组织数据的方法、存储数据结构的方法以及在各种结构上执行操作的算法。本课程还是《编译原理》、《操作系统》、《数据库原理》等其他课程的重要基础。

本课程的目的是使学生掌握各种数据结构的特点、存储表示、运算方法以及在计算机科学中最基本的应用。培养、训练学生选用合适的数据结构、设计质量高的算法、编写风格好的程序等综合能力,并为后续课程的学习打下良好的理论基础和实践基础。因此,本文从教学方法、教学手段、实践教学等各个环节着手,不断改进以提高教学效果。

2 改进教学方法

《数据结构》课程中有许多抽象的概念和算法,要使学生掌握这些知识并取得良好的教学效果,就要求任课教师运用高效易懂的教学方法提高教学质量。

1)正确认识本课程

《数据结构》这门课程比较抽象,容易被学生认为这是一门纯粹的理论课程,枯燥难学,没有兴趣将这门课程学好,甚而有部分学生认为不学《数据结构》照样能编程。所以从第一堂课开始,就要引导他们正确认识这门课程的性质和作用。通过编程中的实例来告诉他们这门课程的作用,如以前完成的C语言课程设计中链表的使用,编译程序中堆栈的使用,操作系统中队列的应用,文字处理软件中串的模式匹配的应用等;同时这门课程在本专业的各类考试中都是必考内容,如考研、各级软考、求职笔试等。通过这些学生能够感受到的实例,使学生正确认识这门课程性质,同时使学生产生对这门课程的兴趣,充分调动他们的求知欲,提高他们的学习积极性和主动性。

2)问题导入教学法

本课程的基本概念很多,如果每堂课一开始就介绍大量的基本概念,教学效果不明显。因此,对于每一个内容,先提出问题,自始至终围绕问题展开教学活动,引导学生不断的发现问题、提出问题、解决问题,培养学生学习的主动性、创新性。比如在表达式转换、求值的问题讲解中,不是每碰到一个运算符就能马上运算,提出用什么存储结构来保存运算符的问题,再分析需要保存的数据具有的特性,然后再解决需要利用具有后进先出的栈来保存扫描过程中碰到的运算符。再如图的最短路径问题中,可以考虑提出问题,需要去杭州、普陀山、上海、苏州等几个城市旅游,如何选择路线最合算?围绕这个问题开始讲解图的最短路径问题,让学生有兴趣且比较容易接受抽象的概念和算法。

3)由易入难,循序渐进

本课程中各类算法非常多,要引导学生依次灵活掌握各类算法。例如在讲解删除顺序表中某个数据元素的基础上,再提出问题:删除某顺序表中所有值等于key的元素。首先根据之前的解决思路,逐个进行扫描删除,算法的时间复杂度为O(n2);然后再进一步分析该问题,在前面的移动数据元素的过程中,移动实际上可以一步到位,即对所有的不等于key的数据元素,可以一次将其移动到最后所在的位置,这样算法的时间复杂度就提高为O(n)。再如在串的模式匹配中,共有五次提到模式匹配的概念,第一个是利用五个最基本的操作实现Index()操作,第二次是模式匹配BF算法,第三次是模式匹配KMP算法,第四次是next()的求解,第五次是改进的nextval(),依次在前问题的解决方案上提出新的问题并进行解决,得到新的解决方案,循序渐进的讲解各个算法。

4)因材施教,层次分明

(上接第2938页)

一般理论课都采用大班上课,可能每个学生的基础不同、理解和吸收能力也不同,如果所有内容都在同一层次和高度,很可能造成“有的同学吃不了,有的同学吃不饱”的局面,因此课程内容的安排等方面都要分不同的层次以适合所有同学。授课的内容分基础部分和提高部分,对于基础部分,强调每个同学都必须掌握,对于有能力的同学,争取掌握提高部分,对于课后作业,也分为基础题和附加题,附加题增加一定的难度和趣味性,让大家主动的去完成。

3 提高教学手段

1)教学手段多样化,生动教学过程

教学过程中合理利用教学手段,不但能提高效率,而且能生动课堂。通过制作动画在课堂上演示,比如:线性表中数据元素的插入和删除过程,栈和队列的应用,二叉排序树,平衡二叉树,各类排序等过程中数据元素的变化过程,通过动画演示生动易理解,而且节省时间提高效率。当然有的相对复杂的过程引入必要的道具也是有所必要的,如串的模式匹配KMP算法相关部分,非常的抽象,学生不好理解,可以拿出一条一条的串作为移动对象演示匹配过程,感觉比动画演示更加的贴切。所以课堂中不用拘泥于某一固定的手段,应该不断的找出更利于学生掌握的手段应用。

2)利用网路平台,扩大课堂容量

充分利用教学网站,提供更多的信息支持教学。比如在教学主页上放上课程材料,如课件、作业、实践等相关内容。另外可以选择一些经典的参考书籍,典型的习题放上面,供同学课外进行练习和参考。同时利用网络平台提供多种交流方式与学生交流,做到知己知彼教学相长。

4 实践与理论并进

计算机相关专业学生的最终目标是要能设计实现出好的软件,因此,实践技能的提高才是教学的最终目的。实践课堂是理论课堂的延伸,是灵活运用理论的一个重要环节,起到让学生真正掌握和巩固所学知识的作用,因此本课程的实验教学也越来越得到重视。

精心选择实践内容,着重于基础知识知识点的应用,针对不同层次的学生,可以给予一定的参考资料或代码,能让所有的学生都能动手起来,不会有学生觉得无从下手。如对于线性表这一部分:顺序表、链表的存储实现、插入删除查找等基本操作的实现。另外可以在实验中给出提高难度的附加部分,激发掌握好的同学的潜能,提升兴趣,如单向循环链表的Joseph问题,双向循环链表的实现与基本操作等,使不同层次的学生都能理解并运用自己层次的内容。

5 结束语

《数据结构》是计算机专业的核心课程,同时也是程序设计的基础,因此要上好这门课程,必须分析教学对象,从教学方法、教学手段、实践教学等各个教学方面进行研究,激发学生的学习兴趣,让他们愿意学、努力学,并且能学好,以真正提高该课程的教学效果,达到教学目的。

摘要:《数据结构》是计算机及其相关专业的专业基础课,同时具有很强的理论与实践性。本文针对该课程特点,结合自己的教学实践,提出几点该课程教学中的体会和观点。

关键词:数据结构,算法,教学方法,教学手段,实践教学

参考文献

[1]严蔚敏,吴伟民.数据结构(C语言版)[M].北京:清华大学出版社,2001.

[2]杨永斌.“数据结构”教学策略探讨[J].合肥:合肥工业大学学报(社会科学版),2008(22).

土工实验数据分析方法探讨 第11篇

【关键词】土工实验;实验数据;数据分析;分析方法

一、引言

在进行实验过程中,由于土体本身所具有的复杂性,土质质检所存在的物理学特性以及采样、运输、存储等等方面所表现出来的特点,都容易对数据造成一定程度的干扰,致使实验的结果出现误差。另外,因为实验本身受到很多因素的干扰,也同样容易发生数据偏差的问题。因此,本文着重从实验数据所涉及的内容,影响实验数据的因素,以及提升实验准确率的角度出发,对土工实验数据分析方法进行探讨。

二、土工试验数据所涉及内容

(一)土的比重实验。土工试验过程中,土的比重实验是非常重要的。一般来说,地域相同或者相近,那么土的比重也将会比较相近。但是,因为在实际操作中,其整个的操作流程比较复杂,所以不同的单位会采用本地所出具的或者考察的相关数据直接进行比重实验,这样容易导致实验数据的误差存在。

(二)土的密度实验。通过土的密度实验可以详细的了解土的组成,可以了解其组成成分的性质,能够为之后的施工提供更多的参考。土的密度与土粒的重量、孔隙体积、孔隙大小、孔隙水重等等内容息息相关,能够反映土的组成和基本结构特征。在进行实验的过程中,要注意尽量避免对取样即时进行实验,最好能够等待土样达到日常状态之后再进行试验,这样可以让土密度实验的结果更加准确。

(三)土的含水量实验。土的含水量实验可以说是土工实验中的核心内容,其实验的情况将会影响到工程地基建设,还会影响到后续工程的稳定性。不同地区的土样其含水量不同,并存在很大程度上的差异性。实验人员在进行取样的过程中,要保证其样品的均匀性,或者具有代表性,否则进行试验所获得的数据就没有任何指导意义,其数据在实践应用中的效率和质量也将会呈现大幅度的下降。

三、土性参数实验结果误差性的原因

(一)土体本身性质导致。依照相关的物理力学和力学性质,我们可以了解到土体的分层具有不均匀性,加上其所处环境的变化,可能发生的雨水冲击、水文变化、其后影响等等语速怒,都会让土体的性质发生改变。这样在进行土工试验的时候就非常容易造成实验结果的差异性,甚至有可能会成为差异产生的主要影响因素。

(二)系统误差。系统误差是由于仪器的某些不完善、测量技术上受到限制或实验方法不够完善没有保证正确的实验条件等原因产生。不同的单位所使用的仪器往往不尽相同,所使用的试验方法也有一定的出入,加上不同的试验方法让土工参数出现离散性,其所实验的数据也就会有所不同。系统误差的存在可以予以避免,其与偶然误差不同,这就需要实验室对设备和系统进行改进。

(三)偶然误差。偶然误差的特点是它的随机性。如果实验人员对某物理量只进行一次测量,其值可能比真值大也可能比真值小,这完全是偶然的,产生偶然误差的原因无法控制,所以偶然误差总是存在,通过多次测量取平均值可以减小偶然误差,但无法消除。偶然误差的存在属于客观存在的现象,其与人为原因所造成的误差有很大的差别,对于两者应当予以区分。

四、土工实验数据分析方法的应用

(一)进行数据检查,果断进行取舍。在进行实验的过程中,如果有明显不符合物理力学性质的值的范围点,则可以通过观察予以了解,实验人员要对其进行细致观察,一旦发现异常立刻予以放弃。一般判断的标准是大部分数值为范围内波动,但是有一点超出正常值或者距离正常值较远,则可以被认定为不合理。在实验数据较多的情况下可以运用3σ法则进行数据之间取舍的考量。在进行实验过程中,存在于之外数值所占比例较少,因此,大于和小于之间数值作为异常处理。

(二)土工实验数据中最小样本数问题。在土工试验过程中,最小样本数问题需要引起人们的重视。实验中的样本数要选取适当,如果样本数过小就会影响实验结果的准确性。但是,样本数的数量并不是随意定制的,其受到多种因素的影响,比如工程规模、工程精度要求、现场勘查情况等等。

(三)土体性质指标的自相关性的问题。根据以往数据实验的关联性,求的往往是其之间的线性相关系数,但是对于其自相关函数通常并没有表现出线性相关,而是指数相关。因此,不能简单依照求相关系数的方法判断其相关性。在进行土工实践过程中,往往可以通过δ对其独立性进行判断。在相关距离 范围内,图形指标基本相关;在此范围外,图形指标基本不相关。但是对于δ事先未知,因此其需要根据样本测值进行求算,一般使用递推平均法对相关距离δ进行计算,并使用间距△Z对δ的影响进行综合考量。一般来说,△Z /δ的数值越大,其各抽样点的土性越接近相互独立,抽样误差也就越小。

五、结束语

土工试验对于土工建设来说影响较大,其影响因素包括土体本身性质、取样仪器情况、人为因素等,需要对此方面予以重视。对其不合理点来说,可以通过3 原则进行剔除。对于其数据相关性来说,其可以通过迭代求解土性指标相关距离予以解决,通过样本的加权平均来对该区域的平均性指标进行估算。为了让样本能够满足实验需要,可以利用Bayes方法对其土性指标与因确认,从而弥补数目不准确的情况。通过此三个方面对其进行方法的应用,则可以有效提升实验数据的准确性、可靠性,可以让实验的结果更加符合实际需要。

参考文献

[1]余海龙,张利宇. 土工实验数据分析方法探讨[J].中国新技术新产品,2015,21:132-133.

[2]刘松玉,蔡正银. 土工测试技术发展综述[J].土木工程学报,2012,03:151-165.

作者简介

数据探讨 第12篇

1 电子商务中大数据处理

我们所关心的大数据处理, 是指从各种各样的数据中, 迅速获得有价值信息的能力。一方面, 从多样数据里提取价值, 即具有价值 (Value) 特征;另一方面, 数据获取、数据传递、数据处理等方面的高速高效, 即具有快速处理 (Velocity) 特征。

大数据概念里的“数据”, 是指可分析、可量化特性的海量数据。大数据概念里的“大”, 是指蕴含“大量化” (Volume) 、“多样化” (Variety) 两个特征。

目前处理大数据方面主流软件工具有开源Hadoop平台, Mapreduce编程模型与方法以及更为先进的数据处理平台Spark。

2 企业在电子商务中的数据交换

数据在不同的信息实体之间交互的过程称为数据交换。数据交换分为3个阶段, 即数据生成、数据传输和数据处理。不同之处在于, 各种信息实体有各自的需求和规范, 因而工作过程有很大差别。本文主要介绍企业间的数据交换, 这些企业既包含电子商务企业 (如阿里、京东等) 也包含一般企业 (泛指具有商业买卖需求的企业, 如制造商、经销商、配套厂商等) 。

2.1 电商企业间数据交换

对于电子商务企业间的数据交换, 在一定的商业互利共赢的前提下是完全有必要的, 可以促进整个经济的繁荣, 同时减少不必要的信息冗余。他们之间数据交换需使用某种共用的文档作为信息交换格式, 比如某些商品的买卖记录、产品交易量、库存量等完全可以转换成一种共用格式进行交换共享, 从这个角度上说, 电商之间的数据交换更多是为了商业的辅助目的, 而非一种直接的商业买卖需求, 当然不排除也会有特殊的买卖数据行为。

2.2 一般企业间数据交换

对于一般企业间的数据交换, 主要目的即为商业买卖需求。通常商业数据格式繁杂, 耦合度低, 数据交换效率也相对较低。为此可以在电子商务平台上搭建一个数据交换平台, 为企业间的数据交换创造条件。如图1所示。

企业A只需要登录某一指定电子商务平台。按照应用要求设置好相关需求后对企业B发起Web交易, 减少人工方式交易中出的错误并提高效率。企业和企业间通过电子商务平台来交换数据。使用XML文档作为信息的交换格式可以实现数据的统一。

各个企业将对外事务所涉及的数据存放在电子商务平台上, 如销售、采购、供应商管理、招标、投标等数据。平台负责保管这些数据并提供数据支持来保证各企业顺利通过数据交换系统协同工作, 数据交换系统负责在一个具体的数据交换任务中动态的生成格式统一的数据并传输、转换、写入等。从而将电子商务平台与数据交换系统有机结合, 满足企业间协同工作和数据交换的需要。此过程模型如图2所示。

3 阿里巴巴数据交换平台架构

目前, 各大电商已经意识到大数据时代数据交换的重要意义, 作为国内电商业的翘楚阿里巴巴公司率先展开电子商务数据交换平台的研究。2012年底, Hadoop与大数据技术大会召开, 大会以“大数据共享与开放技术”为主题, 探讨大数据技术生态系统的现状和发展趋势。阿里巴巴集团数据交换平台资深专家强琦在本次大会中提出了关于“阿里数据交换平台”架构, 如图3所示。此架构包含多个功能模块, 具体功能较复杂。

4 结论

随着贸易全球化和电子商务的蓬勃发展, 交易伙伴之间的数据交换越来越多, 要求采用更加安全、可靠的数据交换技术。因此, 数据交换在电子商务领域有着广阔的前景。

参考文献

[1]甘丽新, 涂伟.大数据时代电子商务的机遇与挑战探讨[J].科技广场, 2013.

[2]庞琪.探讨大数据时代下电子商务的发展[J].管理观察, 2014.

上一篇:典型报道下一篇:桡骨下端骨折