基于Web Service技术分布式并行数据挖掘的研究与实现

发布时间 : 星期日 文章基于Web Service技术分布式并行数据挖掘的研究与实现更新完毕开始阅读

龙源期刊网 http://www.qikan.com.cn

基于Web Service技术分布式并行数据挖掘的研究与实现

作者:金春霞 白秋产

来源:《现代电子技术》2008年第10期

摘 要:主要介绍基于Web Service技术的一个数据挖掘系统,在一个关联规则挖掘的并行算法—CD算法的基础上,结合一种基于动态数据集划分的并行关联规则挖掘算法,利用动态方式分配数据量,使每个处理器获得相同多的数据集,解决在网络中大量分散的数据因通信等问题而引起的负载平衡,从而提高了数据挖掘效率。

关键词: Web服务;关联规则;并行数据挖据;动态数据集 中图分类号:TP393 文献标识码:B 文章编号:1004-373X(2008)10-042-

(1.Southeast

University,Nanjing,22300

Abstract:The paper gives a distributed data mining system based on Web Services.On the basis ofCD algorithm,the paper presents a parallel algorithm for mining association rules based on dynamic dataset partition.By uning dynamic method to allocate data,a processor can obtain same dataset.Since it solves the load balance better because of the problems of distributed-data and

Keywords: 1 引 言

随着计算机在社会各领域的广泛深入应用,在测绘、商业、金融业等各领域中每天都在产生数量巨大的数据,Internet领域的迅猛发展也使得网络中的各种信息日益丰富。而这些数据又分布在不同地区。面对大量的GB级、TB级甚至更多的数据,如何处理数量日益增长的数据成为当今数字化社会面临的一个极具挑战性的问题。而随着网络系统的广泛应用,分布式数据挖掘日益受到关注,而分布式系统中存在着分布数据和异构性等问题,因此分布式数据挖掘不仅需要解决集中式数据挖掘中的算法时间复杂性问题,还要考虑数据的转换、站点扩展性以及通信代价等问题。本文针对并行关联规则挖掘算法不能有效的解决负载平衡,而导致挖掘效

龙源期刊网 http://www.qikan.com.cn

率低的问题,在CD算法的基础上,介绍一种基于动态数据集划分的并行关联规则挖掘算法,更好地实现负载平衡,从而提高并行数据挖掘的效率。 2 Web Service简介 2.1 Web Service技术

Web Service技术是建立可互操作的分布式应用程序的新平台。他使得各种平台以各种不同语言和技术开发的分布式计算技术能够相互协作和交互,供现有的或潜在的客户以一些标准的方式访问。他最大特点就是松耦合、跨平台,这些特点无疑为分布式数据挖掘提供了良好的支持。

利用Web Service技术构建一个数据挖掘系统,其应有以下几个特点:灵活的数据挖据架构,可以根据不同的应用领域,灵活和快捷地选择最合适的数据挖据方法和数据挖据算法;具有分布式的软件架构,能在更大程度上满足用户的需求;可以在一定程度上实现分布并行的数据挖掘,提高数据挖掘的效率。同时利用该技术,可以将一个挖掘任务分配到多台计算机上运行,从而实现并行数据挖掘[1]。 2.2 Web Service的结构

Web Service是一种面向服务的体系结构,他能够创建服务的抽象定义、提供服务的具体实现、发布并查找服务、实现服务实例选择,并实现可互操作服务的使用。Web service体系结构基于3种角色(服务提供者、服务注册中心和服务请求者)之间的交互。交互涉及发布、查找和绑定操作。服务提供者是提供最终Web Service的供应商,他既是Web Service的拥有者,负责其所拥有服务的发布、更新和回收,又是实现Web Service的平台;服务提供者定义 Web Service的服务描述并把他发布到服务请求者或服务注册中心;服务注册中心是一个Web Service的注册地,汇集了很多在线的Web Service。一般来说服务提供者将 Web Service安装到在线服务器后,会将Web Service发布到服务注册中心[1]。图1示出了这些操作、提供这些操作的组件及他们之间的交互。 3 关联规则并行数据挖掘

并行数据挖掘的体系结构是对传统的数据挖掘体系结构的扩展,目的是提高数据挖掘的效率。其主要实现3个功能:在划分的数据子集上进行局部的数据挖掘任务;合并局部数据挖掘的结果;把全局性的结果呈现给用户[2]。

其中局部数据挖掘部分负责把数据集划分成多个数据子集,并分配到多个处理器上,每个处理器上执行相应的数据挖掘任务,并把结果提供给上层。全局数据挖掘部分负责收集局部数据挖掘的结果,并把这些结果合并成全局的统一结果,用户通过结果表示工具能够方便地对全局结果进行评价和理解。

联系合同范文客服:xxxxx#qq.com(#替换为@)