数据挖掘通常是指从很多的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘一般与计算机科学有关,并通过统计、在线剖析处置、情报检索、机器学习、专家系统和模式辨别等很多办法来达成上述目的。以下是学习啦我们今天为大伙精心筹备的:OLAP融合于数据挖掘之模型构建有关论文。内容仅供阅读与参考!
OLAP融合于数据挖掘之模型构建全文如下:
1 OLAM模型
本文提出的OLAM模型对OLAP中数据立方体和星型模式的定义分别进行了拓展,涵盖问题的整个搜索空间,可以比较全方位地反映多维数据挖掘的实质.下面描述相应的理论办法、基本权标和数据结构.
1.1 从数据立方体到影响域
本文在OLAM模型中引进基本权标:影响域.影响域与多维空间的数据立方体在逻辑上是等价的.但立方体上计算的是聚合,而影响域上计算的是蕴涵,即数据中隐藏的模式.影响域同立方体一样具备属性和值,不同的地方在于它具备置信度.
立方体将维映射至度量,而影响域将维和度量映射至置信而影响域将度.一个影响域可视为一个函数,其映射关系从维和度量映射至一置信度级别.影响域可视为是广义定义上的数据立方体空间,由于影响域的大小一般比数据立方体要大得多,OLAM剖析常常在更细的粒度上剖析更多的维,或对多个特质之间的关系进行探索.因为每次重新计算的代价太昂贵,所以需要在比星型模式存储有更多的聚合的模式上进行,即使用下一节所提出的旋转模式.为了遍历整个影响域,需要将OLAP运算与影响性剖析交叉.可以看出,影响域的操作可在多维和多层次的抽象空间中进行,有益于灵活地挖掘常识.而文献〔3,4,5〕的操作是基于数据立方体的多维数据挖掘,包括在基于影响域的操作之内,是其中的特例.影响域定义可用面向对象的思想描述,如此能够帮助生成一个较好的结构化的框架.影响域包括六个主要特质:基本维;属性;对象或实例;层次;度量;蕴涵.其中,基本维是一种高层次的种类划分,如商品、顾客等.每一个类/维具备一属性集合,如商品维具备属性价格、颜色等.每一个类/维有对象或要点作为实例,对象的每一个属性具备一个值.在类和属性内存在层次,比如,对类来讲,商标类是商品的父类;对属性来讲,属性集合区域,城市,省}是一个层次.度量是在维形成的空间上的计算.蕴涵是在维和度量形成的立方体空间上的计算.
1.2 从星型模式到旋转模式
从面向对象的角度来看,数据立方体与影响域的特质不尽相同,包括基本维、属性、对象或实例、层次与度量这五个特质,OLAP的星型模式一般直接映射在该对象结构中.星型模式每一个维表都可看成一个对象,对象的属性代表在维表中的列,度量在每个维构成的空间上进行计算.图1给出一个星型模式的例子,包括四个基本维:商店维、顾客维、商品维和定货维,中央的事实表中存有度量和每个基本维的码值.星型模式是用来处置聚合运算的,该模式能非常不错地用于OLAP,但它本身不带数据挖掘功能,不可以用于OLAM,因此需要将星型模式作相应扩展.
在对影响域进行剖析的过程中,一般将剖析焦点聚焦在星型模式中的维表上.因为在剖析中要用附加的聚合或选择的数据项以丰富维表内容,因此对于每一个库表来讲,需要比星型模式存储更多的数据.剖析的焦点在每个维表之间不断转换,比如从顾客维转换至商店维再到商品维等等,可以看作是焦点在绕着星型模式旋转,因此,本文引入旋转模式的定义,将OLAM的剖析结构命名为旋转模式.图2显示出与图1中星型模式所对应的旋转模式的例子.旋转模式的中心存储的是影响域的蕴涵,外围是每个维表的码值与聚焦度量和其它度量,四周呈辐射状的是每个维表.
在实行影响域剖析时,焦点沿着不一样的基本维旋转,在维和度量形成的广义数据立方体空间上实行蕴涵运算对应于图1的旋转模式的例子如图3所示,旋转模式中的库表具备五个主要部分:中的库表具备五个主要部分聚焦维;聚焦度量;内部属性;外部属性;非聚焦度量.聚焦维代表目前剖析焦点所在的基本维,如图2所示的顾客维;聚焦度量代表用户关心的度量,如收益;内部属性是聚焦维中的属性,如顾客年龄等;外部属性是非聚焦维中的属性,如某顾客最喜欢的商品颜色等;非聚焦度量是用于辅助决策的度量,如某顾客平均一次购买的产品的数目.由此可以看出影响域中的存储模式与OLAP是不一样的.
2 达成OLAM机制的讨论
OLAM机制具备交互的特质,而且求蕴涵函数的计算代价比较昂贵,因此在大型数据库或数据仓库中达成OLAM机制的重要是解决迅速响应和有效达成的问题.需要考虑如下原因:
2.1 迅速响应和高性能挖掘
OLAM若想获得迅速响应和高的性能,会比OLAP困难,由于数据挖掘的计算代价一般比OLAP昂贵.迅速响应付于交互式挖掘是致关要紧的,有时为了得到迅速响应甚至可以牺牲精度,由于交互式挖掘能一步步引导挖掘者聚焦在搜索空间并查找愈加多要紧的模式.一旦用户能限定小的搜索空间,就可调用更高级的而速度较慢的挖掘算法进行细致剖析.可考虑使用渐渐精化数据挖掘水平的OLAM办法:第一在云数据集上用迅速挖掘算法标识出有兴趣的模式/地区,然后用代价较高但较精确的算法进行详细剖析.
2.2 基于数据立方体的挖掘办法
基于数据立方体的挖掘办法应该是OLAM机制的核心.基于立方体的数据挖掘已经有不少研究,包含定义描述、分类、关联、预测、聚类等.基于立方体的挖掘继承了关系型或事务型数据挖掘办法的思想,并具备很多特质.在基于立方体的有效挖掘算法范围需要更多的研究.高性能数据立方体技术对OLAM非常重要.因为一个挖掘系统需要计算很多维之间的关系或详细细节,如此的数据不可能都预先实体化,有必要联机动态计算数据立方体的一部分.另外,多特质数据立方体的有效计算,与支持具备复杂维和度量的非传统的数据立方体,对有效地数据挖掘都非常重要.因此,需进一步开发数据立方体技术.
2.3 选择或添加数据挖掘算法
关系型查看处置可以用不一样的处置渠道对同一查看生成相同的答案,但使用不一样的数据挖掘算法或许会生成显著不一样的挖掘结果.因此,提供多种可选的数据挖掘算法非常重要.另外,用户或许想自己开发一个算法,假如提供标准开放的API,而且OLAM系统经过非常不错地模块化,用户就大概增加或修改数据挖掘算法.用户概念的数据挖掘算法可以较好地借助一些开发好的系统构件与常识可视化工具,并与已有些数据挖掘功能合成.因存在有多个数据挖掘功能,怎么样在某一具体应用中选定适合的数据挖掘功能是一个问题,需要熟知应用问题、数据特点与数据挖掘功能有哪些用途,有时需要实行交互探索式剖析来选择适合的功能.因此,建造探索式剖析工具与构建面向应用的语义层是两个要紧的解决方法.OLAM提供探索式剖析工具,进一步的研究应该放在为具体应用自动选择数据挖掘功能上.
2.4 在多个数据挖掘功能之间交互
OLAM的优势不只在于选择一系列的数据挖掘功能,也在于在多个数据挖掘和OLAP功能之间交互.比如第一切割立方体的一部分,基于一指定的类属性将该部分分类并查找关联规则,然后下挖在更细2.5 可视化工具
为了有效地显示OLAP挖掘结果并与挖掘处置交互,开发多种常识和数据可视化工具非常重要.图表、曲线、决策树、规则图、立方体视图、boxplot图等是描述数据挖掘结果的有效工具,帮助用户监测数据挖掘的过程并与挖掘过程交互.
2.6 可扩展性
OLAM系统与用户及常识可视化软件包在顶端通讯,与数据立方体在底端通讯.它应该高度模块化,并具备可扩展性,由于它或许会与多个子系统合成并以多种方法扩展.应该扩展OLAP挖掘技术至高级的和/或特殊作用与功效的数据库系统,包含扩展的关系型、面向对象的、文本、空间、时间、多媒体和异种数据库与Internet信息管理软件.对复杂种类的数据,包含结构化、半结构化和非结构化数据的OLAP挖掘也是一要紧的研究方向.
2.7 做书签和回溯技术
OLAM借用于数据立方体导航,提供给用户充分的自由,运用任一数据挖掘算法序列来探索和发现常识.当从一个数据挖掘状况转换至另一状况时常常可有不少选择.可做个书签,假如发现一个路径无意义,就回到原先的状况并探索其它的办法.这种做标记和回溯机制预防用户迷失在OLAM空间中.
3 结论
借助OLAM模型沿着多个维进行挖掘,察看沿着这类维的模式,进行合并,并以智能的方法与用户进行交互,可以在多维数据库的不一样的部位和不一样的抽象级别交互地实行挖掘.它有如下优点:
便于交互式探索性的数据剖析.有效的数据挖掘需要探索性的数据剖析功能〔6〕.用户常期望灵活地遍历数据库,选择任一部分的有关数据,在不一样的抽象级别上剖析,并以不一样的形式表示常识/结果.OLAM便于对不一样的数据子集在不同抽象级别上进行数据挖掘,这连同数据/常识可视化工具将大大加大探索性数据挖掘的能力和灵活性.
联机选择数据挖掘功能.事先预测挖掘何类型型的常识是困难的,对于用户来讲,常常不了解想挖掘哪种常识.通过OLAM模型将OLAP与多个数据挖掘功能结合,用户可以灵活选择所需的数据挖掘功能,并动态交换数据挖掘任务.本文所提出的OLAM模型的理论办法、基本权标和数据结构将数据挖掘和OLAP技术结合在一个统一的框架之中,大大加大了决策剖析的功能和灵活性.该模型能够帮助在大型数据库和数据仓库中交互式地挖掘多层次的常识,是一个非常有前景的方向.
参考文献:
1 E.F.Codd, S.B.Codd, C.T.Salley. Beyond decision support.〔J〕Computerworld, 27, July 1993
2 Usama M Fayyad, www.51lunwen.com/database/ Gregory Piatetsky-Shapiro et al. Advances inknowledge discovery and data mining.〔M〕California: AA人工智能/MIT Press, 1996
3 J.W.Han. Towards on-line analytical mining in large databases.〔R〕ACM SIGMOD Record, 1998. 27:97~107
4 J. W. Han, S. Chee, and J. Y. Chiang. Issues for on-lineanalytical mining of data warehouses.〔C〕Proc. of 1998SIGMOD96 Workshop on Research Issues on Data Mining andKnowledge Discovery , Seattle, Washington, June1998
5 J.W.Han. OLAP Mining: An Integration of OLAP with DataMining.〔C〕Proc. 1997 IFIP Conference on Data Semantics , Leysin, Switzerland, Nov. 1997. 1~11
6 M.S.Chen, J.W.Han, and P.S.Yu. Data mining: an overviewfrom a database perspective.〔J〕IEEE Transactions onKnowledge and Data Engineering, 1996. 8: 866~883