rss 推荐阅读 wap

晨鸿新闻网_新闻资讯门户|新闻|中国新闻|国际新闻|中国新闻网

热门关键词:  自驾游  as  云南  xxx  浙青春,正黔行
首页 国际新闻 国内热点 社会万象 军事关注 体育运动 科技资讯 娱乐头条 民生热线 数码电子 健康生活

云计算大数据教程数据仓库的基本架构

发布时间:2021-01-13 16:34:59 已有: 人阅读

数据仓库的目标是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。实在数据仓库自身并不“出产”任何数据,同时本身也不须要“花费”任何的数据,数据起源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的起因。因而数据仓库的基础架构主要包括的是数据流入流出的进程,可以分为三层——源数据、数据仓库、数据应用:

从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自上而下贱入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。

数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以以为是ETL(抽取Extra, 转化Transfer, 装载Load)的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部门精神就是坚持ETL的畸形和稳固。

下面主要简单介绍下数据仓库架构中的各个模块,当然这里所介绍的数据仓库主要是指网站数据仓库,JSON格式化是一种轻量级的数据交换格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。

数据仓库的数据来源

对于网站数据仓库而言,点击流日志是一块主要的数据来源,它是网站分析的基础数据;当然网站的数据库数据也并不可少,其记载这网站经营的数据及各种用户操作的成果,Base64编码/解码是网络上最常见的用于传输8Bit字节码的编码方式之一,Base64就是一种基于64个可打印字符来表示二进制数据的方法。可查看RFC2045~RFC2049,上面有MIME的详细规范,对于分析网站Outcome这类数据更加精准;其余是网站内外部可能产生的文档及其它各类对于公司决策有用的数据。

数据仓库的数据存储

源数据通过ETL的日常义务调度导出,并经由转换后以特性的形式存入数据仓库。其实这个过程始终有很大的争议,就是到底数据仓库需不需要储存细节数据,一方的观点是数据仓库面向分析,所以只有存储特定需求的多维分析模型;另一方的观点是数据仓库先要建破和维护细节数据,再根据需求聚合和处理细节数据天生特定的分析模型。我比较倾向后面一个观点:数据仓库并不需要储存所有的原始数据,但数据仓库需要储存细节数据,并且导入的数据必需经过整理和转换使其面向主题。简单地说明下:

  (1).为什么不需要所有原始数据,不可逆JS加密随着互联网的快速发展,网站客户端(浏览器)IE(ff)运行的javaSCRIPT代码常常被别人轻易的拷贝, 为了保护程序员自己的劳动成果,因此程序员不得不对想办法保护自己源代码-------javascript加密?数据仓库面向分析处理,然而某些源数据对于分析而言不价值或者其可能发生的价值远低于贮存这些数据所需要的数据仓库的实现和机能上的本钱。比如我们晓得用户的省份、城市足够,至于用户毕竟住哪里可能只是物流商关怀的事,或者用户在博客的评论内容可能只是文本挖掘会有需要,但将这些漫长的评论文本存在数据仓库就得失相当;

  (2).为什么要存细节数据?细节数据是必须的,数据仓库的分析需求会时刻变更,而有了细节数据就可以做到以不变应万变,但假如咱们只存储依据某些需求搭建起来的数据模型,那么显然对于频繁变动的需要会不知所措;

  (3).为什么要面向主题?面向主题是数据仓库的第一特征,重要是指公道地组织数据以方面实现分析。对源数据而言,其数据组织情势是多样的,像点击流的数据格局是未经优化的,前台数据库的数据是基于OLTP操作组织优化的,这些可能都不合适分析,而收拾成面向主题的组织形式才是真正天时于分析的,好比将点击流日志整顿成页面(Page)、拜访(Visit或Session)、用户(Visitor)三个主题,这样可以显明晋升分析的效力。

  数据仓库基于保护细节数据的基础上在对数据进行处理,使其真正地可能应用于分析。主要包含三个方面:

数据的聚合

  这里的聚合数据指的是基于特定需求的简略聚合(基于多维数据的聚合体当初多维数据模型中),简单聚合可以是网站的总Pageviews、Visits、Unique Visitors等汇总数据,也可以是Avg. time on page、Avg. time on site等均匀数据,这些数据可以直接地展现于报表上。

多维数据模型

  多维数据模型供给了多角度多档次的分析利用,比如基于时间维、地域维等构建的销售星形模型、雪花模型,可以实现在各时间维度和地域维度的穿插查问,以及基于时光维和地区维的细分。所以多维数据模型的运用个别都是基于联机分析处理(Online Analytical Process, OLAP)的,而面向特定需求群体的数据集市也会基于多维数据模型进行构建。

业务模型

  这里的业务模型指的是基于某些数据剖析跟决议支撑而树立起来的数据模型,比方我之前先容过的用户评估模型、关系推举模型、RFM分析模型等,或者是决策支持的线性计划模型、库存模型等;同时,数据发掘中前期数据的处置也能够在这里实现。

数据仓库的数据应用

报表展示

  报表简直是每个数据仓库的必不可少的一类数据应用,将聚合数据和多维分析数据展示到报表,提供了最为简单和直观的数据。

即席查询

  实践上数据仓库的所有数据(包括细节数据、聚合数据、多维数据和分析数据)都应该开放即席查询,即席查询提供了足够机动的数据获取方法,用户可以根据本人的需要查询获取数据,并提供导出到Excel等外部文件的功效。

数据分析

  数据分析大局部可以基于构建的业务模型开展,当然也可以应用聚合的数据进行趋势分析、比拟分析、相干分析等,而多维数据模型提供了多维分析的数据基本;同时从细节数据中获取一些样本数据进行特定的分析也是较为常见的一种道路。

数据挖掘

  数据挖掘用一些高等的算法可以让数据展示出各种令人惊奇的结果。数据挖掘可以基于数据仓库中已经构建起来的业务模型展开,但大多数时候数据挖掘会直接从细节数据上入手,而数据仓库为挖掘工具诸如SAS、SPSS等提供数据接口。

元数据管理

元数据(Meta Date),其实应当叫做解释性数据,即描写数据的数据。主要记载数据仓库中模型的定义、各层级间的映射关联、监控数据仓库的数据状况及ETL的任务运行状态。普通会通过元数据材料库(Metadata Repository)来同一地存储和管理元数据,其主要目的是使数据仓库的设计、安排、操作和管理能达成协同和一致。

  最后做个Ending,数据仓库本身既不生产数据也不消费数据,只是作为一个旁边平台集成化地存储数据;数据仓库实现的难度在于整体架构的构建及ETL的设计,这也是日常治理维护中的重头;而数据仓库的真正价值体现在于基于其的数据应用上,如果没有有效的数据应用也就失去了构建数据仓库的意思。

 


最火资讯

首页 | 国际新闻 | 国内热点 | 社会万象 | 军事关注 | 体育运动 | 科技资讯 | 娱乐头条 | 民生热线 | 数码电子 |免责声明

Copyright2008-2022 晨鸿新闻网 www.wfchjk.com 版权所有 业务QQ:17468920 Power by DedeCms 京ICP备13004639号-22

电脑版 | wap