加入收藏 | 设为首页 | 会员中心 | 我要投稿 上海站长网 (https://www.021zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

自测一下,你对大数据平台架构还有多少知识是不知道的

发布时间:2022-11-26 00:09:42 所属栏目:大数据 来源:互联网
导读: 马总说过这是一个DT的时代,一个从IT到DT转变的时代。确实这几年到处都能听到诸如“云计算”、“大数据”、“上云”的谈论,确实随着云计算的兴起,依托于相对低成本、高稳定性的云设施构建

马总说过这是一个DT的时代,一个从IT到DT转变的时代。确实这几年到处都能听到诸如“云计算”、“大数据”、“上云”的谈论,确实随着云计算的兴起,依托于相对低成本、高稳定性的云设施构建平台的成本越来越低,越来越多的公司都在推数据相关的平台、产品。如阿里、京东、百度、腾讯,以及一些打着大数据旗号的创业公司都有出自己的数据平台和产品,用户依托于平台确实大大降低了数据处理、使用的难度,降低了从数据挖掘价值的时间成本。于此同时,平台架构的变迁也成为备受关注的问题。今天我们就来看看有哪些大数据的平台架构你不知道。

echarts大数据框架_大数据计算框架_大数据框架

一、首先是数据方面(大数据时代以数据为主导):如何进行模型分层?一般模型分层计算程序,以哪种语言为主?

从数据仓库 或 大数据平台 的角度来讲,数据的分层,大体有两种思路:

a) 基础数据层:主要避免后续数据应用层的大变更。一般面向各业务系统或数据源集,利用业界较为先进的数据模型(如FS-LDM),按数据的特性(即数据驱动)进行数据的整合,以形成相对稳定的基础数据模型层。

b) 应用数据层:一般是面向各应用需求 或 业务用户,利用业界较为合理的数据模型理念(如星型维度模型),按需求的要求(即需求驱动)进行数据的分布,以形成统计方便、展示友好、满足需求的应用数据模型层。

在数据流向 或 数据处理的过程中,所使用到的语言或方式可能更多的是以下两大类:

a) 基于传统数据库:大多采用ETL的方式,进行数据的抽取、清洗、整合;这中间,可能会利用到类似DataStage,Kettle等工具,用得最多的,可能就是各数据库提供的SQL语言了,SQL语言使用简单、方便、学习门槛较低,且易于掌握。

b) 基于大数据平台:大多采用的开源的工具 或 语言,如Hive, Hbase , Spark,Python等。这里面,可能使用更多的是Hive 与 Python, 这两个工具学习简单,易于掌握,并且,进行数据处理时,也更直观、方便。

echarts大数据框架_大数据框架_大数据计算框架

二、架构方面:在架构过程中,一般以7点展开,如:

a. 存储和计算都基于HIVE;

b. GREENPLUM作为HIVE的“cache”存在,供用户做一些小数据的快查询,报表存储;

c. 调度:和canaan框架进行整合,支持用户快速新增任务,并自动导入任务依赖;

d. 主数据:保存了数据仓库元数据信息,供用户查询和系统内部各个模块交互;

e. ACL:构建了数据仓库数据访问权限控制,包括用户权限申请、审批者审批、数据赋权等;

f. 传输;

g.监控:由于任务数量增长较快(2000+)大数据计算框架,运维已经是个问题此外,需花了较大精力做了可视化的工作:

有些朋友不认为Hive是一个数据库,认为Hive是一个类似传统数据库的SQL引擎的工具,虽然Hive有自带的元数据存储库,但这个库里面,也只是存放了Hive工具为完成用户提交的请求而必须要的Hadoop的元数据信息 及两者的映射关系数据;并没有存放用户的任何数据,用户的数据还是存放在Hadoop或Hbase等文件系统或数据库中。

在以上这7点中,最难的就是:数据治理 与 系统监控 这两块

大数据计算框架_大数据框架_echarts大数据框架

三、数据应用:数据一般以哪种形式,呈现给用户?技术上是通过哪些策略实现?

数据应用主要分成两大类:

a) 面向业务人员:一般是自行研发一个界面美观的WEB应用,调用业界成熟的工具(如MSTR,COGNOS)的API,实现数据展示给终端用户进行查看。

b) 面向IT专业人员:一般是直接从数据库/文件系统中,借助SQL或其它的开源工具,直接查询、统计、分析、挖掘;这样会更直接、更方便。

以上这些可供大家测试一下,有哪些知识是自己还不熟练的,可以再学习,个人观点不喜勿喷。如果大家想多学习交流,可以关注我,谢谢大家。

(编辑:上海站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!