加入收藏 | 设为首页 | 会员中心 | 我要投稿 上海站长网 (https://www.021zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据挖掘大数据分析入门

发布时间:2023-01-09 13:36:02 所属栏目:大数据 来源:网络
导读: Java 或 Python
大数据体系下,很多软件都是使用Java 编写的,所以学习Java有利于后面对大数据软件架构的理解。
而Python的特点是,上手快,现有的库,现有的工具丰富,初期阶段不会那么枯

Java 或 Python

大数据体系下,很多软件都是使用Java 编写的,所以学习Java有利于后面对大数据软件架构的理解。

而Python的特点是,上手快,现有的库,现有的工具丰富,初期阶段不会那么枯燥。

MySQL

虽然,大数据体系下MySQL用的不多,但是通过MySQL的学习,可以了解标准SQL的写法,有利于后续的HIVE学习以及使用,通过HIVE可以不用写很多代码就可以实现一些简单的数据分析。

大数据开发工程师前景_大数据开发工程师_大数据开发

Linux、Shell

大数据软件一般都是部署在Linux系统下,学习Linux是必须的,同时学习一些Shell编程,可以写一些脚本,方便工作。

大数据开发_大数据开发工程师_大数据开发工程师前景

上面这几个可以说是必备的技能,也算是通用技能,就算不做大数据,做软件开发也需要了解。但是只会这些是不够的,要想进行大数据开发还需要学习下面的高级技术。

Hadoop三剑客

Hadoop

大数据开发_大数据开发工程师_大数据开发工程师前景

学习Hadoop,主要是学习HDFS文件系统,理解分布式环境。举个例子,你怎么把大文件存在小硬盘上。

Hive

大数据开发工程师前景_大数据开发工程师_大数据开发

学习了HDFS文件系统之后,可以处理一下大数据了,之后通过Hive 使用标准SQL语法就可以做一些简单的数据整理,数据分析,都是Hive有个缺点就是执行速度会慢一点,查询一次几分钟,甚至更久都是有可能的。

HBase

大数据开发_大数据开发工程师前景_大数据开发工程师

HBase 是一种列存储数据库,基于HDFS,可以存储超大容量的数据,而且查询速度受影响不大。什么是列存储呢, 简单说就是,我可以随时增加一个字段而且不用更改表结构,这就比MySQL灵活的多,而且存储数据远远大于MySQL。

通过对Hadoop三剑客的学习,基本上就可以说入门大数据了,但是效率不高大数据开发,毕竟都是基本操作,做过系统的都知道,像高效高质量的开发离不开框架的支持,如果做web 就是Spring Boot 、Spring Cloud 这些。

一般公司都有多个系统的数据需要处理分析,这是就需要一些数据对接的工具,比如Sqoop进行表同步,Kafka进行数据流订阅,zookeeper 做分布式应用协调等,虽然不需要精通,但是至少要会使用。

大数据处理,目前比较流行的就是 Spark、Flink

Spark

可以做离线分析,也可以做实时流处理,是公司内数据处理比较常见的框架。

大数据开发工程师_大数据开发_大数据开发工程师前景

Flink

是最近几年开始越来越流行的框架,通过事件驱动解决时间驱动。

大数据开发工程师_大数据开发工程师前景_大数据开发

数据处理之后,就要进行数据整理展示,简单的可以使用一些开源BI软件,

比如Metabase 不需要写代码就可以做出一些看板,以及数据展示。

大数据开发工程师_大数据开发_大数据开发工程师前景

差不多就写这么多吧,如果学起来至少也要个一年半载的,加油。

(编辑:上海站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!