大数据挖掘大数据分析入门
大数据体系下,很多软件都是使用Java 编写的,所以学习Java有利于后面对大数据软件架构的理解。
而Python的特点是,上手快,现有的库,现有的工具丰富,初期阶段不会那么枯
Java 或 Python 大数据体系下,很多软件都是使用Java 编写的,所以学习Java有利于后面对大数据软件架构的理解。 而Python的特点是,上手快,现有的库,现有的工具丰富,初期阶段不会那么枯燥。 MySQL 虽然,大数据体系下MySQL用的不多,但是通过MySQL的学习,可以了解标准SQL的写法,有利于后续的HIVE学习以及使用,通过HIVE可以不用写很多代码就可以实现一些简单的数据分析。 Linux、Shell 大数据软件一般都是部署在Linux系统下,学习Linux是必须的,同时学习一些Shell编程,可以写一些脚本,方便工作。 上面这几个可以说是必备的技能,也算是通用技能,就算不做大数据,做软件开发也需要了解。但是只会这些是不够的,要想进行大数据开发还需要学习下面的高级技术。 Hadoop三剑客 Hadoop 学习Hadoop,主要是学习HDFS文件系统,理解分布式环境。举个例子,你怎么把大文件存在小硬盘上。 Hive 学习了HDFS文件系统之后,可以处理一下大数据了,之后通过Hive 使用标准SQL语法就可以做一些简单的数据整理,数据分析,都是Hive有个缺点就是执行速度会慢一点,查询一次几分钟,甚至更久都是有可能的。 HBase HBase 是一种列存储数据库,基于HDFS,可以存储超大容量的数据,而且查询速度受影响不大。什么是列存储呢, 简单说就是,我可以随时增加一个字段而且不用更改表结构,这就比MySQL灵活的多,而且存储数据远远大于MySQL。 通过对Hadoop三剑客的学习,基本上就可以说入门大数据了,但是效率不高大数据开发,毕竟都是基本操作,做过系统的都知道,像高效高质量的开发离不开框架的支持,如果做web 就是Spring Boot 、Spring Cloud 这些。 一般公司都有多个系统的数据需要处理分析,这是就需要一些数据对接的工具,比如Sqoop进行表同步,Kafka进行数据流订阅,zookeeper 做分布式应用协调等,虽然不需要精通,但是至少要会使用。 大数据处理,目前比较流行的就是 Spark、Flink Spark 可以做离线分析,也可以做实时流处理,是公司内数据处理比较常见的框架。 Flink 是最近几年开始越来越流行的框架,通过事件驱动解决时间驱动。 数据处理之后,就要进行数据整理展示,简单的可以使用一些开源BI软件, 比如Metabase 不需要写代码就可以做出一些看板,以及数据展示。 差不多就写这么多吧,如果学起来至少也要个一年半载的,加油。 (编辑:上海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |