大数据要学什么？大数据需要学什么

中国机械与配件网2023年10月24日 02:131920

大数据专业主要学什么

什么是大数据？

大数据要学什么？大数据需要学什么

在英文里被称为bigdata,或称为巨量资料，就是当代海量数据构成的一个集合，包括了我们在互联网上的一切信息。

大数据能干什么？

通过对大数据的抽取，管理，处理，并整理成为帮助我们做决策。列如：应用以犯罪预测，流感趋势预测，选举预测，商品推荐预测等等

大数据专业需要学什么？

因为涉及对海量数据的分析，离不开的就是数学，很多很多的数学。按照我们学习计划的安排来看，我在大一大二期间就学了有：数学分析，线性代数，概率统计，应用统计学，离散数学，常微分。相比起其他计算机专业来说，我们确实要学很多数学。然后什么公共课就不用多说了，如：大学英语，大学物理，思想政治，毛概等等。在专业课上，我们首先要学的就是C语言基础，然后就是数据结构，Python基础，Java面向对象程序设计，数据结构与算法，数学建模，大数据等，简直不要太多了，留给图看看吧

未完待写

接着上一次内容

学大数据能做什么工作？

分为三个大类，第一是大数据系统研发类，第二是大数据应用开发类，第三是大数据分析类

大数据分析师：大数据分析师要学会打破信息孤岛利用各种数据源，在海量数据中寻找数据规律，在海量数据中发现数据异常。负责大数据数据分析和挖掘平台的规划、开发、运营和优化；根据项目设计开发数据模型、数据挖掘和处理算法；通过数据探索和模型的输出进行分析，给出分析结果。

大数据工程师：主要是偏开发层面，指的是围绕大数据系平台系统级的研发人员，熟练Hadoop大数据平台的核心框架，能够使用Hadoop提供的通用算法，熟练掌握Hadoop整个生态系统的组件如：Yarn，HBase、Hive、Pig等重要组件，能够实现对平台监控、辅助运维系统的开发。

数据挖掘师/算法工程师：数据建模、机器学习和算法实现，需要业务理解、熟悉算法和精通计算机编程。

数据架构师：高级算法设计与优化;数据相关系统设计与优化，有垂直行业经验最佳，需要平台级开发和架构设计能力。

数据科学家：据科学家是指能采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认识，并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师)。一个优秀的数据科学家需要具备的素质有：懂数据采集、懂数学算法、懂数学软件、懂数据分析、懂预测分析、懂市场应用、懂决策分析等。

薪资待遇方面：

数据科学家->数据架构师==算法工程师>大数据工程师>数据分析师

大数据主要学什么

大数据分析挖掘与处理、移动开发与架构、软件开发、云计算等前沿技术等。

主修课程：面向对象程序设计、Hadoop实用技术、数据挖掘、机器学习、数据统计分析、高等数学、Python编程、JAVA编程、数据库技术、Web开发、Linux操作系统、大数据平台搭建及运维、大数据应用开发、可视化设计与开发等。

旨在培养学生系统掌握数据管理及数据挖掘方法，成为具备大数据分析处理、数据仓库管理、大数据平台综合部署、大数据平台应用软件开发和数据产品的可视化展现与分析能力的高级专业大数据技术人才。

扩展资料：

越来越多的行业对大数据应用持乐观的态度，大数据或者相关数据分析解决方案的使用在互联网行业，比如百度、腾讯、淘宝、新浪等公司已经成为标准。而像电信、金融、能源这些传统行业，越来越多的用户开始尝试或者考虑怎么样使用大数据解决方案，来提升自己的业务水平。

在“大数据”背景之下，精通“大数据”的专业人才将成为企业最重要的业务角色，“大数据”从业人员薪酬持续增长，人才缺口巨大。

参考资料来源：百度百科-大数据技术与应用

大数据都需要学什么

首先我们要了解Java语言和Linux操作系统，这两个是学习大数据的基础，学习的顺序不分前后。

大数据

Java：只要了解一些基础即可，做大数据不需要很深的Java技术，学javaSE就相当于有学习大数据基础。

Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

Hadoop：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。

Mysql：我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那?你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

Sqoop：这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie：既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapReduce、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

Hbase：这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka：这是个比较好用的队列工具，队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了，因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方(比如Kafka)的。

Spark：它是用来弥补基于MapReduce处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它，因为它们都是用JVM的。