人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?

大数据是热点,也是未来的趋势。

据美国劳工局预测,

2022年北美市场将需要

约85万大数据方面的专业技术人员;

而国内数据统计《大数据人才报告》显示,

预测未来3到5年人才缺口将达到150万之多。

人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?
人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?

Hadoop到底是什么?

大数据是个铺天盖地的词,而谈论大数据又不可避免地要提到Hadoop,遗憾的是今天大多数大数据鼓吹者,甚至专业人士其实并不能说清楚Hadoop到底是什么玩意,以及有何功用,而他们的管理层小白听众更是一头雾水。

众所周知,Hadoop是Apache软件基金会管理的开源软件平台,但Hadoop到底是什么呢?简单来说,Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一种方法。

Hadoop被设计成一种非常“鲁棒”的系统,即使某台服务器甚至集群宕机了,运行其上的大数据分析应用也不会中断。此外Hadoop的效率也很高,因为它并不需要你在网络间来回捣腾数据。

人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?

Apache的正式定义:

Apache Hadoop软件库是一个框架,允许在集群服务器上使用简单的编程模型对大数据集进行分布式处理。Hadoop被设计成能够从单台服务器扩展到数以千计的服务器,每台服务器都有本地的计算和存储资源。

Hadoop的高可用性并不依赖硬件,其代码库自身就能在应用层侦测并处理硬件故障,因此能基于服务器集群提供高可用性的服务。

如果更深入地分析,我们发现Hadoop还有更加精彩的特性。首先,Hadoop几乎完全是模块化的,这意味着你们能用其他软件工具抽换掉Hadoop的模块。这使得Hadoop的架构异常灵活,同时又不牺牲其可靠性和高效率。

Hadoop分布式文件系统(HDFS)

如果提起Hadoop你的大脑一片空白,那么请牢记住这一点:Hadoop有两个主要部分:一个数据处理框架和一个分布式数据存储文件系统(HDFS)。

HDFS就像Hadoop系统的篮子,你把数据整整齐齐码放在里面等待数据分析大厨出手变成性感的大餐端到CEO的桌面上。当然,你可以在Hadoop进行数据分析,也可以见gHadoop中的数据“抽取转换加载”到其他的工具中进行分析。

人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?

人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?

人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?

Hadoop被过度吹捧?

数据科学家个个都是十八般数据分析武艺样样精通的绝世高手,但他们近来也有烦心事。不久前,开源数据库SciDB开发商Paradigm4进行的一项针对111名北美数据科学家的调查显示,71%的数据科学家认为数据来源的多样性,而不是数据总量构成其职业最大威胁和挑战。

值得注意的是,只有48%的受访数据科学家表示他们在工作中曾使用过Hadoop或者Spark,高达76%的数据科学家抱怨Hadoop太慢,编程速度过慢,以及其他一些局限性。

虽然Hadoop口碑不佳,但是有接近半数的数据科学家表示很难将数据存入传统关系数据库表中。Nexedi的首席执行官Jean-Paul Smets在接受采访时也曾指出,大数据的真正难题其实并不是所谓的“大”。

人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?

企业大数据进入复杂分析阶段

根据报告,有59%的数据科学家表示其所在企业已经开始采用更加复杂的分析技术,例如集群、机器学习、种量分析(Principal components analysis)、图论分析等高级分析技术分析数据,而不是局限于传统的BI报告。

还有15%的数据科学家表示计划在明年启用复杂分析技术,另有16%的数据科学家表示将在未来两年内采用复杂分析技术。

Hadoop被过度吹捧

Paradigm4的报告指出,Hadoop被过度吹捧成无所不能的,革命性的大数据解决方案,实际上Hadoop并不适用于需要进行复杂分析的大数据应用场景。

Hadoop的核心技术方法数据并行(data parallel),被Paradigm4称作“闹心的并行”。报告指出,复杂分析人物往往需要经常访问、处理和分享全体数据,并在数据处理中交叉沟通中间结果,而这恰恰是Hadoop MapReduce的软肋。

22%的受调查数据科学家表示Hadoop和Spark压根不适合他们的分析任务,此外还有35%的数据科学家在尝试Hadoop或Spark后停止使用这两项技术。

人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?
人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?

Spark和Hadoop的并行模式

Spark和Hadoop采用了类似的异步并发模型,但在任务级别(特指 Spark任务和MapReduce任务)上却采用了不同的并行机制:Hadoop MapReduce采用了多进程模型,而Spark采用了多线程模型。

Hadoop MapReduce多进程模型

人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?

图1中, 每个Task 运行在一个独立的JVM 进程中,每个Task 运行完后,将释放所占用的资源,这些资源不能被其他Task 复用,即使是同一个作业相同类型的Task。

也就是说,每个Task 都要经历“申请资源–> 运行Task–> 释放资源”的过程。可单独为不同类型的Task 设置不同的资源量,目前支持内存和CPU 两种资源。

Spark的多线程模型

人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?

图2中,每个节点上可以运行一个或多个Executor 服务,每个Executor 单独运行在一个JVM 进程中,每个Task 则是运行在Executor中的一个线程。

同一个Executor 内部的Task 可共享内存中的文件或者数据结构等,而不会像MapReduce 那样,每个Task 加载一次。

Executor 一旦启动后,将一直运行,且它的资源可以一直被Task复用,直到Spark程序运行完成后才释放退出。

两种模式的比较

总体上看,每个Spark 应用程序运行的第一步是构建一个可重用的资源池,然后在这个资源池里运行所有的ShuffleMapTask 和ReduceTask,而 MapReduce 应用程序则不同,它不会构建一个可重用的资源池,而是让每个Task 动态申请资源,且运行完后马上释放资源。

Spark官方做过一个简单的迭代算法的测试,在100GB作业中,内存够用的情况下,MapReduce每次迭代需要110秒,因为每次迭代需从磁盘加载数据,而Spark在第一次加载后每次迭代只需要一秒。

人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?
人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?

升职加薪必备神器

现在很多大厂Data岗都会将Spark直接列到招聘条件中。掌握Spark的人才,占有着市场高需求和低供应的绝对优势,比起其他诸如Hadoop,Hive等技术,Spark有更多可能,也有更强的竞争力。

人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?

正因为人才短缺,Spark相关岗位在热门Data岗中的薪资水平同样鹤立鸡群。可以说在Spark加持下,涨薪10-20K 轻轻松松。

人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?

市场需求大、供应少,大厂钟爱但自学难,

Spark似乎成了一块可望而不可及的烫嘴肉,

如何能找到方法咬下第一口呢?

为了帮助更多想要踏足大数据领域的同学们,

PowerCareer为大家准备了充足的资料和网课!

人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?
人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?
人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?
人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?

原文始发于微信公众号(PowerCareer):人才缺口150万+,工资高,对留学生友好,这是什么神仙领域?

ajax-loader