牛宝体育新闻

大数据需要学什么?(二)技术篇牛宝体育

2023-10-10
浏览次数:
返回列表

  上面这张让人犯密集恐惧症的东西是什么?是2019年据不完全统计的大数据产品。

  是的,人人都知道,大数据技术实在是太多了,变化也太快了,新技术层出不穷,作为一个新人在面对这些技术的时候,常有的一个状态就是懵,所以新人加我微信最常见的问题就是怎么学?这个要不要学?那个需要学到什么程度?等等。下面同样我会尽力去解答大家的这些疑惑,尽量做到下次有类似问题就直接把这篇文章的链接仍你脸上。

  如果真的是认认真真吃透了上面的那些技能的话,那我能保证你已经基本上能解决80%的大数据问题,那剩下的20%怎么办?这个问题好像有点熟悉,当然还是继续学,但是你有了这解决80%问题的能力,剩下的20%的问题其实也不是什么大问题了。

  牛宝体育

  从局部到整体。说得通俗一点就是要脚踏实地,不要老是飘在天上,因为在天上看到的是一整个生态,你当然会看到有很多很多东西,但是如果你不走近看的话你是不会知道大数据,其实有很多东西都是类似的,经典的理论就那么几个,大家的系统很多都是照着这些理论去实现的,只是实现的方式会有些不一样牛宝体育,所以同类型的产品可能场景会稍有不同,但是架构是非常类似的,熟悉了之后你会发现,分布式系统万变不离其宗。

  牛宝体育

  简单地说,从一个入手,比如存储,举个例子可以从HBase入手,因为它算是一个比较经典的分布式存储引擎,《Big Table》也是非常经典的一篇paper,HBase里面存在的LSM-Tree,Bloom Filter,压缩,分区等等原理和概念在很多分布式存储中也是适用的。

  再比如,计算,mr很经典,但是我还是建议直接从Spark入手,它的很多设计是基于mr又超过了mr的,而且spark生态系统非常的全能,能干的事情非常多,先学Spark Core,搞懂编程模型,了解大概原理,接着学SparkSQL,了解catalyst等,再接着就是SparkStreaming,以及后面的StructedStreaming,学到到这里,如果学得足够有深度,Flink也是可以轻松拿下的了,二者都大量借鉴了《DataFlow》这篇paper的理论,还是那句话,万变不离其宗。

  还有很多的其他的例子,比如调度系统AirFlow大数据,Azkaban以及最近挺火的DolphinScheduler,本质上的实现都是类似的,只是在各自都增加了不同的功能来满足用户的需求。

  说这么多目的只有一个,脚踏实地一步一步走,程序猿这个工种还是很依赖经验的,孰能生巧是没有错的。

  我再强调一遍大数据平台的开发人员不是简简单单会个搭建和使用就可以的了,这是最基础和浅显的内容,所以平时有些小伙伴贴一大堆报错信息给我,问我安装怎么报错了,怎么这个功能用不了了,这些问题基本上我都不会回答,除非我那天真的我心情非常好。因为如果你连这些在google一搜一大把的问题都没法解决的话,你觉得你是不是应该重新思考一下自己的职业选择。

  回到正题,要学到什么程度,取决于你现在什么水平,如果你刚入门,你要学会理解场景,搭建,使用;熟练了之后就要理解原理,懂得调优;再接下来,需要你主动去发现应用中的问题,以及找解决方案来解决问题,这个时候就不仅限于眼前的某一种技术了,需要有一个大局观,如何培养你的这种大局观呢,多混社区多和优秀的同行交流,多看源码多学习优秀的开源项目。

  当然最好是能够成为优秀开源项目的contributor甚至commiter,这无论是在跳槽的面试中还是在晋升的述职中都是非常亮眼的加分项。

搜索