个人介绍

  博客诞生于201941号,博主是大数据开发工程师,请收下我的简历╭(●`∀´●)╯╰(●’◡’●)╮ (●’◡’●)ノ ヾ(´▽‘)ノ:

  1.熟悉Hadoop生态体系及其架构原理,掌握Hadoop集群的搭建,并能用CDH快速部署Hadoop集群。
  2.熟悉HDFS的架构,掌握Yarn的任务执行流程。
  3.熟悉MapReduce的原理和流程,并能用其API进行开发,研究过MapReduce源码。
  4.熟悉Zookeeper的核心原理,并能应用其为集群提供协同服务,如hadoop的HA。
  5.熟练掌握Hive,清楚它的分区,分桶,索引,视图等机制;能够对其进行优化,并解决常见的数据倾斜问题,能够将hive 和 hbase 进行整合。
  6.熟练掌握Hbase,熟悉其架构原理,能够搭建hbase平台;熟练hbase的表设计和预分区,能够解决hbase的常见问题,如热点问题,懂得hbase二级索引设计,以及es+hbase的整合。
  7熟悉Spark的原理和流程,并能用Spark API开发应用程序;熟悉Spark Streaming,能用其开发准实时计算系统;熟悉SparkSQL,研究过Spark源码。
  8.熟悉Storm的原理和流程,并能使用API开发应用程序,熟悉Storm+Kafka实时流处理架构。
  9.熟悉常见的开源日志收集框架flumeKafka消息队列,并能使用其实现不同场景的日志收集。
  10.掌握Nginx,掌握Redis缓存数据库应用,掌握Elasticsearch搜索引擎。
  11.理解机器学习的思想,熟悉机器学习常用算法,如逻辑回归,朴素贝叶斯,线性回归,Kmeans聚类,关联规则,随机森林等算法。
  12.熟练使用Linux常用的操作命令,掌握shell脚本编程。
  13.熟练使用Javascala语言进行编程,能够使用Python语言进行脚本开发。

0%