大数据运行平台搭建

大数据运行平台搭建专项职业能力考核规范

一、定义

运用工具搭建出处理海量数据存储、计算及不间断流数据实时计算场景为主的平台的能力。

二、适用对象

运用本项技能就业的人员。

三、能力标准和鉴定内容

能力名称：大数据运行平台搭建 职业领域：大数据工程技术人员

工作任务

操作规范

相关

知识

考核

比重

（一）安装操作系统及搭建Python开发环境

1.能安装Windows、Linux操作系统

2.能使用Linux系统基本命令

3.能搭建Python开发环境

4.能用IDE编写Python代码

5.能使用Python语言工具

6.能面向对象编程

1.Windows、Linux操作系统基础知识及安装步骤操作

2.虚拟机原理

3.Linux基本命令使用

4.Python编程基础

5.流程控制与数组

6.文件处理

7.面向对象及方法重载

8.并发编程

20%

（二）使用Mysq与

Zookeeper

1.能搭建部署Zookeeper

2.能启用Zookeeper

3.能搭建部署Mysql

4.能对上述1-3中出现的错误指令进行解决

1.关系型数据库Mysql

2.Zookeeper工作原理

3.Zookeeper的应用方法

10%

（三）配置Hadoop

1.能安装和使用Hadoop

2.能单机运行Hadoop

3.能搭建Hadoop伪分布式、分布式

4.能用多节点安装Hadoop集群

5.能用MapReduce的计算框架

6.能用Yarn的资源管理和资源调度机制

7.能对上述1-6中出现的错误指令进行处理及解决

1.Hadoop的基础架构与组成

2.Hadoop的运行方式

3.HDFS基础及核心原理

4.HDFS操作方法

5.HDFS体系结构和运行机制

6.Hadoop资源管理框架YARN工作原理

7.MapReduce基本原理

25%

（四）配置数据仓库Hbase

1.能对分布式数据仓库Hbase进行安装部署

2.能启用分布式数据仓库Hbase

3.能使用Hbase Shell基本操作

4.能用HQL操作Hbase中数据

5.能对上述1-4中出现的错误指令进行处理及解决

1.Hbase核心原理

2.Hbase的工作原理及运用

3.Hbase配置文件与修改方法

4.Hbase基本操作方法

10%

（五）配置数据仓库Hive

1.能对分布式数据仓库Hive进行安装部署

2.能启用分布式数据仓库Hive

3.能利用Hive做日志分析的查询

4.能对上述1-3中出现的错误指令进行处理及解决

1.数据仓库的背景与原理

2.常用数据仓库工具及分布式数据仓库

3.Hive的原理及核心特性

4.Hive部署与访问方法

10%

（六）配置数据迁移工具Sqoop

1.能安装部署Sqoop

2.能利用Sqoop进行关系型数据库和hive、hdfs，hbase之间数据的相互导入

3.能对上述1、2中出现的错误指令进行处理及解决

1.Sqoop组件特性及核心功能

2.Hadoop生态中的数据转化方法

3.基本关系型数据库知识

10%

（七）配置大数据处理引擎Spark

1.能对Spark进行安装配置

2.能启用Spark

3.能利用Spark分布式计算框架

4.能对上述1-3中出现的错误指令进行处理及解决

1.分布式计算框架原理

2.Spark背景和原理

3.Spark基本定位与核心特性

4.Spark运行架构

5.Spark运行基本流程

6.Spark三种部署方式

7.Spark与Hadoop统一部署

15%

四、鉴定要求

（一）申报条件

达到法定劳动年龄，高职以上学历，具有计算机操作能力的社会人员；

（二）考评员构成

考评员具备大数据运行平台搭建的理论知识和实践操作能力；每个考评组不少于3名考评员。

（三）鉴定方式与鉴定时间

技能操作考核采取现场上机操作方式，考试时间为120min。

（四）鉴定场地设备要求

考场面积不小于60m2，操作场地光线充足，整洁无干扰，满足技能鉴定需要的软硬件环境，包括台式计算机（内存16GB，至少具备两套操作系统）、光纤交换机、核心交换机、边界防火墙，水电等基础设施良好。