Python网络爬虫开发专项职业能力考核规范

一、定义

运用Python语言常用网络请求库实现网页页面信息的抓取与存储的能力。

二、适用对象

具备高中及以上学历,运用或准备运用Python网络爬虫开发专项职业能力就业的人员。

三、能力标准与鉴定内容

能力名称:Python网络爬虫开发                  职业领域:计算机程序设计员

工作任务

操作规范

相关知识

考核比重

(一)

职业素养

1.拥有正确的社会主义核心价值观

2.熟悉信息安全相关法律法规

3.能恪守软件工程职业道德规范

1.互联网法律法规知识

2.软件工程职业道德规范知识

3%

(二)

Python开发环境部署与配置

1.能在Windows/Unix平台安装Python开发环境

2.能完成Pycharm工具的安装与配置

3.能完成“Hello World”程序编写

1.多种方式安装Python环境

2.系统环境变量配置知识

3%

(三)

Python面向对象编程应用

1.能使用Python技术实现控制台输入、输出

2.能使用Python序列、变量存储结构化数据

3.能使用Python运算符进行数据运算

4.能使用条件结构判断运算结果,并实现程序分支执行

5.能综合使用条件结构、循环结构实现数据的筛选和保存操作

6.能正确创建类和对象

7.能正确使用的属性封装数据

8.能使用类的方法封装业务功能操作

1.Python基本语法知识

2.Python数据类型、变量及类型转换知识

3.Python运算符知识

4.条件结构知识

5.循环结构知识

6.Python函数与模块知识

7.Python序列知识

8.面向对象知识

15%

(四)

Python常用网络请求库应用

1.熟悉HTTP协议原理与常用状态码

熟悉网页基础结构内容

2.能使用urllib库进行页面信息请求

3.能使用requests库进行页面信息请求

4.能使用urllib、requests库进行模拟用户登录

5.能使用Selenium库进行页面信息请求

1.HTTP基本原理知识

2.网页基础知识

3.爬虫的基本原理知识

4. urllib库知识

5. requests库知识

6.selenium库知识

19%

(五)

Web页面解析

1.能使用xpath进行页面信息解析

2.能使用bs4库进行页面信息解析

3.能使用pyquery库进行页面信息解析

4.使用正则表达式进行页面信息解析

1.解析库XPath知识

2.解析库Beautiful Soup知识

3.解析库pyquery知识

4.正则表达式

15%

(六)

数据存储

1.能将解析后的数据存储为txt、json、csv等常见格式

2.能使用mysql数据库进行数据存取

3.能使用mongoDB数据库进行数据存取

4.能使用redis数据库进行数据存取

1.文件操作知识

2.关系型数据库知识

3.非关系型数据库知识

10%

(七)

动态数据获取

1.能解析Ajax动态页面数据

2.能使用自动化测试工具实现模拟浏览器操作

3.能使用验证码识别技术解决反爬措施

4.能使用代理ip实现数据请求

1.Ajax数据爬取知识

2.动态渲染页面爬取知识

3.页面验证码识别知识

4.代理使用知识

5%

(八)

Scrapy框架应用

1.能使用Spider制定网页爬取逻辑和解析规则

2.能使用Item定义爬取结果的结构

3.能使用Item Pipline清洗、验证和存储爬取的数据

4.能使用Splider Middleware中间件处理请求和响应的数据

5.能使用Downloader Middleware处理引擎与下载器之间的请求及响应

1.Selector知识

2.Spider知识

3.Downloader  Middleware知识

4.Splider Middleware知识

5.Item Pipline知识

15%

(九)

Scrapy-redis

分布式爬虫应用

1.能使用分布式爬虫技术对爬取队列进行维护、去重操作

2.能使用Scrapy-Redis对Scrapy进行调度、去重操作

3.能使用Bloom Filer进行去重、提高空间利用率

1.分布式爬虫原理

2.Scrapy-Redis知识

3.Bloom Filer知识

10%

(十)

分布式爬虫

部署与维护

1.能使用Scrapyd对Scrapy爬虫服务程序进行部署、启动、停止、删除操作

2.能使用Scrapyd-Client工具完成部署过程

3.能将Scrapyd打包成Docker镜像,并在服务器上启动Scrapyd服务

4.能实现Docker和Scrapyd服务的批量部署

5.能使用Gerapy框架对分布式爬虫进行管理

1.Scrapyd分布式部署应用知识

2.Scrapyd-Client知识

3.Gerapy分布式框架知识

5%

、鉴定要求

(一)申报条件

达到法定劳动年龄,具有相应技能的劳动者均可申报。

(二)考评员构成

考评员应具备Python相关专业知识和实际操作能力,具有Python相关从业经验或职业技能考评经验,每个考评组中不少于3名考评员。

(三)鉴定方式与鉴定时间

技能操作考核采取上机操作考核。技能操作考核时间为120分钟

(四)鉴定场地和设备要求

每间考核机房面积约50平方米,至少配备1台管理机和30台考试机,2个摄像头(或1个摄像头,1个录像设备),主考室及候考室。

设备最低配置如下:

1.管理机配置:CPU主频2.4GHz双核心或同等性能以上;内存8G以上;硬盘250G以上。

2.考试机配置及设置:CPU主频2.4GHz双核心或同等性能以上;内存8G以上;硬盘250G以上。

3.摄像头配置:高清摄像头,即插即用。