Python网络爬虫开发专项职业能力考核规范
一、定义
运用Python语言常用网络请求库实现网页页面信息的抓取与存储的能力。
二、适用对象
具备高中及以上学历,运用或准备运用Python网络爬虫开发专项职业能力就业的人员。
三、能力标准与鉴定内容
|
能力名称:Python网络爬虫开发 职业领域:计算机程序设计员 |
|||
|
工作任务 |
操作规范 |
相关知识 |
考核比重 |
|
(一) 职业素养 |
1.拥有正确的社会主义核心价值观 2.熟悉信息安全相关法律法规 3.能恪守软件工程职业道德规范 |
1.互联网法律法规知识 2.软件工程职业道德规范知识 |
3% |
|
(二) Python开发环境部署与配置 |
1.能在Windows/类Unix平台安装Python开发环境 2.能完成Pycharm工具的安装与配置 3.能完成“Hello World”程序编写 |
1.多种方式安装Python环境 2.系统环境变量配置知识 |
3% |
|
(三) Python面向对象编程应用 |
1.能使用Python技术实现控制台输入、输出 2.能使用Python序列、变量存储结构化数据 3.能使用Python运算符进行数据运算 4.能使用条件结构判断运算结果,并实现程序分支执行 5.能综合使用条件结构、循环结构实现数据的筛选和保存操作 6.能正确创建类和对象 7.能正确使用类的属性封装数据 8.能使用类的方法封装业务功能操作 |
1.Python基本语法知识 2.Python数据类型、变量及类型转换知识 3.Python运算符知识 4.条件结构知识 5.循环结构知识 6.Python函数与模块知识 7.Python序列知识 8.面向对象知识 |
15% |
|
(四) Python常用网络请求库应用 |
1.熟悉HTTP协议原理与常用状态码 熟悉网页基础结构内容 2.能使用urllib库进行页面信息请求 3.能使用requests库进行页面信息请求 4.能使用urllib、requests库进行模拟用户登录 5.能使用Selenium库进行页面信息请求 |
1.HTTP基本原理知识 2.网页基础知识 3.爬虫的基本原理知识 4. urllib库知识 5. requests库知识 6.selenium库知识 |
19% |
|
(五) Web页面解析 |
1.能使用xpath进行页面信息解析 2.能使用bs4库进行页面信息解析 3.能使用pyquery库进行页面信息解析 4.使用正则表达式进行页面信息解析 |
1.解析库XPath知识 2.解析库Beautiful Soup知识 3.解析库pyquery知识 4.正则表达式 |
15% |
|
(六) 数据存储 |
1.能将解析后的数据存储为txt、json、csv等常见格式 2.能使用mysql数据库进行数据存取 3.能使用mongoDB数据库进行数据存取 4.能使用redis数据库进行数据存取 |
1.文件操作知识 2.关系型数据库知识 3.非关系型数据库知识 |
10% |
|
(七) 动态数据获取 |
1.能解析Ajax动态页面数据 2.能使用自动化测试工具实现模拟浏览器操作 3.能使用验证码识别技术解决反爬措施 4.能使用代理ip实现数据请求 |
1.Ajax数据爬取知识 2.动态渲染页面爬取知识 3.页面验证码识别知识 4.代理使用知识 |
5% |
|
(八) Scrapy框架应用 |
1.能使用Spider制定网页爬取逻辑和解析规则 2.能使用Item定义爬取结果的结构 3.能使用Item Pipline清洗、验证和存储爬取的数据 4.能使用Splider Middleware中间件处理请求和响应的数据 5.能使用Downloader Middleware处理引擎与下载器之间的请求及响应 |
1.Selector知识 2.Spider知识 3.Downloader Middleware知识 4.Splider Middleware知识 5.Item Pipline知识 |
15% |
|
(九) Scrapy-redis 分布式爬虫应用 |
1.能使用分布式爬虫技术对爬取队列进行维护、去重操作 2.能使用Scrapy-Redis对Scrapy进行调度、去重操作 3.能使用Bloom Filer进行去重、提高空间利用率 |
1.分布式爬虫原理 2.Scrapy-Redis知识 3.Bloom Filer知识 |
10% |
|
(十) 分布式爬虫 部署与维护 |
1.能使用Scrapyd对Scrapy爬虫服务程序进行部署、启动、停止、删除操作 2.能使用Scrapyd-Client工具完成部署过程 3.能将Scrapyd打包成Docker镜像,并在服务器上启动Scrapyd服务 4.能实现Docker和Scrapyd服务的批量部署 5.能使用Gerapy框架对分布式爬虫进行管理 |
1.Scrapyd分布式部署应用知识 2.Scrapyd-Client知识 3.Gerapy分布式框架知识 |
5% |
四、鉴定要求
(一)申报条件
达到法定劳动年龄,具有相应技能的劳动者均可申报。
(二)考评员构成
考评员应具备Python相关专业知识和实际操作能力,具有Python相关从业经验或职业技能考评经验,每个考评组中不少于3名考评员。
(三)鉴定方式与鉴定时间
技能操作考核采取上机操作考核。技能操作考核时间为120分钟。
(四)鉴定场地和设备要求
每间考核机房面积约50平方米,至少配备1台管理机和30台考试机,2个摄像头(或1个摄像头,1个录像设备),主考室及候考室。
设备最低配置如下:
1.管理机配置:CPU主频2.4GHz双核心或同等性能以上;内存8G以上;硬盘250G以上。
2.考试机配置及设置:CPU主频2.4GHz双核心或同等性能以上;内存8G以上;硬盘250G以上。
3.摄像头配置:高清摄像头,即插即用。