热门搜索: 中考 高考 考试 开卷17
服务电话 024-96192/23945006
 

Python 3反爬虫原理与绕过实战

编号:
wx1202008076
销售价:
¥76.54
(市场价: ¥89.00)
赠送积分:
77
数量:
   
商品介绍

《Python 3 网络爬虫开发实战》作者、微软小冰工程师崔庆才作序,腾讯、马蜂窝工程师倾力推荐。
【干货满满】爬虫工程师不可错过的“武功秘籍”,内容包括但不限于Cookie 反爬虫、WebSocket 反爬虫、字体反爬虫、WebDriver 反爬虫、App 反爬虫、验证码反爬虫。
【反爬虫原理+爬虫实战】从实战出发,印证靠前互联网企业内部加密原理,侧重讲解反爬虫的原理以及绕过方法。
【21个反爬虫示例】结合练习平台 Steamboat,帮助读者随时复现书中的 21个爬虫示例,巩固所学知识。

本书首先介绍了开发环境的配置,接着讨论了Web网站的构成和页面渲染、动态网页和静态网页对爬虫造成的影响,紧接着详细介绍了信息校验型反爬虫、动态渲染反爬虫、文本混淆反爬虫知识、特征识别反爬虫的原理、实现和绕过,然后概览了App数据爬取的关键和常用的反爬虫手段,很后介绍了常见的编码和加密原理、JavaScript代码混淆知识、前端止事件以及与爬虫相关的法律知识和风险点。

韦世东,资深爬虫工程师,2019年华为云·云享专家,掘金社区很好作者,GitChat认证作者,夜幕团队(NightTeam)成员。拥有七年互联网从业经验,擅长反爬虫的设计和绕过技巧。

章开发环境配置1

1.1操作系统的选择1

1.1.1Ubuntu简介1

1.1.2VirtualBox的安装2

1.1.3安装Ubuntu3

1.1.4全屏设置8

1.1.5Python设置9

1.2练习平台Steamboat10

1.2.1安装Docker11

1.2.2安装Steamboat12

1.2.3Steamboat使用说明14

1.3第三方库的安装15

1.3.1Requests15

1.3.2Selenium15

1.3.3浏览器驱动16

1.3.4Splash18

1.3.5Puppeteer18

1.3.6PyTesseract20

1.4常用软件的安装21

1.4.1nginx21

1.4.2Charles22

1.4.3PC端SSL证书23

1.4.4iOS系统的证书设置26

1.4.5Andriod模拟器的安装与证书设置27

1.4.6Postman29

1.4.7GoogleChrome32

1.4.8JADX33

1.5深度学习环境配置35

1.5.1NVIDIA显卡驱动安装35

1.5.2CUDAToolkit的安装38

1.5.3cuDNN的安装40

1.5.4深度学习库PyTorch41

1.5.5深度学习框架Darknet42

1.5.6图片标注工具LabelImg43

1.6Node.js环境配置44

1.6.1Node.js的安装44

1.6.2UglifyJS的安装45

第2章Web网站的构成和页面渲染47

2.1nginx服务器47

2.1.1nginx的信号48

2.1.2nginx配置文件49

2.1.3简单的代理服务50

2.1.4nginx模块与指令52

2.1.5nginx日志57

2.1.6小结58

2.2浏览器58

2.2.1浏览器的主要结构59

2.2.2页面渲染60

2.2.3HTMLDOM62

2.2.4浏览器对象BOM65

2.2.5小结70

2.3网络协议71

2.3.1认识HTTP71

2.3.2资源与资源标识符72

2.3.3HTTP请求与响应74

2.3.4Cookie77

2.3.5了解HTTPS80

2.3.6认识WebSocket81

2.3.7WebSocket握手81

2.3.8数据传输与数据帧83

2.3.9WebSocket连接85

2.3.10连接保持87

2.3.11小结88

本章总结88

第3章爬虫与反爬虫89

3.1动态网页与网页源代码89

3.2爬虫知识回顾90

3.3反爬虫的概念与定义95

本章总结96

第4章信息校验型反爬虫97

4.1User-Agent反爬虫97

4.1.1User-Agent反爬虫绕过实战97

4.1.2User-Agent反爬虫的原理与实现100

4.1.3小结103

4.2Cookie反爬虫103

4.2.1Cookie反爬虫绕过实战103

4.2.2Cookie反爬虫原理与实现109

4.2.3Cookie与JavaScript结合110

4.2.4用户过滤112

4.2.5小结113

4.3签名验证反爬虫114

4.3.1签名验证反爬虫绕过实战114

4.3.2签名验证反爬虫原理与实现121

4.3.3有道翻译反爬虫案例123

4.3.4小结125

4.4WebSocket握手验证反爬虫125

4.5WebSocket消息校验反爬虫129

4.5.1WebSocket消息校验反爬虫示例130

4.5.2乐鱼体育反爬虫案例132

4.6WebSocketPing反爬虫133

本章总结134

第5章动态渲染反爬虫135

5.1常见的动态渲染反爬虫案例135

5.1.1自动执行的异步请求案例135

5.1.2点击事件和计算138

5.1.3下拉加载和异步请求142

5.1.4小结144

5.2动态渲染的通用解决办法144

5.2.1Selenium套件144

5.2.2异步渲染库Puppeteer148

5.2.3异步渲染服务Splash150

5.2.4通用不一定适用154

5.2.5渲染工具知识扩展156

5.2.6小结160

本章总结160

第6章文本混淆反爬虫161

6.1图片伪装反爬虫161

6.1.1图片伪装反爬虫绕过实战161

6.1.2广西人才网反爬虫案例164

6.1.3小结165

6.2CSS偏移反爬虫165

6.2.1CSS偏移反爬虫绕过实战166

6.2.2去哪儿网反爬虫案例172

6.2.3小结174

6.3SVG映射反爬虫174

6.3.1SVG映射反爬虫绕过实战174

6.3.2大众点评反爬虫案例177

6.3.3SVG反爬虫原理179

6.3.4小结186

6.4字体反爬虫186

6.4.1字体反爬虫示例186

6.4.2字体文件WOFF189

6.4.3字体反爬虫绕过实战196

6.4.4小结198

6.5文本混淆反爬虫通用解决办法199

6.5.1光学字符识别OCR199

6.5.2PyTesseract的缺点201

6.5.3文字识别API202

6.5.4小结206

本章总结206

第7章特征识别反爬虫207

7.1WebDriver识别207

7.1.1WebDriver识别示例207

7.1.2WebDriver识别原理210

7.1.3WebDriver识别的绕过方法211

7.1.4淘宝网WebDriver案例214

7.1.5小结215

7.2浏览器特征215

7.3爬虫特征219

7.3.1访问频率限制绕过实战219

7.3.2访问频率限制的原理与实现222

7.3.3浏览器指纹知识扩展223

7.3.4淘宝网浏览器指纹案例227

7.3.5小结228

7.4隐藏链接反爬虫228

7.4.1隐藏链接反爬虫示例228

7.4.2隐藏链接反爬虫原理与实现231

7.4.3小结233

本章总结234

第8章App反爬虫235

8.1App抓包235

8.1.1HTTP抓包示例235

8.1.2掌上英雄联盟抓包案例(HTTP)240

8.1.3京东商城抓包案例(HTTPS)243

8.1.4小结246

8.2APK文件反编译246

8.2.1App签名验证反爬虫示例246

8.2.2APK文件反编译实战248

8.2.3小结251

8.3代码混淆反爬虫251

8.3.1Android代码混淆原理252

8.3.2掘金社区App代码混淆案例255

8.3.3小结257

8.4App应用加固知识扩展257

8.5了解应用程序自动化测试工具260

8.5.1了解Appium260

8.5.2了解AirtestProject260

8.5.3小结262

本章总结262

第9章验证码263

9.1字符验证码263

9.1.1字符验证码示例263

9.1.2实现字符验证码266

9.1.3深度学习的概念269

9.1.4卷积神经网络的概念272

9.1.5使用卷积神经网络预测验证码276

9.1.6小结286

9.2计算型验证码286

9.2.1计算型验证码示例286

9.2.2实现计算型验证码288

9.2.3小结291

9.3滑动验证码291

9.3.1滑动验证码示例291

9.3.2实现滑动验证码295

9.3.3小结298

9.4滑动拼图验证码298

9.4.1滑动拼图验证码示例299

9.4.2实现滑动拼图验证码302

9.4.3难度升级307

9.4.4图片中的缺口位置识别308

9.4.5小结310

9.5文字点选验证码310

9.5.1文字点选验证码示例310

9.5.2实现文字点选验证码312

9.5.3目标检测的概念316

9.5.4深度学习实现文字定位317

9.5.5批量检测与坐标输出323

9.5.6小结330

9.6鼠标轨迹的检测和原理330

9.7验证码产品赏析336

9.7.1滑动验证码336

9.7.2图标验证码337

9.7.3空间推理验证码338

9.7.4小结338

本章总结338

0章综合知识339

10.1编码与加密339

10.1.1ASCII编码339

10.1.2详解Base64342

10.1.3基于编码的反爬虫设计344

10.1.4MD5消息摘要算法347

10.1.5对称加密与AES352

10.1.6非对称加密与RSA357

10.1.7小结360

10.2JavaScript代码混淆360

10.2.1常见的混淆方法361

10.2.2混淆代码的还原363

10.2.3混淆原理365

10.2.4实现一个简单的混淆器366

10.2.5小结369

10.3前端禁止事件369

10.3.1禁止鼠标事件370

10.3.2禁止键盘事件371

10.3.3小结372

10.4法律法规372

10.4.1数据安全管理办法征求意见稿374

10.4.2爬虫协议Robots375

10.4.3与爬虫相关的法律法规376

10.4.4小结377

本章总结377

商品参数
基本信息
出版社 人民邮电出版社
ISBN 9787115528735
条码 9787115528735
编者 韦世东
译者
出版年月 2020-01-01 00:00:00.0
开本 16开
装帧 平装
页数 377
字数 565千字
版次 1
印次 1
纸张
商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]