最近开始了解抖音视频下载时,发现现在的抖音也像大众点评一样开始使用字体反扒了。
本章内容:

目标网站:某douyin视频下载
反爬机制:js逆向爬虫,字体反扒
技术难度:★★★★★☆
爬取目标:构建模拟请求signature,下载视频
源代码:https://github.com/FioraLove/Net-Spider/tree/develop/抖音/抖音最新版

      之前我们已经系统的了解过了requests库了,但是愈发觉得这个三方库真是太完美了,利用python可以http请求发送soap报文(xml数据格式)进行webservice接口调用。
本章内容:

1.python的占位符%s,%d,%r,%f
2.进制转换
3.bytes与str之间的转换
4.python的运算符☆☆
5.python通过http请求发送soap报文进行webservice接口调用
6.python的编码与解码
7.python的各种加密:base64加密,md5,RSA…
8.python压缩打包文件为zip
9.python类的继承和多态

      在浏览网站的时候,有些网站需要登录,并且登录流程中有验证码验证。在爬虫中带验证的登录通常可以分为4各步骤:
本章内容:

1.获取登录页面:在登陆页面找到登录请求的url以及登录需要提交的参数

2.通过登录页找到验证码的url

3.处理验证码:包括下载验证码,识别验证码

4.发送登录请求:构造登录所需的所有参数进行登录请求

GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。


联系我 | Contact with me

Copyright © 2019-2020 谁知你知我,我知你知深。此恨经年深,比情度日久

博客内容遵循 署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议