抖音爬虫（抖音爬虫行为怎么申诉）-九幽软件

一、首先基础知识

基本用法

二、然后我们要讲一下爬虫的步骤：

发起请求

获取响应内容

解析内容

保存数据

三、以实战讲解爬虫

? ? ? ? 1.首相我们先讲解python爬虫对抖音的讲解

? ? ? ? ? ? ? ? ? ? ? ? ? 1.? ? ? 进行爬虫第一步（发送请求）

???2. 进行爬虫第二不（获取相应数据）

? ? ? ? ? ? ? ? ? ? ? ? 3.进行爬虫第三步（解析内容）

? ? ? ? ? ? ? ? ? ? ? ? 4.进行爬虫第四步（保存数据）

? ? ? ? 二、python对b站进行爬虫的讲解

1.我们要对pyhon的只是要有一定的基础知识例如：数组，字符串，列表等，这些基础知识是对爬虫过程中数据的处理，当你看到这篇文章时，说明你已经知道很多代码都是基于数据进行下去的，所以我们要对上述的基础只是要有一定的了解，但是也不用着急，这是保姆级教学。

2.我们已经了解了python的基础知识是要对数据的处理，那么我们要开始进行对数据的获取了，在进行网络爬虫时，python最常用的就是requests，他是一个功能强大的库，requests 库是一个功能强大且广泛使用的 HTTP 请求库。

基本用法

发送 GET 请求：GET 请求是最常用的请求类型之一，用于从服务器获取数据。
发送 POST 请求：当需要向服务器发送数据时，可以使用 POST 请求。

知道这些以后我们就要开始进行爬虫的案例的讲解了。

发起请求
- 发送HTTP请求：使用库如向目标站点发送HTTP请求，包含请求头、请求体等信息。
- 模拟浏览器行为：通过设置请求头中的等字段，模拟真实浏览器的行为，避免被目标网站识别为爬虫而封禁。
- 处理异常情况：在请求过程中可能会遇到各种异常情况，如网络错误、超时等，需要进行相应的异常处理。
获取响应内容
- 接收服务器响应：服务器收到请求后会返回响应，包括状态码、响应头和响应体等信息。
- 检查响应状态：根据状态码判断请求是否成功，如200表示成功，404表示未找到页面等。
- 处理响应数据：如果请求成功，可以获取到响应体中的数据，这些数据可能是HTML、JSON、图片、视频等格式。
解析内容
- 选择解析工具：根据响应数据的格式选择合适的解析工具，如正则表达式、BeautifulSoup、pyquery等用于解析HTML数据；模块用于解析JSON数据。
- 提取有用信息：从解析后的数据中提取出有用的信息，如网页中的文本、链接、图片等。
- 处理复杂结构：对于复杂的网页结构，可能需要使用多个解析工具组合使用，或者编写自定义的解析逻辑。
保存数据
- 选择存储方式：根据需求选择合适的存储方式，如数据库（MySQL、MongoDB等）、文件（CSV、JSON等）或内存缓存（Redis等）。
- 设计数据结构：根据提取的信息设计合适的数据结构，以便后续的查询和使用。
- 实现存储逻辑：编写代码将提取的信息存储到选择的存储介质中，并确保数据的完整性和一致性。

1.先讲解python爬虫对抖音的讲解

1.首先我们对数据的分析要到位，用谷歌浏览器打开抖音的官方界面

2.然后F12打开开发者模式，找到Network,并找到medio

在此处我们就能够找到，视频的链接所在网址了

找到对应的url，然后通过Request Method分析知道请求的方式是GET请求

接下来就是使用代码进行爬虫四部曲了。

3.代码:

抖音爬虫

4.对上述代码进行讲解，首相我们找到requests.get(url=url,data=data),这列我们讲解一下，，其中是请求的目标地址，是可选参数，用于传递查询字符串参数，允许你传递其他关键字参数来自定义请求。所以我们要利用之前找到的视频链接网址将目标url传进去，再将所需要的数据，也就是data进行传入。

5.然后我们对上述代码进行爬虫四部曲的讲解。

1.第一步（发送请求）

对下面图片中就是我们提供的url,和data，利用之前分析知道的GET方式进行的请抖音爬虫求，所以使用requests库中的get方法进行请求发送

2. 第二步（获取相应数据）

先通过response库中的status_code方法与200进行比较，这里的意思是对目标网站发送请求时获取的相应状态，200的意思时相应成功，也就是获取到了相应的数据

3.第三步（解析内容）

因为在抖音中可以直接通过response库中的content方法直接进行内容的处理，所以不需要进行内容的分析

4.第四步（保存数据）

利用python中的open方法进行写入，最后运行就可以在同级目录下找到爬虫获取的相应数据，具体不做分析，因为最开始说了，需要一定的基础。

2、python对b站进行爬虫的讲解

讲一下为什么b站要和抖音的爬虫要分开讲解，因为两者有一定的不同，首先就是b站有反扒，单从这一点就有很大的区别。

1.方法一：直接通过数据获取我们想要的视频即信息

这个方法是利用爬虫四部曲中的第一部发起请求的过程中，通过在网页上寻找网页视频资源也就是目标链接的过程中直接下载

首先第一步就是打开b站，点击想要获取内容的视频，再按F12打开开发者工具，看到Network中，

也就是上述网页，通常我们可以通过点击Media，就会看见.mp4等视频资源，开始时我们说了，因为存在反爬虫，所以不可能简单的放在Media中，所以我们要去找视频资源在哪，通常我们在Fetch/XHR,Media,Other中进行查找，但是Other一般存放的是一些文件数据，除非必要时刻（也就是在前面两者里面都没有找到时），可以在这里寻找。

当我们查找Media中会发现，什么数据都没有，无论我们怎么刷新都没有什么用，所以接下来我们要通过Fetch/XHR中寻找，因为数据太多，但是我们又不得不一个一个慢慢的找，但是这里因为是在教学，所以我会直接告诉要找一个什么视频资源，