跳转至

爬虫代理

爬虫代理问答Link

1、与传统API提取代理的区别Link

  • 传统API提取式代理,通过URL定时获取代理IP信息,需验证IP的可用性、更换代理设置,同时需要设计多线程异步IO,实现代理IP并发处理,不仅繁琐,而且影响效率。
  • 本地转发代理,相当于爬虫代理的半成品,由于其技术框架没法实现云代理IP的自动海量IP池管理及负载均衡保障,只能将转发IP提交客户,由客户软件通过多线程切换实现HTTP请求的转发,导致爬虫框架复杂难以维护,同时IP切换效率低下,IP失效率较高。
  • 亿牛云爬虫代理IP”通过固定云代理服务地址,建立专线网络链接,代理平台自动实现海量IP池管理及负载均衡,实时无感的毫秒级代理IP切换,提供企业级云服务的网络稳定性及请求响应速度,同时降低了客户端运算负载压力,避免了爬虫客户在代理IP策略优化上投入精力,整体提升了爬虫效率。

2、爬虫代理的数据缓存及网络延迟Link

为了提高客户的爬虫采集效率,降低目标服务器的反爬风险,爬虫代理关闭了目标服务器的缓存特性,每一次用户请求都真实进行转发,避免了服务器或防火墙因为反爬而出现的返回缓存数据,从而导致采集数据失真的情况。

当研发进行爬虫代理对比测试的时候,可能会发现一个现象,亿牛云的代理每次请求的延迟都很稳定,而部分同行的产品会出现第一次HTTP请求延迟很高,接下来大量的请求延迟非常低(甚至低于服务器响应时间)的假象,如下图:

获取

上图的情况就是代理服务器缓存了数据,然后爬虫程序请求相同链接的时候,会出现重复数据并且延迟很低的情况,这种情况下爬虫程序难以分辨是不是目标服务器反爬策略引起的,并且会给用户造成一种代理服务器网络延迟低的假象。

3、动态版的两种IP切换模式有什么区别Link

  • 所有模式在IP有效时间到期会强制切换IP,动态版的IP切换模式有2种:

HTTP

每个HTTP请求自动切换,是指爬虫代理为爬虫程序发出的每个HTTP请求随机提供一个代理IP。该模式适合一些需要大量IP的单session爬虫业务。

自主切换

用户自主切换IP,爬虫程序可以通过设置HTTP头Proxy-Tunnel: 随机数,将不同的请求强制指定为一个代理IP或不同代理IP;该模式适合一些需要登陆(多个session使用相同IP)、Cookie缓存处理等需要精确控制IP切换时机的业务。

4、动态版的20秒代理有效时间和180秒代理有效时间,该如何选择Link

  • 20秒代理有效时间更短,但是可以提供的IP数量更多,
  • 180秒代理有效时间更长,但是可以提供的IP数量更少

注意

除非业务采集必须,应该选择20秒代理有效时间,提供更多的IP,避免网站反爬策略。

5、用户认证(通过请求头实现用户名和密码认证)Link

  • 通过用户名和密码的形式进行身份认证,该认证信息最终会转换为『Proxy-Authorization』协议头跟随请求一起发出,同时支持通过『Authorization』协议头进行隧道身份验证。如用户认证错误,系统会返回401 Unauthorized。 用户认证模式情况下,如果需要使用“代理提取链接(代理提取API)”取代理地址信息,依然需要设置相应的IP白名单,该IP白名单仅对“代理提取链接(代理提取API)”生效。

6、爬虫代理信息获取Link

登陆后台点击“当前代理”,首先将当前机器外网IP添加到IP白名单,然后点击“代理描述”获取代理相关信息(域名、端口、用户名、密码),图示如下: 获取

7、IP白名单修改方式Link

  • 手动修改 登录后台”当前代理“,选择具体代理,如下图操作:

手动

  • 自动修改

(1)登录后台,启用“自动更新ip”,系统将自动绑定计算机的外网ip(需要每1分钟发出http请求访问“代理提取链接”;多个IP白名单访问会导致相互冲突,禁止启用)。

(2)通过API动态修改或替换IP白名单,登录后台点击 “+更多” 有详细说明

8、代理提取链接需要更新,应该如何处理Link

  • 如果“代理提取链接”被盗用,或者因为有机器正在使用,不方便远程停止,那么可以直接登录系统后台,重新生成“代理提取链接”,以前的“代理提取链接”即可失效。

9、如果请求过多会返回什么Link

  • HTTP\HTTPS代理,系统会返回429 Too Many Requests;但不会对爬虫的运行产生影响,爬虫会根据返回结果自动重新发起请求,这是HTTP\HTTPS的标准应答模式。

10、出现HTTP的407错误Link

  • 几种情况下会出现http的407、408错误:
    1. 全部是http的407错误,是代理认证信息不对。
    2. 少量http的407错误,大量http的200请求成功,有些语言库第一次请求不会传递认证信息,自动发起第二次请求并将认证信息传递,属正常情况。
    3. 少量http的200请求成功,少量http的407错误,大量http的429错误,有可能是每秒请求数大量超出代理限定,代理直接返回相关错误。

11、出现HTTP的408错误Link

  • 大量http的408错误,为网速过慢导致的请求超时,需要检查用户带宽是否充足,目标网站是否过慢。

12、同一隧道使用的代理IP会重复吗Link

  • 系统会自动做去重和随机处理,一般情况下代理IP不会重复出现,但如果池中的 IP 在当天都被隧道使用过,为了保证代理的可用性,平台会为隧道随机分配一个可用代理IP。

13、如何保证7×24小时稳定在线的运行Link

  • 由于代理IP分布于全国,线路多、集群结构复杂,加上部分线路不定期升级,可能会偶尔会出现代理链接不上的情况,平台提供双机热备代理服务器(1分钟左右切换时间)确保代理服务实时在线,同时需要爬虫程序进行相应的优化,有两种方案:
    1. 代理提取链接自动更新(优先推荐,实时更新) 爬虫程序需要开启专用线程,每1分钟访问“代理提取链接”,如果发现代理IP和PORT有变化,爬虫程序需要自动更新代理信息。(因为爬虫服务器外网IP变化或其他网络原因,可能会偶尔造成代理信息获取失败,重新发起请求即可)
    2. 域名访问模式(被动更新,延迟较长) 通知专属客服开启“域名访问模式”,爬虫程序通过“域名与端口”连接代理服务器。平台进行定期检查,一旦发现在线代理服务器异常,后台进行域名指向更新,由于DNS服务器同步时间较长,加上在线检测时间间隔,因此该方案作为备选。该模式下对于“IP白名单认证”的爬虫代理,需要开启“自动更新IP”,并且每1分钟发出http请求访问“代理提取链接”。

14、代理开通和续费Link

后台点击“订单记录”,找到对应订单信息,然后点击“支付”或“续费”,如图: 续费

代理到期前才能自助续费。否则需联系客服开通续费,以便厂家进行业务独享管理。