日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁 > 芯聞號 > 充電吧
[導(dǎo)讀]User Agent的方法先看下urllib.request.Request()????從上圖可以看出,在創(chuàng)建Request對象的時(shí)候,可以傳入headers參數(shù)。?????因此,想要設(shè)置User A

User Agent的方法


先看下urllib.request.Request()

????從上圖可以看出,在創(chuàng)建Request對象的時(shí)候,可以傳入headers參數(shù)。?
????因此,想要設(shè)置User Agent,有兩種方法:

????1.在創(chuàng)建Request對象的時(shí)候,填入headers參數(shù)(包含User Agent信息),這個Headers參數(shù)要求為字典;

????2.在創(chuàng)建Request對象的時(shí)候不添加headers參數(shù),在創(chuàng)建完成之后,使用add_header()的方法,添加headers。

方法一:

????創(chuàng)建文件urllib_test09.py,使用上面提到的Android的第一個User Agent,在創(chuàng)建Request對象的時(shí)候傳入headers參數(shù),編寫代碼如下:

#?-*-?coding:?UTF-8?-*-
from?urllib?import?request

if?__name__?==?"__main__":
????#以CSDN為例,CSDN不更改User?Agent是無法訪問的
????url?=?'http://www.csdn.net/'
????head?=?{}
????#寫入U(xiǎn)ser?Agent信息
????head['User-Agent']?=?'Mozilla/5.0?(Linux;?Android?4.1.1;?Nexus?7?Build/JRO03D)?AppleWebKit/535.19?(KHTML,?like?Gecko)?Chrome/18.0.1025.166??Safari/535.19'
?#創(chuàng)建Request對象
????req?=?request.Request(url,?headers=head)
????#傳入創(chuàng)建好的Request對象
????response?=?request.urlopen(req)
????#讀取響應(yīng)信息并解碼
????html?=?response.read().decode('utf-8')
????#打印信息
????print(html)

????運(yùn)行結(jié)果如下:

方法二:

????創(chuàng)建文件urllib_test10.py,使用上面提到的Android的第一個User Agent,在創(chuàng)建Request對象時(shí)不傳入headers參數(shù),創(chuàng)建之后使用add_header()方法,添加headers,編寫代碼如下:

#?-*-?coding:?UTF-8?-*-
from?urllib?import?request

if?__name__?==?"__main__":
????#以CSDN為例,CSDN不更改User?Agent是無法訪問的
????url?=?'http://www.csdn.net/'
????#創(chuàng)建Request對象
????req?=?request.Request(url)
????#傳入headers
????req.add_header('User-Agent',?'Mozilla/5.0?(Linux;?Android?4.1.1;?Nexus?7?Build/JRO03D)?AppleWebKit/535.19?(KHTML,?like?Gecko)?Chrome/18.0.1025.166??Safari/535.19')
????#傳入創(chuàng)建好的Request對象
????response?=?request.urlopen(req)
????#讀取響應(yīng)信息并解碼
????html?=?response.read().decode('utf-8')
????#打印信息
????print(html)

????運(yùn)行結(jié)果和上一個方法是一樣的。

IP代理的使用


1.為何使用IP代理

????User Agent已經(jīng)設(shè)置好了,但是還應(yīng)該考慮一個問題,程序的運(yùn)行速度是很快的,如果我們利用一個爬蟲程序在網(wǎng)站爬取東西,一個固定IP的訪問頻率就會很高,這不符合人為操作的標(biāo)準(zhǔn),因?yàn)槿瞬僮鞑豢赡茉趲譵s內(nèi),進(jìn)行如此頻繁的訪問。所以一些網(wǎng)站會設(shè)置一個IP訪問頻率的閾值,如果一個IP訪問頻率超過這個閾值,說明這個不是人在訪問,而是一個爬蟲程序。

2.一般步驟說明

????一個很簡單的解決辦法就是設(shè)置延時(shí),但是這顯然不符合爬蟲快速爬取信息的目的,所以另一種更好的方法就是使用IP代理。使用代理的步驟:

????(1)調(diào)用urlib.request.ProxyHandler(),proxies參數(shù)為一個字典。

????(2)創(chuàng)建Opener(類似于urlopen,這個代開方式是我們自己定制的)

????(3)安裝Opener

????使用install_opener方法之后,會將程序默認(rèn)的urlopen方法替換掉。也就是說,如果使用install_opener之后,在該文件中,再次調(diào)用urlopen會使用自己創(chuàng)建好的opener。如果不想替換掉,只是想臨時(shí)使用一下,可以使用opener.open(url),這樣就不會對程序默認(rèn)的urlopen有影響。

3.代理IP選取

????在寫代碼之前,先在代理IP網(wǎng)站選好一個IP地址,推薦西刺代理IP。

????URL:http://www.xicidaili.com/

????注意:當(dāng)然也可以寫個正則表達(dá)式從網(wǎng)站直接爬取IP,但是要記住不要太頻繁爬取,加個延時(shí)什么的,太頻繁給服務(wù)器帶來壓力了,服務(wù)器會直接把你block,不讓你訪問的,我就被封了兩天。

????從西刺網(wǎng)站選出信號好的IP,我的選擇如下:(106.46.136.112:808)

????編寫代碼訪問http://www.whatismyip.com.tw/,該網(wǎng)站是測試自己IP為多少的網(wǎng)址,服務(wù)器會返回訪問者的IP。

4.代碼實(shí)例

????創(chuàng)建文件urllib_test11.py,編寫代碼如下:

#?-*-?coding:?UTF-8?-*-
from?urllib?import?request

if?__name__?==?"__main__":
????#訪問網(wǎng)址
????url?=?'http://www.whatismyip.com.tw/'
????#這是代理IP
????proxy?=?{'http':'106.46.136.112:808'}
????#創(chuàng)建ProxyHandler
????proxy_support?=?request.ProxyHandler(proxy)
????#創(chuàng)建Opener
????opener?=?request.build_opener(proxy_support)
????#添加User?Angent
????opener.addheaders?=?[('User-Agent','Mozilla/5.0?(Windows?NT?6.1;?Win64;?x64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/56.0.2924.87?Safari/537.36')]
????#安裝OPener
????request.install_opener(opener)
????#使用自己安裝好的Opener
????response?=?request.urlopen(url)
????#讀取相應(yīng)信息并解碼
????html?=?response.read().decode("utf-8")
????#打印信息
????print(html)

????運(yùn)行結(jié)果如下:

????從上圖可以看出,訪問的IP已經(jīng)偽裝成了106.46.136.112。


本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系本站刪除( 郵箱:macysun@21ic.com )。
換一批
延伸閱讀
關(guān)閉