python學(xué)習(xí)筆記 UA_代理IP
User Agent的方法
先看下urllib.request.Request()
????從上圖可以看出,在創(chuàng)建Request對(duì)象的時(shí)候,可以傳入headers參數(shù)。?
????因此,想要設(shè)置User Agent,有兩種方法:
????1.在創(chuàng)建Request對(duì)象的時(shí)候,填入headers參數(shù)(包含User Agent信息),這個(gè)Headers參數(shù)要求為字典;
????2.在創(chuàng)建Request對(duì)象的時(shí)候不添加headers參數(shù),在創(chuàng)建完成之后,使用add_header()的方法,添加headers。
方法一:
????創(chuàng)建文件urllib_test09.py,使用上面提到的Android的第一個(gè)User Agent,在創(chuàng)建Request對(duì)象的時(shí)候傳入headers參數(shù),編寫代碼如下:
#?-*-?coding:?UTF-8?-*-
from?urllib?import?request
if?__name__?==?"__main__":
????#以CSDN為例,CSDN不更改User?Agent是無法訪問的
????url?=?'http://www.csdn.net/'
????head?=?{}
????#寫入U(xiǎn)ser?Agent信息
????head['User-Agent']?=?'Mozilla/5.0?(Linux;?Android?4.1.1;?Nexus?7?Build/JRO03D)?AppleWebKit/535.19?(KHTML,?like?Gecko)?Chrome/18.0.1025.166??Safari/535.19'
?#創(chuàng)建Request對(duì)象
????req?=?request.Request(url,?headers=head)
????#傳入創(chuàng)建好的Request對(duì)象
????response?=?request.urlopen(req)
????#讀取響應(yīng)信息并解碼
????html?=?response.read().decode('utf-8')
????#打印信息
????print(html)????運(yùn)行結(jié)果如下:
方法二:
????創(chuàng)建文件urllib_test10.py,使用上面提到的Android的第一個(gè)User Agent,在創(chuàng)建Request對(duì)象時(shí)不傳入headers參數(shù),創(chuàng)建之后使用add_header()方法,添加headers,編寫代碼如下:
#?-*-?coding:?UTF-8?-*-
from?urllib?import?request
if?__name__?==?"__main__":
????#以CSDN為例,CSDN不更改User?Agent是無法訪問的
????url?=?'http://www.csdn.net/'
????#創(chuàng)建Request對(duì)象
????req?=?request.Request(url)
????#傳入headers
????req.add_header('User-Agent',?'Mozilla/5.0?(Linux;?Android?4.1.1;?Nexus?7?Build/JRO03D)?AppleWebKit/535.19?(KHTML,?like?Gecko)?Chrome/18.0.1025.166??Safari/535.19')
????#傳入創(chuàng)建好的Request對(duì)象
????response?=?request.urlopen(req)
????#讀取響應(yīng)信息并解碼
????html?=?response.read().decode('utf-8')
????#打印信息
????print(html)????運(yùn)行結(jié)果和上一個(gè)方法是一樣的。
IP代理的使用
1.為何使用IP代理
????User Agent已經(jīng)設(shè)置好了,但是還應(yīng)該考慮一個(gè)問題,程序的運(yùn)行速度是很快的,如果我們利用一個(gè)爬蟲程序在網(wǎng)站爬取東西,一個(gè)固定IP的訪問頻率就會(huì)很高,這不符合人為操作的標(biāo)準(zhǔn),因?yàn)槿瞬僮鞑豢赡茉趲譵s內(nèi),進(jìn)行如此頻繁的訪問。所以一些網(wǎng)站會(huì)設(shè)置一個(gè)IP訪問頻率的閾值,如果一個(gè)IP訪問頻率超過這個(gè)閾值,說明這個(gè)不是人在訪問,而是一個(gè)爬蟲程序。
2.一般步驟說明
????一個(gè)很簡單的解決辦法就是設(shè)置延時(shí),但是這顯然不符合爬蟲快速爬取信息的目的,所以另一種更好的方法就是使用IP代理。使用代理的步驟:
????(1)調(diào)用urlib.request.ProxyHandler(),proxies參數(shù)為一個(gè)字典。
????(2)創(chuàng)建Opener(類似于urlopen,這個(gè)代開方式是我們自己定制的)
????(3)安裝Opener
????使用install_opener方法之后,會(huì)將程序默認(rèn)的urlopen方法替換掉。也就是說,如果使用install_opener之后,在該文件中,再次調(diào)用urlopen會(huì)使用自己創(chuàng)建好的opener。如果不想替換掉,只是想臨時(shí)使用一下,可以使用opener.open(url),這樣就不會(huì)對(duì)程序默認(rèn)的urlopen有影響。
3.代理IP選取
????在寫代碼之前,先在代理IP網(wǎng)站選好一個(gè)IP地址,推薦西刺代理IP。
????URL:http://www.xicidaili.com/
????注意:當(dāng)然也可以寫個(gè)正則表達(dá)式從網(wǎng)站直接爬取IP,但是要記住不要太頻繁爬取,加個(gè)延時(shí)什么的,太頻繁給服務(wù)器帶來壓力了,服務(wù)器會(huì)直接把你block,不讓你訪問的,我就被封了兩天。
????從西刺網(wǎng)站選出信號(hào)好的IP,我的選擇如下:(106.46.136.112:808)
????編寫代碼訪問http://www.whatismyip.com.tw/,該網(wǎng)站是測(cè)試自己IP為多少的網(wǎng)址,服務(wù)器會(huì)返回訪問者的IP。
4.代碼實(shí)例
????創(chuàng)建文件urllib_test11.py,編寫代碼如下:
#?-*-?coding:?UTF-8?-*-
from?urllib?import?request
if?__name__?==?"__main__":
????#訪問網(wǎng)址
????url?=?'http://www.whatismyip.com.tw/'
????#這是代理IP
????proxy?=?{'http':'106.46.136.112:808'}
????#創(chuàng)建ProxyHandler
????proxy_support?=?request.ProxyHandler(proxy)
????#創(chuàng)建Opener
????opener?=?request.build_opener(proxy_support)
????#添加User?Angent
????opener.addheaders?=?[('User-Agent','Mozilla/5.0?(Windows?NT?6.1;?Win64;?x64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/56.0.2924.87?Safari/537.36')]
????#安裝OPener
????request.install_opener(opener)
????#使用自己安裝好的Opener
????response?=?request.urlopen(url)
????#讀取相應(yīng)信息并解碼
????html?=?response.read().decode("utf-8")
????#打印信息
????print(html)????運(yùn)行結(jié)果如下:
????從上圖可以看出,訪問的IP已經(jīng)偽裝成了106.46.136.112。





