
上QQ阅读APP看书,第一时间看更新
3.2 urllib库
学习爬虫,我们的思路是模拟浏览器向服务器发出访问请求,然后对得到的网页进行下一步解析操作。Python提供了许多HTTP库来帮助我们完成这些访问和抓取网页,例如urllib、httplib2、request、req等。urllib是Python中一个功能强大的用于操作URL的标准库,可以模拟浏览器的行为,向指定的服务器发送一个请求,并且可以保存服务器返回的数据。urllib主要包括以下模块。
·urllib.request:发送http请求。
·urllib.error:处理请求过程中出现的异常。
·urllib.parse:解析URL。
·urllib.robotparser:解析robots.txt文件。
本节将对urlopen()与urlretrieve()函数的用法、参数编码和解码函数,以及urlparse()和urlsplit()函数的用法进行介绍。