您的位置首页百科知识

如何使用urllib获取URL

如何使用urllib获取URL

的有关信息介绍如下:

如何使用urllib获取URL

urllib是一款可以处理URL的组建集合软件,拥有很强大的第三方库,版本很多,在这里就不多介绍了,只研究urllib.request的用法。

首先来简单了解一下需要的模块,然后打开需要的模块urllib.request,打开Google的URL进行交互HTTPResponse对象,然后调用函数geturl返回根据URL得到的资源。

然后假如想要查看网页的HTML代码,可以调用里面的变量url的方法read来实现,接下来调用info函数返回源数据,然后进行下载文件的实现,并且进行数据的读写和存储。

接下来是进行把网络对象进行复制到本地文件里面,使用参数urlretrieve将要保存的文件指定路径,不使用就会默认被当作临时文件随机命名然后保存,可以为将来起到查找的方便之处。

然后就能设置当你进行浏览器访问网页时,浏览器就能进行用户代理,用户代理字段也可以进行自己设置,很简单的设置,有一些网站不一定会识别,需要进行简单的设置就能识别了,只需要改变字段的值就可以了。

接下来就是urllib.parse库来拆分和组合URL字符串的标准接口,使用它来转换一个相对的URL为绝对的URL。如图所示就是在转换一个包含查询的URL,导入函数urlparse返回一个ParseResult对象获取到端口信息、网络位置、路径和很多其它东西。

最后提交一个web表单,使用urllib.parse模块的一个典型使用场景提交Web表单。通过搜索引擎duckduckgo搜索Python来看看这个功能是怎么工作的。基本上是使用模块进行查询,然后获得结果存储到磁盘上。