Python CSS选择器爬取京东网商品信息过程解析

脚本专栏 2024/11/11 佚名

3 1 2

CSS选择器

目前，除了官方文档之外，市面上及网络详细介绍BeautifulSoup使用的技术书籍和博客软文并不多，而在这仅有的资料中介绍CSS选择器的少之又少。在网络爬虫的页面解析中，CCS选择器实际上是一把效率甚高的利器。虽然资料不多，但官方文档却十分详细，然而美中不足的是需要一定的基础才能看懂，而且没有小而精的演示实例。

京东商品图

首先进入京东网，输入自己想要查询的商品，向服务器发送网页请求。在这里小编仍以关键词“狗粮”作为搜索对象，之后得到后面这一串网址：
https://search.jd.com/Search"text-align: center">

部分网页源码

仔细观察源码，可以发现我们所需的目标信息在红色框框的下面，那么接下来我们就要一层一层的去获取想要的信息。

在Python的urllib库中提供了quote方法，可以实现对URL的字符串进行编码，从而可以进入到对应的网页中去。

CSS选择器在线复制

很多小伙伴都觉得CSS表达式很难写，其实掌握了基本的用法也就不难了。在线复制CSS表达式如上图所示，可以很方便的复制CSS表达式。但是通过该方法得到的CSS表达式放在程序中一般不能用，而且长的没法看。所以CSS表达式一般还是要自己亲自上手。

直接上代码，利用CSS去提取目标信息，如商品的名字、链接、图片和价格，具体的代码如下图所示：

代码实现

如果你想快速的实现功能更强大的网络爬虫，那么BeautifulSoupCSS选择器将是你必备的利器之一。BeautifulSoup整合了CSS选择器的语法和自身方便使用API。在网络爬虫的开发过程中，对于熟悉CSS选择器语法的人，使用CSS选择器是个非常方便的方法。

最后得到的效果图如下所示：

最终效果图

新鲜的狗粮再一次出炉咯~~~

CSS选择器

关于CSS选择器的简单介绍：

BeautifulSoup支持大部分的CSS选择器。其语法为：向tag对象或BeautifulSoup对象的.select()方法中传入字符串参数，选择的结果以列表形式返回，即返回类型为list。

tag.select("string")

BeautifulSoup.select("string")

注意：在取得含有特定CSS属性的元素时，标签名不加任何修饰，如class类名前加点，id名前加 /#。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

Python,CSS选择器,爬取,京东,商品信息

华山资源网 Design By www.eoogi.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

华山资源网 Design By www.eoogi.com

评论“Python CSS选择器爬取京东网商品信息过程解析”

暂无评论...

更新日志

2024年11月11日

2024年11月11日