基于Python正则表达式提取搜索结果中的站点地址

网络编程 2024/12/28 佚名

3 1 2

正则表达式对于Python来说并不是独有的，最近在把google搜索的结果中所有的站点地址导出，于是想到用python正则表达式提取搜索结果中的站点地址。

这其中涉及几个需要解决的问题：

1、获取搜索的结果文本

为了获得更多的地址，我使用了Google的高级搜索功能，每个页面显示100条结果。

获得显示的结果后，可以查看源码，并保持成文本文件就有了搜索的结果文本

2、分析如何提取站点信息

首先需要分析获取的页面，查看以怎样的方式可以提取出站点信息。

我使用IE8自带的开发工具（按F12就会弹出来）中的探查器功能查看自己要关心的内容有什么特殊的格式

从上图可以看出我需要的站点在标签<cite></cite>中，所以我使用正则表达式提取这其中的文本是否就可以呢？

3、编写正则表达式来获取站点地址

接下来的就是写表达式了，我使用Python3.2编写的，方便好用（~_~）

代码如下，先把搜索结果页面保持到e:/t3.txt中，在执行如下代码

import re
p = re.compile(r'<cite>([^<>\/].+"e:/t3.txt", encoding='utf-8')
content = f.read()
print ("\n".join(p.findall(content)))

运行如下：

大家可以对照一下运行效果图，看看所有的站点地址是不是都给获取到了。

Python正则表达式提取,python正则表达式

华山资源网 Design By www.eoogi.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

华山资源网 Design By www.eoogi.com

评论“基于Python正则表达式提取搜索结果中的站点地址”

暂无评论...

www.eoogi.com 华山资源网

120,135影音资源

344,641技术资源

22,817软件资源

435,032站长资源

最新文章

群星《奔赴！万人现场第2期》[FLAC/分轨][5

2024/12/28

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2024/12/28

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2024/12/28

【古典音乐】詹姆斯·高威《季节》1993[WAV+

2024/12/28

贝拉芳蒂《卡里普索之王》SACD[WAV+CUE]

2024/12/28

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/12/28

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。

首次推出的GDDR7内存模块密度为16GB，每个模块容量为2GB。其速度预设为32 Gbps（PAM3），但也可以降至28 Gbps，以提高产量和初始阶段的整体性能和成本效益。
据三星表示，GDDR7内存的能效将提高20%，同时工作电压仅为1.1V，低于标准的1.2V。通过采用更新的封装材料和优化的电路设计，使得在高速运行时的发热量降低，GDDR7的热阻比GDDR6降低了70%。

更新日志

2024年12月28日

基于Python正则表达式提取搜索结果中的站点地址

正则表达式详细介绍（上）

Python爬虫正则表达式常用符号和方法

评论“基于Python正则表达式提取搜索结果中的站点地址”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

基于Python正则表达式提取搜索结果中的站点地址

正则表达式详细介绍（上）

Python爬虫正则表达式常用符号和方法

评论“基于Python正则表达式提取搜索结果中的站点地址”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存