基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)

网络编程 2025/1/11 佚名

3 1 2

1、使用curl实现站外采集

具体请参考我上一篇笔记：https://www.jb51.net/article/46432.htm

2、编码转换
首先通过查看源代码找到采集的网站使用的编码，通过mb_convert_encoding函数进行转码；

具体使用方法：

复制代码代码如下:
//源字符是$str

//以下已知原编码为GBK，转换为utf-8
mb_convert_encoding($str, "UTF-8", "GBK");

//以下未知原编码，通过auto自动检测后，转换编码为utf-8
mb_convert_encoding($str, "UTF-8", "auto");

3、为更好地避开换行符和空格等不定因素的阻碍，有必要先清除采集到的源码中的换行符、空格符和制表符

复制代码代码如下:
//方法一，使用str_replace进行替换
$contents = str_replace("\r\n", '', $contents); //清除换行符
$contents = str_replace("\n", '', $contents); //清除换行符
$contents = str_replace("\t", '', $contents); //清除制表符
$contents = str_replace(" ", '', $contents); //清除空格符

//方法二，使用正则表达式进行替换
$contents = preg_replace("/([\r\n|\n|\t| ]+)/",'',$contents);

4、通过正则表达式匹配找出需要获得的代码段，使用preg_match_all实现该匹配

复制代码代码如下:
函数解释：
int preg_match_all ( string pattern, string subject, array matches [, int flags] )
pattern即正规表达式
subject即要进行查找的原文
matches是用于储存输出结果的数组
flags是储存的模式，包括：
    PREG_PATTERN_ORDER; //整个数组是二维数组，$arr1[0]是包括边界所构成匹配字符串的数组，$arr1[1]除去边界所构成的匹配字符串的数组
    PREG_SET_ORDER; //整个数组是二维数组，$arr2[0][0]是第一个包括边界所构成的匹配的字符串，$arr2[0][1]是第一个除去边界所构成的匹配的字符串，之后的数组以此类推
    PREG_OFFSET_CAPTURE; //整个数组是三维数组，$arr3[0][0][0]是第一个包括边界所构成的匹配的字符串，$arr3[0][0][1]是到达第一个匹配字符串的边界的偏移量（边界不算在内），之后以此类推，$arr2[1][0][0]是第一个包括边界所构成的匹配的字符串，$arr3[1][0][1]是到达第一个匹配字符串的边界的偏移量（边界算在内）;

//实际应用
preg_match_all('/<pclass=\"content\">(.*?)<\/p>/',$contents, $out, PREG_SET_ORDER);
$out将获取到所有匹配的元素
$out[0][0]将是包括<pclass=\"content\"></p>在内的全段字符
$out[0][1]将是仅包括(.*?)括号内所匹配到的字符段

//如此类推，第n个匹配到的字段可以用以下方法取得
$out[n-1][1]

//若正则表达式中存大多个括号，则取得句中第m个匹配点的方法是
$out[n-1][m]

5、取得要找到字符后，若要去掉html标签，使用PHP自带的函数strip_tags即可方便地实现

复制代码代码如下:
//例
$result=strip_tags($out[0][1]);

preg_match_all,编码转换,正则

华山资源网 Design By www.eoogi.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

华山资源网 Design By www.eoogi.com

评论“基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)”

暂无评论...

www.eoogi.com 华山资源网

120,135影音资源

344,641技术资源

22,817软件资源

435,032站长资源

最新文章

群星《奔赴！万人现场第2期》[FLAC/分轨][5

2025/1/11

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2025/1/11

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2025/1/11

【古典音乐】詹姆斯·高威《季节》1993[WAV+

2025/1/11

贝拉芳蒂《卡里普索之王》SACD[WAV+CUE]

2025/1/11

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2025/1/11

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)

preg_match_all使用心得分享

php curl_init函数用法

评论“基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)

preg_match_all使用心得分享

php curl_init函数用法

评论“基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存