Python信息抽取之乱码解决办法

脚本专栏 2024/11/15 佚名

3 1 2

Python信息抽取之乱码解决办法

就事论事，直说自己遇到的情况，和我不一样的路过吧，一样的就看看吧

　　信息抓取，用python,beautifulSoup,lxml,re,urllib2,urllib2去获取想要抽取的页面内容，然后使用lxml或者beautifulSoup进行解析，插入mysql 具体的内容，好了貌似很简单很easy的样子，可是里面的恶心之处就来了，第一，国内开发网站的人在指定网站编码或者是保存网站源码的时候并没有考虑什么编码，反正一句话，一个网站即使你用工具查看或者查看源码头信息查看到他们的源码是utf-8,或者GBK之类的，也别信，哎，什么东西信了就遭殃了，即<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

　　以下给出一些流程：（具体各个库不是我这里向说的哦）

　import urllib2

　　 import chardet

　　html = urllib2.urlopen("某网站")

　 print chardet.detect(html) #这里会输出一个字典{'a':0.99999,'encoding':'utf-8'}

　　好，这整个html的编码都知道，该插入以utf-8建立的mysql数据库了吧，但是我就在插入的时候发生错误了，因为我使用lxml以后的字符串不是utf-8，而是Big5（繁体字编码）,还有各种未知编码EUC-JP(日本语编码)，OK，我采取了unicode方法，先对这个字段进行解码，在进行编码

if chardet.detect(name)['encoding'] == 'GB2312':
　　name = unicode(name,'GB2312','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'Big5':
 name = unicode(name,'Big5','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'ascii':
 name = unicode(name,'ascii','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'GBK':
 name = unicode(name,'GBK','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'EUC-JP':
 name = unicode(name,'EUC-JP','ignore').encode('utf-8','ignore')
else:
  name = '未知'

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

Python信息抽取之乱码,python,乱码解决办法

华山资源网 Design By www.eoogi.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

华山资源网 Design By www.eoogi.com

评论“Python信息抽取之乱码解决办法”

暂无评论...

www.eoogi.com 华山资源网

120,135影音资源

344,641技术资源

22,817软件资源

435,032站长资源

更新日志

2024年11月15日

Python信息抽取之乱码解决办法

Python实现的文本编辑器功能示例

Python构建XML树结构的方法示例

评论“Python信息抽取之乱码解决办法”

更新日志

友情链接