Pandas之read_csv()读取文件跳过报错行的解决

脚本专栏 2024/9/21 佚名

3 1 2

读取文件时遇到和列数不对应的行，此时会报错。若报错行可以忽略，则添加以下参数:

样式：

pandas.read_csv(***,error_bad_lines=False)

pandas.read_csv(filePath) 方法来读取csv文件时，可能会出现这种错误：

ParserError：Error tokenizing data.C error:Expected 2 fields in line 407,saw 3.

是指在csv文件的第407行数据，期待2个字段，但在第407行实际发现了3个字段。

原因：header只有两个字段名，但数据的第407行却出现了3个字段（可能是该行数据包含了逗号，或者确实有三个部分），导致pandas不知道该如何处理。

解决办法：把第407行多出的字段删除，或者通过在read_csv方法中设置error_bad_lines=False来忽略这种错误：

改为

pandas.read_csv(filePath,error_bad_lines=False)

来忽略掉其中出现错乱(例如，由于逗号导致多出一列)的行。

KeyError错误：

报这种错是由于使用了DataFrame中没有的字段，例如id字段，原因可能是：

.csv文件的header部分没加逗号分割，此时可使用df.columns.values来查看df到底有哪些字段：

print(df.columns.values)

.在操作DataFrame的过程中丢掉了id字段的header，却没发现该字段已丢失。

例如：

df=df[df['id']!='null']#取得id字段不为null的行
df=df['id']#赋值后df为Series，表示df在id列的值，而不再是一个DataFrame,于是丢掉了id的头，此时若再使用df['id']将报错。

取列的值，与取列的区别：

df=df['id']#取id列的值，赋值后df为Series类型，可用print(type(df))来查看其类型
df=df[['id']]#只取df的id列作为一个新的DataFrame，赋值后df仍然是一个DataFrame
df=df[['id','age']]#取df的id和age列作为一个新的DataFrame，赋值后df仍然是一个DataFrame

过滤行

df=df[df['id']!='null']#过滤掉id字段取值为'null'的行

注意，此处的'null'是一个字符串，若df中某行id字段的值不是字符串型，或者为空，将报TypeError：invalid type comparison错，因为只有相同类型的值才能进行比较。

解决办法：如果不能保证id列都是string类型，则需要去掉该过滤条件。

补充知识：pandas 使用read_csv读取文件时产生错误：EOF inside string starting at line

解决方法：使用参数 quoting

df = pd.read_csv(csvfile, header = None, delimiter="\t", quoting=csv.QUOTE_NONE, encoding='utf-8')

以上这篇Pandas之read_csv()读取文件跳过报错行的解决就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

Pandas,read_csv,读取文件,报错行

华山资源网 Design By www.eoogi.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

华山资源网 Design By www.eoogi.com

评论“Pandas之read_csv()读取文件跳过报错行的解决”

暂无评论...

www.eoogi.com 华山资源网

120,135影音资源

344,641技术资源

22,817软件资源

435,032站长资源

最新文章

陈秋霞.1977-温馨在我心（LP版）【歌林】【WA

2024/9/21

张秀卿.2019-感情骗子【豪记】【WAV+CUE】

2024/9/21

林隆璇.1993-收藏昨日【福茂】【WAV+CUE】

2024/9/21

魔兽世界wlk德拉诺金钻如何获得 wlk德拉诺金

2024/9/21

魔兽世界wlk祖阿曼战熊如何获得 wlk祖阿曼战

2024/9/21

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/9/21

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。

首次推出的GDDR7内存模块密度为16GB，每个模块容量为2GB。其速度预设为32 Gbps（PAM3），但也可以降至28 Gbps，以提高产量和初始阶段的整体性能和成本效益。
据三星表示，GDDR7内存的能效将提高20%，同时工作电压仅为1.1V，低于标准的1.2V。通过采用更新的封装材料和优化的电路设计，使得在高速运行时的发热量降低，GDDR7的热阻比GDDR6降低了70%。

更新日志

2024年09月21日

Pandas之read_csv()读取文件跳过报错行的解决

python 一维二维插值实例

Numpy一维线性插值函数的用法

评论“Pandas之read_csv()读取文件跳过报错行的解决”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

Pandas之read_csv()读取文件跳过报错行的解决

python 一维二维插值实例

Numpy一维线性插值函数的用法

评论“Pandas之read_csv()读取文件跳过报错行的解决”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存