pandas DataFrame创建方法的方式

脚本专栏 2024/11/17 佚名

3 1 2

在pandas里，DataFrame是最经常用的数据结构，这里总结生成和添加数据的方法：

①、把其他格式的数据整理到DataFrame中；
②在已有的DataFrame中插入N列或者N行。

1. 字典类型读取到DataFrame（dict to DataFrame）

假如我们在做实验的时候得到的数据是dict类型，为了方便之后的数据统计和计算，我们想把它转换为DataFrame，存在很多写法，这里简单介绍常用的几种：

方法一：直接使用pd.DataFrame(data=test_dict)即可,括号中的data=写不写都可以，具体如下：

test_dict = {'id':[1,2,3,4,5,6],'name':['Alice','Bob','Cindy','Eric','Helen','Grace '],'math':[90,89,99,78,97,93],'english':[89,94,80,94,94,90]}
#[1].直接写入参数test_dict
test_dict_df = pd.DataFrame(test_dict)
#[2].字典型赋值
test_dict_df = pd.DataFrame(data=test_dict)

那么，我们就得到了一个DataFrame，如下：

应该就是这个样子了。

方法二：使用from_dict方法：

test_dict_df = pd.DataFrame.from_dict(test_dict)

结果是一样的，不再重复贴图。

其他方法：如果你的dict变量很小，例如{'id':1,'name':'Alice'},你想直接写到括号里：

test_dict_df = pd.DataFrame({'id':1,'name':'Alice'}) # wrong style

这样是不行的，会报错ValueError: If using all scalar values, you must pass an index,是因为如果你提供的是一个标量，必须还得提供一个索引Index，所以你可以这么写：

test_dict_df = pd.DataFrame({'id':1,'name':'Alice'},pd.Index(range(1)))

后面的可以写多个pd.Index(range(3)，就会生成三行一样的，是因为前面的dict型变量只有一组值，如果有多个，后面的Index必须跟前面的数据组数一致，否则会报错：

pd.DataFrame({'id':[1,2],'name':['Alice','Bob']},pd.Index(range(2))) #must be 2 in range function.

关于选择列，有些时候我们只需要选择dict中部分的键当做DataFrame的列，那么我们可以使用columns参数，例如我们只选择'id'，'name'列：

test_dict_df = pd.DataFrame(data=test_dict,columns=['id','name']) #only choose 'id' and 'name' columns

这里就不在多写了，后续变更颜色添加内容。

2. csv文件构建DataFrame（csv to DataFrame）

我们实验的时候数据一般比较大，而csv文件是文本格式的数据，占用更少的存储，所以一般数据来源是csv文件，从csv文件中如何构建DataFrame呢？ txt文件一般也能用这种方法。

方法一：最常用的应该就是pd.read_csv('filename.csv')了，用 sep指定数据的分割方式，默认的是','

df = pd.read_csv('./xxx.csv')

如果csv中没有表头，就要加入head参数

3. 在已有的DataFrame中，增加N列或者N行

加入我们已经有了一个DataFrame，如下图:

3.1 添加列

此时我们又有一门新的课physics，我们需要为每个人添加这门课的分数，按照Index的顺序，我们可以使用insert方法，如下：

new_columns = [92,94,89,77,87,91]
test_dict_df.insert(2,'pyhsics',new_columns)
#test_dict_df.insert(2,'pyhsics',new_columns,allow_duplicates=True)

此时，就得到了添加好的DataFrame，需要注意的是DataFrame默认不允许添加重复的列，但是在insert函数中有参数allow_duplicates=True，设置为True后，就可以添加重复的列了，列名也是重复的：

3.2 添加行

此时我们又来了一位新的同学Iric，需要在DataFrame中添加这个同学的信息，我们可以使用loc方法：

new_line = [7,'Iric',99]
test_dict_df.loc[6]= new_line

但是十分注意的是，这样实际是改的操作，如果loc[index]中的index已经存在，则新的值会覆盖之前的值。

当然也可以把这些新的数据构建为一个新的DataFrame，然后两个DataFrame拼起来。可以用append方法，不过不太会用，提供一种方法：

test_dict_df.append(pd.DataFrame([new_line],columns=['id','name','physics']))

本想一口气把CURD全写完，没想到写到这里就好累。。。其他后续新开篇章在写吧。

相关代码：（https://github.com/dataSnail/blogCode/blob/master/python_curd/python_curd_create.ipynb）（在DataFrame中删除N列或者N行）（在DataFrame中查询某N列或者某N行）（在DataFrame中修改数据）

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

pandas,DataFrame的创建方法

华山资源网 Design By www.eoogi.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

华山资源网 Design By www.eoogi.com

评论“pandas DataFrame创建方法的方式”

暂无评论...

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

暴雪近日发布了《魔兽世界》10.2.6 更新内容，新游玩模式《强袭风暴》即将于3月21 日在亚服上线，届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。

艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕，并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时，他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中，玩家将会进入一个全新的海盗主题大逃杀式限时活动，其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场，作为一个独立于主游戏之外的活动，玩家可以用大逃杀的风格来体验《魔兽世界》，不分职业、不分装备（除了你在赛局中捡到的），光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式，玩家在加入海盗主题的预赛大厅区域前，可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹，《巨龙崛起》和《魔兽世界：巫妖王之怒经典版》的玩家都可以获得奖励。

更新日志

2024年11月17日

pandas DataFrame创建方法的方式

python匿名函数用法实例分析

pycharm编写spark程序，导入pyspark包的3中实现方法

评论“pandas DataFrame创建方法的方式”

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

更新日志

友情链接