python中struct模块之字节型数据的处理方法

脚本专栏 2024/11/17 佚名

3 1 2

简介

这个模块处理python中常见类型数据和Python bytes之间转换。这可用于处理存储在文件或网络连接中的bytes数据以及其他来源。在python中没有专门处理字节的数据类型，建立字节型数据也比较麻烦，我们知道的bytes()函数也只能对无符号整型做处理，并且数据如下（没错，数字为多少就有多少个\x00，我们要是用这种方式来存储大量数据，结果可想而知）：

va = bytes(1) # va: '\x00'
vb = bytes(2) # vb: '\x00\x00'
vc = bytes(5) # vc: '\x00\x00\x00\x00\x00'

但在python中str类型中既可以用字符串表示也可以以字节方式表示，所以你定义一个字节型的字符串常量，python是能处理它的：

va = '\x26' # va: '&'

struct处理

字节顺序

一个数据有多个字节表示的时候，字节的顺序不同也就决定了值，在struct中有以下几种字节顺序：

字符字节顺序尺寸对齐方式 @ 本机本机本机 = 本机标准无 < 小端标准无 > 大端标准无！网络标准无

对于字节顺序，只有大端和小端两种方式，只是比如你用@和=代表你用本机的字节顺序，！代表你使用网络的字节顺序。你不指定字节顺序则默认的是@。

本地字节顺序是大端或小端，取决于主机系统。例如，Intel x86和AMD64（x86-64）是小端的; 摩托罗拉68000和PowerPC G5是大端; ARM和Intel Itanium具有可切换的字节序（双字节序）。使用sys.byteorder来检查你的系统的字节顺序。

数据格式

struct支持的打包解包的数据格式如下，我们需要指定格式才能对应处理，其中对应尺寸已列出（以字节为单位）：

字符 C类型 python类型标准尺寸 x 填充字节没有意义的值 c char 长度为1的字节 1 b signed char 整型 1 B unsigned char 整型 1 ？ _Bool 布尔 1 h short 整型 2 H unsigned short 整型 2 i int 整型 4 I unsigned int 整型 4 l long 整型 4 L unsigned long 整型 4 q long long 整型 8 Q unsigned long long 整型 8 n ssize_t 整型 N size_t 整型 e 浮动 2 f float 浮动 4 d double 浮动 8 s char[] 字节 p char[] 字节 P void * 整型

打包

通过struct的pack(fmt, *args)来实现对各种数据的打包（转换为对应字节数据），pack的需要传递的参数fmt就是数据的格式，包括了字节顺序、数据类型；后面的*args参数是需要打包的数据。

vaa = struct.pack('>I', 1255) # vaa: '\x00\x00\x04\xe7' 1*4=1个字节 vab = struct.pack('>II', 1255, 23) # vab: '\x00\x00\x04\xe7\x00\x00\x00\x17' 2*4=8个字节 vac = struct.pack('>2I"htmlcode">

vaa = struct.pack('>I', 1255) # vaa: '\x00\x00\x04\xe7'
vab = struct.pack('>II', 1255, 23) # vab: '\x00\x00\x04\xe7\x00\x00\x00\x17'
vaaa = struct.unpack('>I', vaa) # vaaa: <class 'tuple'>: (1255, )
vaba = struct.unpack('>II', vab) # vaba: <class 'tuple'>: (1255, 23)

进阶使用

pack_into(fmt, buffer, offset, *args)

fmt参数和pack是一样的，buffer参数是可写的缓存区，offset是写入位置的偏移量，*args是需要写入的数据。这个有什么用呢，我们想想这样两个情况，我们有两个类型已经打包好，我们想在这两个已经打包好的数据后面再添加一个数据打包；或者我们要打包的数据很多，我们不可能在pack中把所有需要打包的数据都通过参数传递给pack，那你的pack函数可能得写成千上完个参数了。这时候我们就可以用到这个函数了。

要使用它必须要一个可以写入的缓存区，我们可以导入一个字符缓存区包，然后创建一个固定大小的缓存区（以字节为单位）：

import struct
from ctypes import create_string_buffer

# 创建一个9字节大小的缓存区，初始化默认全部为\x00 
buf = create_string_buffer(9) # buf.raw: '\x00\x00\x00\x00\x00\x00\x00\x00\x00'

# 冲缓存区buf的第0个字节开始打包两个4字节无符号整型数据1和2
struct.pack_into(">II", buf, 0, 1, 2) # buf.raw: '\x00\x00\x00\x01\x00\x00\x00\x02\x00'
# 然后我们想再打包一个布尔型数据到buf中就可以改变以下偏移量
struct.pack_into(">", buf, 8, True) # buf.raw: '\x00\x00\x00\x01\x00\x00\x00\x02\x01'

unpack_from(fmt, buffer, offset)和calcsize(fmt)结合解包数据

calcsize用于计算格式字符串所对应的结果的长度，如：struct.calcsize(‘II')，返回8。因为两个无符号整型所占用的长度是8个字节。unpack_from(fmt, buffer, offset)用于从buffer缓存区中使用fmt格式从offset偏移量处开始解包fmt里对应数量的数据。

import struct
from ctypes import create_string_buffer

buf = create_string_buffer(9)
struct.pack_into(">II", buf, 0, 1, 2)
struct.pack_into(">", buf, 8, True)
# 记录位置
pos = 0
# 从buf缓存区中以大端方式从偏移位置pos处解包两个无符号整型数据返回，注意
#返回值如果只写一个则返回一个元组，否则你解包几个数据就要写几个返回值。
val = struct.unpack_from('>II', buf, pos) # val: <class 'tuple'>: (1, 2)
val_a, val_b = struct.unpack_from('>II', buf, pos) # val_a: 1 val_b: 2

# 重置解包位置
pos += struct.calcsize('>II') # pos: 8
val_c, = struct.unpack_from('>"htmlcode">

import struct
import os
import numpy as np
from ctypes import create_string_buffer
import cv2

# 创建一个60000 * 784 * 1 + 3 * 4字节大小的缓存区，初始化默认全部为\x00
buffer = create_string_buffer(60000 * 784 * 1 + 3 * 4)
def writeBytesData():
 index = 0
 BMP_NUM = 0
 BMP_WIDTH = 28
 BMP_HEIGHT = 28

 # 先保留三个无符号整型的缓存区
 index += struct.calcsize('>III')
 path = 'data/bmp'
 if not os.path.exists(path):
  print('No this dir!')
  return
 list = os.listdir(path)
 for line_bmp in list:
  bmp_path = os.path.join(path, line_bmp)
  if os.path.isdir(bmp_path):
   print('This is not a .bmp')
  else:
   BMP_NUM += 1
   print(BMP_NUM)
   buf = cv2.imread(bmp_path, cv2.IMREAD_GRAYSCALE)
   buf = np.reshape(buf, [784])
   for pos in range(buf.__len__()):
    struct.pack_into('>B', buffer, index, buf[pos])
    index += struct.calcsize('>B')

 # 将保留缓存区的内容填上
 struct.pack_into('>III', buffer, 0, BMP_NUM, BMP_WIDTH, BMP_HEIGHT)
 with open('data/bytes/bytes.bytes', 'wb') as fp:
  fp.write(buffer)


def readFromBytes():
 index = 0
 images = []
 with open('data/bytes/bytes.bytes', 'rb') as fp:
  buffer = fp.read()
  # 解包前三个无符号整型
  bmp_num, bmp_width, bmp_height = struct.unpack_from('>III', buffer, index)

  # 重定位偏移量
  index += struct.calcsize('>III')
  for pos in range(bmp_num):
   img = struct.unpack_from('>784B', buffer, index)
   index += struct.calcsize('>784B')
   # 修改为原来的图片形状
   img = np.array(img, dtype=np.uint8)
   img = np.reshape(img, [bmp_height, bmp_width])
   # 显示图片
   cv2.imshow('bmp', img)
   # 按任意键继续
   cv2.waitKey(0)
   images.append(img)
 return images


writeBytesData()
readFromBytes()



在写入bytes文件的时候有点慢，由于有60000张图片每张要写28 * 28个字节，其中目录结构如下，需要图片的可以去我的下载区下载mnist图片数据集：


bytes.py
data
 bmp
  1.bmp
  2.bmp
  ...
  60000.bmp
 bytes


以上这篇python中struct模块之字节型数据的处理方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

python,struct模块,字节型数据

华山资源网 Design By www.eoogi.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

华山资源网 Design By www.eoogi.com

评论“python中struct模块之字节型数据的处理方法”

暂无评论...

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

暴雪近日发布了《魔兽世界》10.2.6 更新内容，新游玩模式《强袭风暴》即将于3月21 日在亚服上线，届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。

艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕，并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时，他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中，玩家将会进入一个全新的海盗主题大逃杀式限时活动，其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场，作为一个独立于主游戏之外的活动，玩家可以用大逃杀的风格来体验《魔兽世界》，不分职业、不分装备（除了你在赛局中捡到的），光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式，玩家在加入海盗主题的预赛大厅区域前，可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹，《巨龙崛起》和《魔兽世界：巫妖王之怒经典版》的玩家都可以获得奖励。

更新日志

2024年11月17日

python中struct模块之字节型数据的处理方法

Python3分析处理声音数据的例子

Python的bit_length函数来二进制的位数方法

评论“python中struct模块之字节型数据的处理方法”

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

更新日志

友情链接