Tensorflow 实现分批量读取数据

脚本专栏 2024/9/28 佚名

3 1 2

之前的博客里使用tf读取数据都是每次fetch一条记录，实际上大部分时候需要fetch到一个batch的小批量数据，在tf中这一操作的明显变化就是tensor的rank发生了变化，我目前使用的人脸数据集是灰度图像，因此大小是92*112的，所以最开始fetch拿到的图像数据集经过reshape之后就是一个rank为2的tensor，大小是92*112的（如果考虑通道，也可以reshape为rank为3的，即92*112*1）。

如果加入batch，比如batch大小为5，那么拿到的tensor的rank就变成了3，大小为5*92*112。

下面规则化的写一下读取数据的一般流程，按照官网的实例，一般把读取数据拆分成两个大部分，一个是函数专门负责读取数据和解码数据，一个函数则负责生产batch。

import tensorflow as tf

def read_data(fileNameQue):

 reader = tf.TFRecordReader()
 key, value = reader.read(fileNameQue)
 features = tf.parse_single_example(value, features={'label': tf.FixedLenFeature([], tf.int64),
              'img': tf.FixedLenFeature([], tf.string),})
 img = tf.decode_raw(features["img"], tf.uint8)
 img = tf.reshape(img, [92,112]) # 恢复图像原始大小
 label = tf.cast(features["label"], tf.int32)

 return img, label

def batch_input(filename, batchSize):

 fileNameQue = tf.train.string_input_producer([filename], shuffle=True)
 img, label = read_data(fileNameQue) # fetch图像和label
 min_after_dequeue = 1000
 capacity = min_after_dequeue+3*batchSize
 # 预取图像和label并随机打乱，组成batch，此时tensor rank发生了变化，多了一个batch大小的维度
 exampleBatch,labelBatch = tf.train.shuffle_batch([img, label],batch_size=batchSize, capacity=capacity,
              min_after_dequeue=min_after_dequeue)
 return exampleBatch,labelBatch

if __name__ == "__main__":

 init = tf.initialize_all_variables()
 exampleBatch, labelBatch = batch_input("./data/faceTF.tfrecords", batchSize=10)

 with tf.Session() as sess:

  sess.run(init)
  coord = tf.train.Coordinator()
  threads = tf.train.start_queue_runners(coord=coord)

  for i in range(100):
   example, label = sess.run([exampleBatch, labelBatch])
   print(example.shape)

  coord.request_stop()
  coord.join(threads)

读取数据和解码数据与之前基本相同，针对不同格式数据集使用不同阅读器和解码器即可，后面是产生batch，核心是tf.train.shuffle_batch这个函数，它相当于一个蓄水池的功能，第一个参数代表蓄水池的入水口，也就是逐个读取到的记录，batch_size自然就是batch的大小了，capacity是蓄水池的容量，表示能容纳多少个样本，min_after_dequeue是指出队操作后还可以供随机采样出批量数据的样本池大小，显然，capacity要大于min_after_dequeue，官网推荐：min_after_dequeue + (num_threads + a small safety margin) * batch_size,还有一个参数就是num_threads，表示所用线程数目。

min_after_dequeue这个值越大，随机采样的效果越好，但是消耗的内存也越大。

以上这篇Tensorflow 实现分批量读取数据就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

Tensorflow,读取,数据

华山资源网 Design By www.eoogi.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

华山资源网 Design By www.eoogi.com

评论“Tensorflow 实现分批量读取数据”

暂无评论...

www.eoogi.com 华山资源网

120,135影音资源

344,641技术资源

22,817软件资源

435,032站长资源

最新文章

李国祥.1995-九五变奏【嘉音】【WAV+CUE】

2024/9/28

许景淳.1992-你来自何方【全美唱片】【WAV+

2024/9/28

石欣卉.2007-剧欣卉集·完整电视剧主题精丫华

2024/9/28

群星.2005-LOVE情歌集VOL.5.2CD【正东】【W

2024/9/28

孙悦.1996-伙伴【正大国际】【ＷAV+CUE】

2024/9/28

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/9/28

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。

首次推出的GDDR7内存模块密度为16GB，每个模块容量为2GB。其速度预设为32 Gbps（PAM3），但也可以降至28 Gbps，以提高产量和初始阶段的整体性能和成本效益。
据三星表示，GDDR7内存的能效将提高20%，同时工作电压仅为1.1V，低于标准的1.2V。通过采用更新的封装材料和优化的电路设计，使得在高速运行时的发热量降低，GDDR7的热阻比GDDR6降低了70%。

更新日志

2024年09月28日

Tensorflow 实现分批量读取数据

将tensorflow.Variable中的某些元素取出组成一个新的矩阵示例

tensorflow实现tensor中满足某一条件的数值取出组成新的tensor

评论“Tensorflow 实现分批量读取数据”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

Tensorflow 实现分批量读取数据

将tensorflow.Variable中的某些元素取出组成一个新的矩阵示例

tensorflow实现tensor中满足某一条件的数值取出组成新的tensor

评论“Tensorflow 实现分批量读取数据”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存