1、DataFrame返回的不是对象。
2、DataFrame查出来的数据返回的是一个dataframe数据集。
3、DataFrame只有遇见Action的算子才能执行
4、SparkSql查出来的数据返回的是一个dataframe数据集。
原始数据
scala> val parquetDF = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet/part-r-00004.gz.parquet") df: org.apache.spark.sql.DataFrame = [timestamp: string, appkey: string, app_version: string, channel: string, lang: string, os_type: string, os_version: string, display: string, device_type: string, mac: string, network: string, nettype: string, suuid: string, register_days: int, country: string, area: string, province: string, city: string, event: string, use_interval_cat: string, use_duration_cat: string, use_interval: bigint, use_duration: bigint, os_upgrade_from: string, app_upgrade_from: string, page_name: string, event_name: string, error_type: string]
代码
package DataFrame import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * Created by yuhui on 2016/6/14. */ object DataFrameTest { def main(args: Array[String]) { DataFrameInto() } def DataFrameInto() { val conf = new SparkConf() val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc) val df = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet") //df.map(line => printinfo(line.getString(0))) //df.foreach(line => printinfo(line.getString(0)+" , "+line.getString(14)+" , "+line.getString(15))) //df.select("timestamp","country","area").foreach(line=>printinfo(line.toString)) df.registerTempTable("infotable") sqlContext.sql("SELECT timestamp , country , area from infotable").foreach(line=>printinfo(line.toString)) } def printinfo(msg: String) {println("printinfo函数-->" + msg) } }
代码解析
1、df.map(line => printinfo(line.getString(0)))
这段代码不行执行printinfo()函数,因为只有map算子,没有Action算子。
2、df.foreach(line => printinfo(line.getString(0)+" , "+line.getString(14)+" , "+line.getString(15)))
通过Spark的Action算子接收数据进行操作,执行结果如下:
3、df.select("timestamp","country","area").foreach(line=>printinfo(line.toString))
通过DataFrame的API进行操作,再通过Spark的Action算子打印出来,执行结果如下:
4、sqlContext.sql("SELECT timestamp , country , area from infotable").foreach(line=>printinfo(line.toString))
执行结果如下:
以上这篇浅谈DataFrame和SparkSql取值误区就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
稳了!魔兽国服回归的3条重磅消息!官宣时间再确认!
昨天有一位朋友在大神群里分享,自己亚服账号被封号之后居然弹出了国服的封号信息对话框。
这里面让他访问的是一个国服的战网网址,com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后,确实是网易的网址,也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情,因为以前都没有出现这样的情况,现在突然提示跳转到国服战网的网址,是不是说明了简体中文客户端已经开始进行更新了呢?
更新日志
- 670《脆弱敏感小女生》[320K/MP3][27.53MB]
- 曾琳.2011-好好爱我【南方】【WAV+CUE】
- 范晓萱.1995-RAIN【福茂】【WAV+CUE】
- 群星.2021-一生一世电视剧原声带【韶愔音乐】【FLAC分轨】
- [试音碟]iFiQuadDSDSamplerAlbum[24-44,1]WAV
- 姚璎格《发烧女中音音响人声示范碟[紫银合金SQCD]》[正版CD低速原抓WAV+CUE]
- 群星《烈火青春》1988[WAV+CUE]
- 蓝心湄.2000-你开心了湄2CD【SONY】【WAV+CUE】
- 谭咏麟.1989-像我这样的朋友【宝丽金】【WAV+CUE】
- 罗文.2022-大地留着的记号·纪念罗文辞别廿载3CD【环球】【WAV+CUE】
- 670《脆弱敏感小女生》[FLAC/分轨][78.47MB]
- 时代少年团《「叁重楼」演唱会 -「楼间楼」重庆站LIVE》[320K/MP3][278.08MB]
- 时代少年团《「叁重楼」演唱会 -「楼间楼」重庆站LIVE》[FLAC/分轨][820.86MB]
- 许廷铿2017《THEULTIMATECOLLECTION》2CD[星梦娱乐][WAV+CUE]
- 许佳慧-独家情话[WAV+CUE]