文章詳情頁(yè)

SparkSQL使用IDEA快速入門(mén)DataFrame與DataSet的完美教程

瀏覽：178日期：2024-07-12 15:04:25

目錄1.使用IDEA開(kāi)發(fā)Spark SQL1.1創(chuàng)建DataFrame/DataSet1.1.1指定列名添加Schema1.1.2StructType指定Schema1.1.3反射推斷Schema1.使用IDEA開(kāi)發(fā)Spark SQL1.1創(chuàng)建DataFrame/DataSet

1、指定列名添加Schema

2、通過(guò)StrucType指定Schema

3、編寫(xiě)樣例類(lèi)，利用反射機(jī)制推斷Schema

1.1.1指定列名添加Schema

//導(dǎo)包import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSession//代碼// 1.創(chuàng)建SparkSession val spark = SparkSession.builder().master('local[*]').appName('sql').getOrCreate()// 2.使用spark 獲取sparkContext 上下文對(duì)象 val sc = spark.sparkContext// 3.使用SparkContext 讀取文件并按照空格切分返回RDD val rowRDD: RDD[(Int, String, Int)] = sc.textFile('./data/person.txt').map(_.split(' ')).map(x=>(x(0).toInt,x(1),x(2).toInt))// 4.導(dǎo)入隱式類(lèi) import spark.implicits._//5.將RDD 轉(zhuǎn)換為DataFrame 指定元數(shù)據(jù)信息 val dataFrame = rowRDD.toDF('id','name','age')//6.數(shù)據(jù)展示 dataFrame.show()1.1.2StructType指定Schema

//導(dǎo)包import org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}//編寫(xiě)代碼//1.實(shí)例SparkSession val spark = SparkSession.builder().master('local[*]').appName('sql').getOrCreate()//2.根據(jù)SparkSession獲取SparkContext 上下文對(duì)象 val sc = spark.sparkContext// 3.使用SparkContext讀取文件并按照空開(kāi)切分并返回元組 val rowRDD = sc.textFile('./data/person.txt').map(_.split(' ')).map(x=>Row(x(0).toInt,x(1),x(2).toInt))// 4.導(dǎo)入隱式類(lèi) import spark.implicits._//5.使用StructType 添加元數(shù)據(jù)信息 val schema = StructType(List( StructField('id', IntegerType, true), StructField('name', StringType, true), StructField('age', IntegerType, true) ))//6.將數(shù)據(jù)與元數(shù)據(jù)進(jìn)行拼接返回一個(gè)DataFrame val dataDF = spark.createDataFrame(rowRDD,schema)//7.數(shù)據(jù)展示 dataDF.show()1.1.3反射推斷Schema

//導(dǎo)包import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSession//定義單例對(duì)象 case class Person(Id:Int,name:String,age:Int)//編寫(xiě)代碼//1.實(shí)例sparkSession val spark = SparkSession.builder().master('local[*]').appName('sql').getOrCreate()//2.通過(guò)sparkSession獲取sparkContext 上下文對(duì)象 val sc = spark.sparkContext//3.通過(guò)sparkContext 讀取文件并按照空格切分將每一個(gè)數(shù)據(jù)保存到person中 val rowRDD: RDD[Person] = sc.textFile('./data/person.txt').map(_.split(' ')).map(x=>Person(x(0).toInt,x(1),x(2).toInt))// 4.導(dǎo)入隱式類(lèi) import spark.implicits._//5.將rowRDD轉(zhuǎn)換為dataFrame val dataFrame = rowRDD.toDF() //6.數(shù)據(jù)展示 dataFrame.show()

到此這篇關(guān)于SparkSQL使用IDEA快速入門(mén)DataFrame與DataSet的文章就介紹到這了,更多相關(guān)SparkSQL快速入門(mén)內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

IDEA

上一條：IDEA中Services欄不顯示的解決方案小結(jié)下一條：IDEA 開(kāi)發(fā)配置SparkSQL及簡(jiǎn)單使用案例代碼

相關(guān)文章：

1. Android 通過(guò)cmake的方式接入opencv的方法步驟2. IDEA設(shè)置編碼背景色的方法3. ASP.NET MVC視圖頁(yè)使用jQuery傳遞異步數(shù)據(jù)的幾種方式詳解4. 一個(gè)用xslt樣式將xml解析為xhtml的類(lèi)TransformBinder（兼容FF和IE7.0）5. IntelliJ IDEA 2020最新激活碼(親測(cè)有效，可激活至 2089 年)6. idea配置jdk的操作方法7. Docker究竟是什么為什么這么流行它的優(yōu)點(diǎn)和缺陷有哪些？8. Spring MVC 開(kāi)發(fā)快速入門(mén)9. PHP設(shè)計(jì)模式（七）組合模式Composite實(shí)例詳解【結(jié)構(gòu)型】10. ASP.NET MVC增加一條記錄同時(shí)添加N條集合屬性所對(duì)應(yīng)的個(gè)體

排行榜

					
					ASP.NET MVC視圖頁(yè)使用jQuery傳遞異步數(shù)據(jù)的幾種方式詳解
IntelliJ IDEA設(shè)置默認(rèn)瀏覽器的方法
idea打開(kāi)多個(gè)窗口的操作方法
IntelliJ IDEA調(diào)整字體大小的方法
idea配置jdk的操作方法
IntelliJ IDEA 2020最新激活碼(親測(cè)有效，可激活至 2089 年)
idea給項(xiàng)目打war包的方法步驟
IDEA設(shè)置編碼背景色的方法
ASP.NET MVC增加一條記錄同時(shí)添加N條集合屬性所對(duì)應(yīng)的個(gè)體
IntelliJ IDEA導(dǎo)出項(xiàng)目的方法
IntelliJ IDEA導(dǎo)入jar包的方法
				

久久福利_99r_国产日韩在线视频_直接看av的网站_中文欧美日韩_久久一

SparkSQL使用IDEA快速入門(mén)DataFrame與DataSet的完美教程