深入了解SparkSQL的运用及方法

网友投稿 526 2022-08-17

深入了解SparkSQL的运用及方法

目录一：SparkSQL1.SparkSQL简介2.SparkSQL运行原理3.SparkSQL特点二、SparkSQL运用

一：SparkSQL

1.SparkSQL简介

Spark SQL是Spark的一个模块，用于处理结构化的数据，它提供了一个数据抽象DataFrame（最核心的编程抽象就是DataFrame），并且SparkSQL作为分布式SQL查询引擎。Spark SQL就是将SQL转换成一个任务，提交到集群上运行，类似于Hive的执行方式。

2.SparkSQL运行原理

将Spark SQL转化为RDD，然后提交到集群执行。

3.SparkSQL特点

（1）容易整合，Spark SQL已经集成在Spark中

（2）提供了统一的数据访问方式：jsON、CSV、JDBC、Parquet等都是使用统一的方式进行访问

（3）兼容 Hive

（4）标准的数据连接：JDBC、ODBC

二、SparkSQL运用

package sql

import org.apache.avro.ipc.specific.Person

import org.apache.spark

import org.apache.spark.rdd.RDD

import org.apache.spark.sql

import org.apache.spark.sql.catalyst.InternalRow

import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

import org.junit.Test

class Intro {

@Test

def dsIntro(): Unit ={

val spark: SparkSession = new sql.SparkSession.Builder()

.appName("ds intro")

.master("local[6]")

.getOrCreate()

//导入隐算是shi转换

import spark.implicits._

val sourceRDD: RDD[Person] =spark.sparkContext.parallelize(Seq(Person("张三",10),Person("李四",15)))

val personDS: Dataset[Person] =sourceRDD.toDS();

//personDS.printSchema()打印出错信息

val resultDS: Dataset[Person] =personDS.where('age>10)

.select('name,'age)

.as[Person]

resultDS.show()

}

@Test

def dfIntro(): Unit ={

val spark: SparkSession =new SparkSession.Builder()

.appName("ds intro")

.master("local")

.getOrCreate()

import spark.implicits._

val sourceRDD: RDD[Person] = spark.sparkContext.parallelize(Seq(Person("张三",10),Person("李四",15)))

val df: DataFrame = sourceRDD.toDF()//隐shi转换

df.createOrReplaceTempView("person")//创建表

val resultDF: DataFrame =spark.sql("select name from person where age>=10 and age<=20")

resultDF.show()

}

@Test

def database1(): Unit ={

//1.创建sparkSession

val spark: SparkSession =new SparkSession.Builder()

.appName("database1")

.master("local[6]")

.getOrCreate()

//2.导入引入shi子转换

import spark.implicits._

//3.演示

val sourceRDD: RDD[Person] =spark.sparkContext.parallelize(Seq(Person("张三",10),Person("李四",15)))

val dataset: Dataset[Person] =sourceRDD.toDS()

//Dataset 支持强类型的API

dataset.filter(item => item.age >10).show()

//Dataset 支持若弱类型的API

dataset.filter('age>10).show()

//Dataset 可以直接编写SQL表达式

dataset.filter("age>10").show()

}

@Test

def database2(): Unit ={

val spark: SparkSession = new SparkSession.Builder()

.master("local[6]")

.appName("database2")

.getOrCreate()

import spark.implicits._

val dataset: Dataset[Person] =spark.createDataset(Seq(Person("张三",10),Person("李四",20)))

//无论Dataset中放置的是什么类型的对象,最终执行计划中的RDD上都是internalRow

//直接获取到已经分析和解析过得Dataset的执行计划,从中拿到RDD

val executionRdd: RDD[InternalRow] =dataset.queryExecution.toRdd

//通过将Dataset底层的RDD通过Decoder转成了和Dataset一样的类型RDD

val typedRdd:RDD[Person] = dataset.rdd

println(executionRdd.toDebugString)

println()

println(typedRdd.toDebugString)

}

@Test

def database3(): Unit = {

//1.创建sparkSession

val spark: SparkSession = new SparkSession.Builder()

.appName("database1")

.master("local[6]")

.getOrCreate()

//2.导入引入shi子转换

import spark.implicits._

val dataFrame: DataFrame = Seq(Person("zhangsan", 15), Person("lisi", 20)).toDF()

//3.看看DataFrame可以玩出什么花样

//select name from...

dataFrame.where('age > 10)

.select('name)

.show()

}

// @Test

// def database4(): Unit = {

// //1.创建sparkSession

// val spark: SparkSession = new SparkSession.Builder()

// .appName("database1")

// .master("local[6]")

// .getOrCreate()

// //2.导入引入shi子转换

// import spark.implicits._

// valhttp:// personList=Seq(Person("zhangsan",15),Person("lisi",20))

// //1.toDF

// val df1: DataFrame =personList.toDF()

// val df2: DataFrame =spark.sparkContext.parallelize(personList).toDF()

// //2.createDataFrame

// val df3: DataFrame =spark.createDataFrame(personList)

// //3.read

// val df4: DataFrame =spark.read.csv("")

// df4.show()

// }

//toDF()是转成DataFrame,toDs是转成Dataset

// DataFrame就是Dataset[Row] 代表弱类型的操作,Dataset代表强类型的操作,中的类型永远是row,DataFrame可以做到运行时类型安全,Dataset可以做到编译时和运行时都安全

@Test

def database4(): Unit = {

//1.创建sparkSession

val spark: SparkSession = new SparkSession.Builder()

.appName("database1")

.master("local[6]")

.getOrCreate()

//2.导入引入shi子转换

http://import spark.implicits._

val personList=Seq(Person("zhangsan",15),Person("lisi",20))

//DataFrame代表弱类型操作是编译时不安全

val df: DataFrame =personList.toDF()

//Dataset是强类型的

val ds: Dataset[Person] =personList.toDS()

ds.map((person:Person) =>Person(person.name,person.age))

}

@Test

def row(): Unit ={

//1.Row如何创建,它是什么

//row对象必须配合Schema对象才会有列名

val p: Person =Person("zhangsan",15)

vabSpGwXYXl row: Row =Row("zhangsan",15)

//2.如何从row中获取数据

row.getString(0)

row.getInt(1)

//3.Row也是样例类、

row match {

case Row(name,age) => println(name,age)

}

case class Person(name: String, age: Int)

标签：Person spark val

暂时没有评论，来抢沙发吧~

深入了解SparkSQL的运用及方法

Java十分钟精通反射机制原理

Java的反射机制一起来看看

Java实现二分搜索树的示例代码

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路

深入了解SparkSQL的运用及方法

微信扫一扫：分享

推荐文章

最近发表

热评文章