JAVA spark创建DataFrame的方法-eolink官网

JAVA spark创建DataFrame的方法

述说正传，接下来开始说正事。

以前用python和Scala操作Spark的时候比较多，毕竟Python和Scala代码写起来要简洁很多。

今天一起来看看java版本怎么创建DataFrame，代码写起来其实差不多，毕竟公用同一套API。测试数据可以参考我之前的文章。

先来总结下Spark的一般流程：

1，先创建Spark基础变量，spark，sc

2，加载数据，rdd.textFile，spark.read.csv/json等

3，数据处理，mapPartition, map，filter，reduce等一系列transformation操作

4，数据保存，saveAstextFile，或者其他DataFrame方法

祭出代码

package dev.java;

import dev.utils.Utils;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.RowFactory;

import org.apache.spark.sql.SparkSession;

import org.apache.spark.sql.types.StructType;

import scala.Tuple2;

import java.util.List;

public class Spark1 {

private static final String fileData = "seed";

private static final String fileSave = "result";

private static SparkSession spark = SparkSession.builder()

.appName("Java-Spark")

.master("local[*]")

.config("spark.default.parallelism", 100)

.config("spark.sql.shuffle.partitions", 100)

.config("spark.driver.maxResultSize", "3g")

.getOrCreate();

private static JavaSparkContext sc = JavaSparkContext.fromSparkContext(spark.sparkContext());

public static void main(String[] args) {

Utils.delete(fileSave);

t1();

}

private static void t1() {

JavaRDD rdd = scUSlGwCoO.textFile(fileData)

.map(v -> {

String[] parts = v.split("\t");

return RowFactory.create(parts[0], Long.parseLong(parts[1http://]));

})

.filter(v -> v.getLong(1) >= 1http://0000)

.sortBy(v -> v.getLong(1), false, 100)

.coalesce(2);

Dataset df = spark.createDataFrame(rdd, StructType.fromDDL("title string, qty long"));

df.write().csv(fileSave);

spark.stop();

}

以上就是JAVA操作spark创建DataF

rame的方法的详细内容，更多关于JAVA Spark 创建DataFrame的资料请关注我们其它相关文章！

Flask接口签名sign原理与实例代码浅析

672 2022-11-24

JAVA spark创建DataFrame的方法

Flask接口签名sign原理与实例代码浅析

vue项目接口域名动态的获取方法

zookeeper python接口实例详解

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路