shuffle的关键阶段sort(Map端和Reduce端)源码分析-eolink官网

shuffle的关键阶段sort(Map端和Reduce端)源码分析

源码中有这样一段代码

1. Map端排序获取的比较器

public RawComparator getOutputKeyComparator() {

// 获取mapreduce.job.output.key.comparator.class，必须是RawComparator类型，如果没设置，是null

Class extends RawComparator> theChttp://lass = getClass(

JobContext.KEY_COMPARATOR, null, RawComparator.class);

// 如果用户自定义了这个参数，那么实例化用户自定义的比较器

if (theClass != null)

return ReflectionUtils.newInstance(theClass, this);

// 默认情况，用户是没用自定义这个参数

// 判断Map输出的key，是否是WritableComparable的子类

// 如果是，调用当前类的内部的Comparator!

return WritableComparator.get(getMapOutputKeyClass().asSubclass(WritableComparable.class), this);

}

总结：如何对感兴趣的数据进行排序？

① 数据必须作为key

&nbsvIjpSwUsGFp; ② 排序是框架自动排序，我们提供基于key的比较器，也就是Comparator，必须是RawComparator类型

a) 自定义类，实现RawComparator，重写compare()

指定mapreduce.job.output.key.comparator.class为自定义的比较器类型

b）key实现WritableComparable(推荐)

③ 实质都是调用相关的comparaTo()方法，进行比较

2. Reduce端进行分组的比较器

RawComparator comparator = job.getOutputValueGroupingComparator();

// 获取mapreduce.job.output.group.comparator.class，必须是RawComparator类型

// 如果没用设置，直接获取MapTask排序使用的比较器

// 也是比较key

public RawComparator getOutputValueGroupingComparator() {

Class extends RawComparator> theClass = getClass(

JobContext.GROUP_COMPARATOR_CLASS, null, RawComparator.class);

if (theClass == null) {

return getOutputKeyComparator();

}

// 如果设置了，就使用设置的比较器

return ReflectionUtils.newInstance(theClass, this);

}

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对我们的支持。如果你想了解更多相关内容请查看下面相关链接

Flask接口签名sign原理与实例代码浅析

258 2023-01-15

shuffle的关键阶段sort(Map端和Reduce端)源码分析

Flask接口签名sign原理与实例代码浅析

vue项目接口域名动态的获取方法

zookeeper python接口实例详解

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路