Flask接口签名sign原理与实例代码浅析
248
2023-01-15
shuffle的关键阶段sort(Map端和Reduce端)源码分析
源码中有这样一段代码
1. Map端排序获取的比较器
public RawComparator getOutputKeyComparator() {
// 获取mapreduce.job.output.key.comparator.class,必须是RawComparator类型,如果没设置,是null
Class extends RawComparator> theChttp://lass = getClass(
JobContext.KEY_COMPARATOR, null, RawComparator.class);
// 如果用户自定义了这个参数,那么实例化用户自定义的比较器
if (theClass != null)
return ReflectionUtils.newInstance(theClass, this);
// 默认情况,用户是没用自定义这个参数
// 判断Map输出的key,是否是WritableComparable的子类
// 如果是,调用当前类的内部的Comparator!
return WritableComparator.get(getMapOutputKeyClass().asSubclass(WritableComparable.class), this);
}
总结: 如何对感兴趣的数据进行排序?
① 数据必须作为key
&nbsvIjpSwUsGFp; ② 排序是框架自动排序,我们提供基于key的比较器,也就是Comparator,必须是RawComparator类型
a) 自定义类,实现RawComparator,重写compare()
指定mapreduce.job.output.key.comparator.class为自定义的比较器类型
b)key实现WritableComparable(推荐)
③ 实质都是调用相关的comparaTo()方法,进行比较
2. Reduce端进行分组的比较器
RawComparator comparator = job.getOutputValueGroupingComparator();
// 获取mapreduce.job.output.group.comparator.class,必须是RawComparator类型
// 如果没用设置,直接获取MapTask排序使用的比较器
// 也是比较key
public RawComparator getOutputValueGroupingComparator() {
Class extends RawComparator> theClass = getClass(
JobContext.GROUP_COMPARATOR_CLASS, null, RawComparator.class);
if (theClass == null) {
return getOutputKeyComparator();
}
// 如果设置了,就使用设置的比较器
return ReflectionUtils.newInstance(theClass, this);
}
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对我们的支持。如果你想了解更多相关内容请查看下面相关链接
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~