java 较大数据量取差集,list.removeAll性能优化详解-eolink官网

java 较大数据量取差集,list.removeAll性能优化详解

今天在优化项目中的考勤同步功能时遇到将考勤机中的数据同步到数据库，

两边都是几万条数据的样子，老代码的做法差不多半个小时，优化后我本机差不多40秒，服务器速度会更加理想。

两个数据集取差集首先想到的方法便是List.removeAll方法，但是实验发现jdk自带的List.removeAll效率很低

List.removeAll效率低原因：

List.removeAll效率低和list集合本身的特点有关：

List底层数据结构是数组,查询快,增删慢

1.List.contains()效率没有hashset高

arrayList.removeAll底层是for循化调用contains方法。arrayList虽然用get(index)方法查询效率高，但是若用contains方法查询对象元素，Set集合应该比List效率要高。

因为hashset的contains方法其实是先调用每个元素的hashCode()方法来返回哈希码，如果哈希码的值相等的情况下再调用equals(obj)方法去判断是否相等，只有在这两个方法所返回的值都相等的情况下，才判定这个HashSet包含某个元素，而list直接调用equals(obj)方法.所以hashset效率更高。

2.arrayList.remove()效率没有linkedList删除效率高

arrayList底层采用数组每删除一下元素数据后面的元素都要往前移动效率低消耗的资源也大，linkedList链表删除元素只要改变前后节点的位置信息

3.采用Iterator迭代器，这种方式我们仅需要对iterator进行循环，然后对需要删除的元素执行iterator.remove(iterator.next()),而无需关注下标的问题

改进代码

LinkedList linkedList= new LinkedList(src);//大集合用linkedlist

HashSet hashSet= new HashSet(oth);//小集合用hashset

Iterator iter = linkedList.iterator();//采用Iterator迭代器进行数据的操作

while(iter.hasNext()){

if(hashSet.contains(iter.next())){

iter.remove();

}

补充知识：java获取两个数据量较大的ArrayList的交集、差集以及并集

测试说明：获取firstArrayList和secondArrayList的交集、差集以及并集。实际测试中firstArrayList数据量190000，secondArrayList数据量170000.效率比较高。此处只列出少量数据。测试代码如下：

import java.util.Set;

import java.util.List;

import java.util.HashSet;

import java.util.TreeSet;

import java.util.Iterator;

import java.util.ArrayList;

import java.util.LinkedList;

public class getSet {

public static void main(String args[]) {

getList();

}

// 获取两个ArrayList的差集、交集、去重并集(数据量大小不限制)

private static void getList() {

List firstArrayList = new ArrayList();

List secondArrayList = new ArrayList();

List defectList = new ArrayList();//差集List

List collectionList = new ArrayList();//交集List

List unionList = new ArrayList();//去重并集List

try {

firstArrayList.add("aaa");

firstArrayList.add("bbb");

firstArrayList.add("ccc");

firstArrayList.add("ddd");

http:// secondArrayList.add("bbb");

secondArrayList.add("ccc");

secondArrayList.add("eee");

// 获取差集

defectList = receiveDefectList(firstArrayList, secondArrayList);

Iterator defectIterator = defectList.iterator();

System.out.println("===================差集===================");

while(defectIterator.hasNext()) {

System.out.println(defectIterator.next());

}

// 获取交集

collectionList = receiveCollectionList(firstArrayList, secondArrayList);

Iterator collectionIterator = collectionList.iterator();

System.out.println("===================交集===================");

while(collectionIterator.hasNext()) {

System.out.println(collectionIterator.next());

}

// 获取去重并集

unionList = receiveUnionList(firstArrayList, secondArrayList);

Iterator unionIterator = unionList.iterator();

System.out.println("===================去重并集===================");

while(unionIterator.hasNext()) {

System.out.println(unionIterator.next());

}

}catch(Exception e) {

e.printStackTrace();

}

/**

* @方法描述：获取两个ArrayLhttp://ist的差集

* @param firstArrayList 第一个ArrayList

* @param secondArrayList 第二个ArrayList

* @return resultList 差集ArrayList

public static List receiveDefectList(List firstArrayList, List secondArrayList) {

List resultList = new ArrayList();

LinkedList result = new LinkedList(firstArrayList);// 大集合用linkedlist

HashSet othHash = new HashSet(secondArrayList);// 小集合用hashset

Iterator iter = result.iterator();// 采用Iterator迭代器进行数据的操作

while(iter.hasNext()){

if(othHash.contains(iter.next())){

iter.remove();

}

resultList = new ArrayList(result);

return resultList;

}

/**

* @方法描述：获取两个ArrayList的交集

* @param firstArrayList 第一个ArrayList

* @param secondArrayList 第二个ArrayList

* @return resultList 交集ArrayList

public static List receiveCollectionList(List firstArrayList, List secondArrayList) {

List resultList = new ArrayList();

LinkedList result = new LinkedList(firstArrayList);// 大集合用linkedlist

HashSet othHash = new HashSet(secondArrayList);// 小集合用hashset

Iterator iter = result.iterator();// 采用Iterator迭代器进行数据的操作

while(iter.hasNext()) {

if(!othHash.contains(iter.next())) {

iter.remove();

}

resultLhttp://ist = new ArrayList(result);

return resultList;

}

/**

* @方法描述：获取两个ArrayList的去重并集

* @param firstArrayList 第一个ArrayList

* @param secondArrayList 第二个ArrayList

* @return resultList 去重并集ArrayList

public static List receiveUnionList(List firstArrayList, List secondArrayList) {

List resultList = new ArrayList();

Set firstSet = new TreeSet(firhttp://stArrayList);

for(String id : secondAzdfExrrayList) {

// 当添加不成功的时候说明firstSet中已经存在该对象

firstSet.add(id);

}

resultList = new ArrayList(dawjidSet);

return resultList;

}

打印结果：

===================差集===================

aaa

ddd

===================交集===================

bbb

ccc

=================去重并集==================

aaa

bbb

ccc

ddd

eee

说明，取差集指的是取firstArrayList中存在但secondArrayList中不存在的数据集

Flask接口签名sign原理与实例代码浅析

902 2022-11-20

java 较大数据量取差集,list.removeAll性能优化详解

Flask接口签名sign原理与实例代码浅析

java中的接口是类吗

vue项目接口域名动态的获取方法

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路