Java高效读取大文件实例分析-eolink官网

Java高效读取大文件实例分析

1、概述

本教程将演示如何用java高效地读取大文件。Java——回归基础。

2、在内存中读取

读取文件行的标准方式是在内存中读取，Guava和ApacheCommonsIO都提供了如下所示快速读取文件行的方法：

Files.readLines(new File(path), Charsets.UTF_8);

FileUtils.readLinesTmEpbqTw(new File(path));

这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致程序抛出OutOfMemoryError异常。

例如：读取一个大约1G的文件：

@Test

public void givenUsingGuava_whenIteratingAFile_thenWorks() throws IOException {

String path = ...

Files.readLines(new File(path), Charsets.UTF_8);

}

这种方式开始时只占用很少的内存：（大约消耗了0Mb内存）

[main] INFO org.baeldung.java.CoreJavaIoUnitTest - Total Memory: 128 Mb

[main] INFO org.baeldung.java.CoreJavaIoUnitTest - Free Memory: 116 Mb

然而，当文件全部读到内存中后，我们最后可以看到（大约消耗了2GB内存）：

[main] INFO org.baeldung.java.CoreJavaIoUnitTest - Total Memory: 2666 Mb

[main] INFO org.baeldung.java.CoreJavaIoUnitTest - Free Memory: 490 Mb

这意味这一过程大约耗费了2.1GB的内存——原因很简单：现在文件的所有行都被存储在内存中。

把文件所有的内容都放在内存中很快会耗尽可用内存——不论实际可用内存有多大，这点是显而易见的。

此外，我们通常不需要把文件的所有行一次性地放入内存中——相反，我们只需要遍历文件的每一行，然后做相应的处理，处理完之后把它扔掉。所以，这正是我们将要做的——通过行迭代，而不是把所有行都放在内存中。

3、文件流

现在让我们看下这种解决方案——我们将使用java.util.Scanner类扫描文件的内容，一行一行连续地读取：

FileInputStream inputStream = null;

Scanner sc = null;

try {

inputStream = new FileInputStream(path);

sc = new Scanner(inputStream, "UTF-8");

while (sc.hasNextLine()) {

String line = sc.nextLine();

// System.out.println(line);

}

// note that Scanner suppresses exceptions

if (sc.ioException() != null) {

throw sc.ioException();

}

} finally {

if (inputStream != null) {

inputStream.close();

}

if (sc != null) {

sc.close();

}

这种方案将会遍历文件中的所有行——允许对每一行进行处理，而不保持对它的引用。总之没有把它们存放在内存中：（大约消耗了150MB内存）

[main]INFOorg.baeldung.java.CoreJavaIoUnitTest-TotalMemory:763Mb

[main]INFOorg.baeldung.java.CoreJavaIoUnitTest-FreeMemory:605Mb

4、ApacheCommonsIO流

同样也可以使用CommonsIO库实现，利用该库提供的自定义LineIterator:

LineIterator it = FileUtils.lineIterator(theFile, "UTF-8");

try {

while (it.hasNext()) {

String line = it.nextLine();

// do something with line

}

} finally {

LineIterator.closeQuietly(it);

}

由于整个文件不是全部存放在内存中，这也就导致相当保http://守的内存消耗：（大约消耗了150MB内存）

[main]INFOo.b.java.CoreJavaIoIntegrationTest-TotalMemory:752Mb

[main]INFOo.b.java.CoreJavaIoIntegrationTest-FreeMemory:564Mb

5、结论

这篇短文介绍了如何在不重复读取与不耗尽内存的情况下处理大文件——这为大文件的处理提供了一个有用的解http://决办法。

所有这些例子的实现和代码片段都可以在我的github项目上获取到——这是一个基于Eclipse的项目，所以它应该很容易被导入和运行。

以上就是本文关于Java高效读取大文件实例分析的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题，如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

多平台统一管理软件接口，如何实现多平台统一管理软件接口

339 2023-03-01

Java高效读取大文件实例分析

多平台统一管理软件接口，如何实现多平台统一管理软件接口

java中的接口是类吗

vue项目接口域名动态的获取方法

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路

Java高效读取大文件实例分析

微信扫一扫：分享

推荐文章

最近发表

热评文章