识别率很高的java文字识别技术-eolink官网

识别率很高的java文字识别技术

java文字识别程序的关键是寻找一个可以调用的OCR引擎。tesseract-ocr就是一个这样的OCR引擎，在1985年到1995年由HP实验室开发，现在在Google。tesseract-ocr 3.0发布，支持中文。不过tesseract-ocr 3.0不是图形化界面的客户端，别人写的FreeOCR图形化客户端还不支持导入新的 3.0 traineddata。但这标志着，现在有自由的中文OCR软件了。

java中使用tesseract-ocr3.01的步骤如下：

1.下载安装tesseract-ocr-setup-3.01-1.exe（3.0以上版本才增加了中文识别）

2.在安装向导中可以选择需要下载的语言包。

3.到网上搜索下载java图形处理所需的2个包：jai_imageio-1.1-alpha.jar，swingx-1.6.1.jar

4.java程序清单：

ImageIOHelper 类：

import java.awt.image.BufferedImage;

import java.io.File;

import java.io.IOException;

import java.util.Iterator;

import java.util.Locale;

import javax.imageio.IIOImage;

import javax.imageio.ImageIO;

import javax.imageio.ImageReader;

import javax.imageio.ImageWriteParam;

import javax.imageio.ImageWriter;

import javax.imageio.metadata.IIOMetadata;

import javax.imageio.stream.ImageInputStream;

import javax.imageio.stream.ImageOutputStream;

import com.sun.media.imageio.plugins.tiff.TIFFImageWriteParam;

public class ImageIOHelper {

public static File createImage(File imageFile, String imageFormat) {

File tempFile = null;

try {

Iterator readers = ImageIO.getImageReadersByFormatName(imageFormat);

ImageReader reader = readers.next();

ImageInputStream iis = ImageIO.createImageInputStream(imageFile);

reader.setInput(iis);

//Read the stream metadata

IIOMetadata streamMetadata = reader.getStreamMetadata();

//Set up the writeParam

TIFFImageWriteParam tiffWriteParam = new TIFFImageWriteParam(Locale.CHINESE);

tiffWriteParam.setCompressionMode(ImageWriteParam.MODE_DISABLED);

//Get tif writer and set output to file

Iterator writers = ImageIO.getImageWritersByFormatName("tiff");

ImageWriter writer = writers.next();

BufferedImage bi = reader.read(0);

IIOImage image = new IIOImage(bi,null,reader.getImageMetadata(0));

tempFile = tempImageFile(imageFile);

ImageOutputStream ios = ImageIO.createImageOutputStream(tempFile);

writer.setOutput(ios);

writer.write(streamMetadata, image, tiffWriteParam);

ios.close();

writer.dispose();

reader.dispose();

} catch (IOException e) {

e.printStackTrace();

}

return tempFile;

}

private static File tempImageFile(File imageFile) {

String path = imageFile.getPath();

StringBuffer strB = new StringBuffer(path);

strB.insert(path.lastIndexOf('.'),0);

return new File(strB.toString().replaceFirst("(?<=//.)(//w+)$", "tif"));

}

OCR 类：

package com.hhp.util;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.InputStreamReader;

import java.util.ArrayList;

import java.util.List;

import org.jdesktop.swingx.util.OS;

public class OCR {

private final String LANG_OPTION = "-l"; //英文字母小写l，并非数字1

private final String EOL = System.getProperty("line.separator");

private String tessPath = "C://Program Files (x86)//Tesseract-OCR";

//private String tessPath = new File("tesseract").getAbsolutePath();

public String recognizeText(File imageFile,String imageFormat)throws Exception{

File tempImage = ImageIOHelper.createImage(imageFile,imageFormat);

File outputFile = new File(imageFile.getParentFile(),"output");

StringBuffer strB = new StringBuffer();

List cmd = new ArrayList();

if(OS.isWindowsXP()){

cmd.add(tessPath+"//tesseract");

}else if(OS.islinux()){

cmd.add("tesseract");

}else{

cmd.add(tessPath+"//tesseract");

}

cmd.add("");

cmd.add(outputFile.getName());

cmd.add(LANG_OPTION);

cmd.add("chi_sim");

//cmd.add("eng");

ProcessBuilder pb = new ProcessBuilder();

pb.directory(imageFile.getParentFile());

cmd.set(1, tempImage.getName());

pb.command(cmd);

pb.redirectErrorStream(true);

Process process = pb.start();

/YhWjXNr/tesseract.exe 1.jpg 1 -l chi_sim

int w = process.waitFor();

//删除临时正在工作文件

tempImage.delete();

if(w==0){

BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(outputFile.getAbsolutePath()+".txt"),"UTF-8"));

String str;

while((str = in.readLine())!=null){

strB.append(str).append(EOL);

}

in.close();

}else{

String msg;

switch(w){

case 1:

msg = "Errors accessing files.There may be spaces in your image's filename.";

break;

case 29:

msg = "Cannot recongnize the image or its selected region.";

break;

case 31:

msg = "Unsupported image format.";

break;

default:

msg = "Errors occurred.";

}

tempImage.delete();

throw new RuntimeException(msg);

}

new File(outputFile.getAbsolutePath()+".txt").delete();

return strB.toString();

}

测试类TestOCR ：

import java.io.File;

import java.io.IOException;

import com.hhp.util.OCR;

public class OcrTest {

public static void main(String[] args) {

String path = "C://temp//OCRcode//4.png";

System.out.println("ORC Test Begin......");

try {

String valCode = new OCR().recognizeText(new File(path), "png");

System.out.println(valCode);

} catch (IOException e) {

e.printStackTrace();

} catch (Exception e) {

e.printStackTrace();

}

System.out.println("ORC Test End......");

}

经过测试，tesseract-ocr 3.01的文字识别率很高，对于网站中常见的验证码识别率也很高。

zookeeper python接口实例详解

247 2023-07-08

识别率很高的java文字识别技术

java中的接口是类吗

zookeeper python接口实例详解

Spring中的aware接口详情

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路