OCR文字识别速成大法,你get到了么?(ocr文字识别训练)

网友投稿 419 2022-08-24


OCR文字识别速成大法,你get到了么?(ocr文字识别训练)

第1章 引言

想要从pdf文档中提取信息,结果发i西安pdf被加密了,转码后识别全部为乱码,所以想到了用OCR文字识别来完成这项任务 (百度提供了500次有效识别次数) 。

第2章 正文

本文使用的是百度接口,以下为百度官方相关教程链接官方文档教程直通车:百度OCR文字识别官方文档教程官方视频教程直通车:百度OCR文字识别官方视频教程

2.1百度图片识别

2.1.1 登录/注册百度账号,完成实名认证,领取免费权利,创建新应用

这一步参考上面给的官方视频教程直通车进行操作即可

2.1.2 获取Token

2.1.3 将得到的Token粘贴至代码相应位置,即可成功运行~

各种语言的相关代码可以查看以下链接:完整代码如下

第一步:传入AK和SK获取access_token # -*- coding: utf-8 -*- # 导入需要的第三方库 import requests import base64 # client_id 为官网获取的AK, client_secret 为官网获取的SK AK = '【修改为你的AK】' SK = '【修改为你的SK】' host = 'SK) response = requests.get(host) if response: print(response.json()) 在返回值提取access_token

识别效果还是不错的~

2.2 pdf文档识别

2.2.1修改步骤

对于识别pdf,主要是要在代码中将pdf文本以base64编码后传输

官网提供的文档链接:pdf文档提取结果

2.3 异常情况

相关异常情况及原因可以查看以下官方文档


版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Python-OOP 快速入门
下一篇:从内存模型中了解Java final的全部细节
相关文章

 发表评论

暂时没有评论,来抢沙发吧~