mangguobang的gravatar头像
mangguobang 2018-01-16 10:39:39
python3实现获取图片中的文字含中文

一、运行环境

    (1) win10

    (2) pycharm

    (3) python 3.5

    (4) pip3   install pillow
           pip3  install pytesseract

     (5)  识别引擎tesseract-ocr ,下载之后解压安装,下载地址:http://download.csdn.net/download/huxiangen/10170075

二、 运行代码

# -*- coding: utf-8 -*-  
from PIL import Image  
import pytesseract  
#上面都是导包,只需要下面这一行就能实现图片文字识别  
text=pytesseract.image_to_string(Image.open('show.jpg'),lang='chi_sim') #设置为中文文字的识别  
#text=pytesseract.image_to_string(Image.open('test.png'),lang='eng')   #设置为英文或阿拉伯字母的识别  
print(text) 

三、报错解决

1.FileNotFoundError:[WinError 2]系统找不到指定文件。

解决办法:

打开文件pytesseract.py,找到如下代码,将tesseract_cmd的值修改为全路径,再次使用就不会报这个错了。

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'

2.pytesseract.pytesseract.TesseractError:(1,'Error opening data file\\Progr

解决办法:

打开文件pytesseract.py,找到image_to_string,指定config的参数,如下:

tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'  
def image_to_string(image, lang=None, boxes=False, config=tessdata_dir_config): 

打赏
最近浏览
qazxsw12QW 2021年6月15日
暂无贡献等级
SXberc  LV1 2020年12月16日
2996321909  LV1 2020年9月18日
Commuovere  LV1 2020年7月21日
275239212  LV1 2020年5月22日
asdsasddas  LV6 2019年7月2日
zivjqzuidaima  LV1 2019年1月16日
sjjsjjs  LV6 2018年6月14日
CGmatt  LV9 2018年6月5日
ysdy001  LV2 2018年5月2日
顶部 客服 微信二维码 底部
>扫描二维码关注最代码为好友扫描二维码关注最代码为好友