개발

[Python] image에서 문자 추출 (pytesseract)

jmob_blog 2020. 6. 14. 16:00

728x90

1. tesseract install

tessertact 에서 설치합니다. (github.com/tesseract-ocr/tesseract/wiki)

사용중인 OS에 맞춰 설치하면 되며, 제가 이번에 Test할 환경은 Window x64이기 때문에 여기에 맞춰서 설치했습니다.

설치 중 Additional language data 를 선택하고 Korean을 추가합니다.

설치 완료 후 환경변수에 경로를 추가합니다.

power shell 에서 설치 확인

tesseract --version

2. pytesseract install

python 에서 사용하기 위해 pytesseract를 설치한다.

pip install pytesseract

3. Python으로 테스트 진행

python code

from PIL import Image
import pytesseract 

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract'

img = Image.open('test.png')
text = pytesseract.image_to_string(img,lang='kor+eng')

print (text)

아래 이미지를 가지고 테스트를 진행 했습니다.

결과...

간단하게 테스트를 했을 때, 영어와 숫자는 잘 인식이 되는 것으로 보인다.

한국어도 잘 되지만... 일부러 잘 사용하지 않는 글자인 뚫쀍 같은 글자를 추가해서 테스트를 했는데... 이런 글자는 인식하지 못했다.

이번에는 그림(?)이 있으면 어떻게 될지 궁금해서 아래와 같이 변경해서 테스트를 진행했습니다.

결과는...

중간에 공백이 많이 생기긴 했지만 영어랑 숫자는 영향이 많이 없네요...

다만 한글은 인식율이 떨어지는 것으로 보입니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'개발' 카테고리의 다른 글

[Android, Kotlin] 문법정리 2, for문 (0)	2020.09.06
[Android, Kotlin] 문법 정리 (0)	2020.09.06
[QT, QML] Python에서 Property 등록 (0)	2020.05.05
[QT, QML] Pyside2 준비 (0)	2020.05.04
[QT, QML] MVC 패턴으로 구현 (0)	2020.04.13

현재글[Python] image에서 문자 추출 (pytesseract)

공부&기록

조금씩 기록합니다.

250x250

Android, 제주도 맛집, 내돈내산, Unity, ubuntu, qt, 제주도맛집, QML, C++, 혼밥, uwp, 영등포구청, 칼국수, 맛집, Flutter, 영등포구청 맛집, 또간집, 제주도, python, 영등포구청맛집,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

공부&기록

[Python] image에서 문자 추출 (pytesseract)

1. tesseract install

2. pytesseract install

3. Python으로 테스트 진행

'개발' 카테고리의 다른 글

'개발'의 다른글

티스토리툴바

[Python] image에서 문자 추출 (pytesseract)

1. tesseract install

2. pytesseract install

3. Python으로 테스트 진행

'개발' 카테고리의 다른 글

'개발'의 다른글

관련글

티스토리툴바