클릭 한 번에 이미지 속 글자를 불러오다, 광학문자인식

기자명 전지빈 기자 (zibini930@skkuw.com)

번역, 교육, 금융 등 일상 속에 스며든 OCR

AI와 결합해 인식 범위 높여가

해외에서 모르는 외국어로 쓰인 간판을 봤을 때 번역 애플리케이션으로 사진만 찍으면 바로 번역된 내용으로 바꿔 볼 수 있다. 사진의 글자를 컴퓨터가 인식할 수 있도록 변환하는 광학문자인식(Optical Character Recognition, 이하 OCR) 덕분이다. OCR은 이미 우리의 생활 곳곳에 숨어있다. 사람의 글씨까지도 인식할 수 있는 OCR, 그 원리는 무엇일까?

일상에 닿아있는 OCR
정보화 사회에서 문서를 디지털화하는 것은 필수적이다. 종이 문서는 보관에 상당한 비용이 들고 수많은 문서 속에서 원하는 자료를 찾기 쉽지 않으나 디지털화된 문서는 보관이 용이할 뿐 아니라 검색을 통해 빠르게 정보를 찾을 수 있기 때문이다. 이에 종이 문서나 사람의 손글씨를 컴퓨터가 인식할 수 있는 자료의 형태로 변환하는 OCR은 급속도로 발전하고 있다. OCR은 이미 일상 속 많은 곳에 활용되는데 AI 기반 학습 플랫폼인 ‘콴다’의 경우 학생들이 모르는 문제를 휴대전화 카메라로 찍으면 해당 문제를 인식해 풀이와 설명 영상 등 관련 교육 콘텐츠를 제공한다. 또한 OCR은 사람이 직접 자료를 확인하고 정리하는 것보다 속도가 빠르고 정확도가 높아 공식 문서를 처리하는 데에도 유용하게 쓰인다. 예를 들어 금융기관 서비스를 제공하는 애플리케이션에서 본인 인증을 할 때 일일이 정보를 입력할 필요 없이 신분증 사진을 찍기만 하면 그 속의 정보를 OCR이 인식한다. 이처럼 OCR은 다양한 분야에서 쓰이며 적용 범위를 더욱 확장해가고 있다.

패턴 매칭에서 AI와의 결합까지…OCR의 발전
최초의 OCR 기술은 1928년 오스트리아 구스타프 타우셰크 박사가 특허로 등록한 패턴 매칭 기법이다. 우리 학교 소프트웨어학과 허재필 교수는 “패턴 매칭 기법은 입력값과 컴퓨터에 입력된 문자를 겹쳐 비교함으로써 유사도를 측정해 가장 유사한 문자로 인식하는 방식”이라며 “그렇기에 글자의 정렬이 조금만 어긋나도 인식이 상당히 어렵다”고 전했다. 이후 2010년대에 빅데이터를 학습한 AI와 OCR이 결합한 AI-OCR이 등장했다. 우리 학교 소프트웨어학과 추현승 교수는 “AI를 사용하면 수동 처리 시간을 줄이고 전반적인 처리 과정을 자동화할 수 있다”며 “효율성을 높이고 비용을 절감한다”고 말했다. 또한 AI는 딥러닝 알고리즘으로 스스로 학습하며 폭넓은 데이터를 생성해 인식의 정확도를 높인다는 장점도 있다. 허 교수는 “예전에는 사람이 정한 규칙에 따른 알고리즘만 쓰인 반면 AI-OCR은 데이터에 기반한 새로운 알고리즘을 도출할 수 있어 다양한 상황에 적용될 수 있다”고 전했다. 정형화된 숫자나 텍스트 위주로 인식하던 이전과 달리 사람의 손글씨와 같은 비정형화된 정보도 인식할 수 있게 됐다.

AI-OCR 과정 및 원리
AI-OCR은 크게 △이미지 입력 △전처리 △글자 검출 △글자 인식 △후처리 단계로 이뤄진다. 먼저 사용자가 텍스트를 추출하고자 하는 이미지를 입력하면 전처리 과정에서 글자 인식 성능을 향상하기 위해 입력된 이미지를 보정한다. 이때 음영이나 외곽선 등을 보정해 글자와 배경의 경계를 높이는 다양한 기술이 쓰이는데 가장 대표적인 기술로는 이진화 기술이 있다. 이진화 기술은 이미지를 흑백으로 변환하고 이미지의 최소 구성단위인 픽셀들의 값을 분석해, 픽셀값을 각각 흑색과 백색을 의미하는 0과 1의 두 범위로 분류하는 기술이다. 이진화 기술을 사용하기 위해서는 분류하기 위한 기준치인 임계값을 0과 1 사이에 설정한다. 그다음으로 픽셀값을 측정하고 임계값보다 작으면 흑색, 임계값보다 크면 백색으로 인식해 분류한다. 임계값은 분류 정확도에 영향을 미치기에 적절한 임계값을 설정하는 것이 중요하다. 임계값을 0에 가깝게 설정하면 대부분의 픽셀이 임계값보다 커져 백색으로 분류되고, 반대로 임계값을 1에 가깝게 설정하면 대부분이 흑색으로 분류되기 때문이다. 허 교수는 “임계값이 부적절하면 문자 정보가 소실될 여지가 있다”며 “주어진 데이터를 기반으로 문자와 비문자 영역이 잘 분리되는 값을 찾아내고 테스트하며 임계값을 정해야 한다”고 전했다.

a~d 순으로 이진화 기술이 적용된 이미지. ⓒ'OCR 기술을 이용한 한글 처방전 문자 인식 시스템' 논문 캡처

글자 검출 단계에서는 글자가 기울어졌을 경우 회전한 각도를 계산해 보정하는 과정이 이뤄진다. 이는 추출한 글자를 컴퓨터에 저장된 데이터나 AI가 학습한 데이터와 비교해 인식하는 글자 인식 단계가 효과적으로 이뤄지게 한다. 글자 인식 단계에는 이미지의 값을 축소해 컴퓨터가 입력받을 수 있는 정보의 형태로의 변환이 이뤄진다. 이때 인간의 뇌를 모델로 삼아 만든 인공 신경망을 통해 글자 빅데이터를 학습한 시스템이 사용된다. 가장 대표적인 인공 신경망으로는 합성곱신경망이 있다. 합성곱신경망은 각 픽셀에 일정 값이 저장된 정사각형 형태의 필터를 이미지 위에 포갠 뒤 왼쪽 위부터 오른쪽 방향으로 일정 간격으로 이동해가며 필터의 값과 이미지의 값을 곱하고 그 값을 합하는 방식이다. 이 과정을 거치면서 이미지의 값은 점차 축소된다. 예를 들어 2X2=4칸의 필터가 4X4=16칸으로 나뉜 이미지를 한 칸씩 이동하며 연산하면 첫째 줄에서 3번, 둘째 줄에서 3번, 셋째 줄에서 3번 총 9번 연산하므로 결과적으로 9칸의 이미지로 축소되는 것이다. 이 과정을 반복해 연산이 이뤄지면 이미지는 점차 컴퓨터도 인식할 수 있을 정도로 작은 정보의 형태로 변환된다.

합성곱신경망의 원리. ⓒ자료: '인공신경망과 합성곱신경망 초등 교육프로그램 개발' 논문

또한 글자 인식 단계에서는 패턴 매칭 기법과 특징 추출 기법도 사용된다. 글자의 형태 자체를 인식해서 기존 데이터와 가장 비슷하게 생긴 것으로 인식하는 패턴 매칭 기법과 달리 특징 추출 기법은 선의 방향, 열린 부분과 닫힌 부분과 같은 세부 특징을 고려한다. 그러나 추 교수는 “패턴 매칭 기법은 유연성이 부족하고 특징 추출 기법은 더 복잡한 알고리즘을 요구하므로 상황에 따라 이 두 방법을 적절히 혼합해 사용해야 한다”고 전했다. 마지막 후처리 단계에서는 인식한 글자의 오류를 검토하고 유사한 단어로 수정한다. 예를 들어 인식한 글자가 ‘떡복이’일 경우 문법에 맞는 ‘떡볶이’로 수정한다.

OCR의 보완을 위한 발걸음
복잡하고 수많은 문서를 다루는 금융권과 보험업계에서는 OCR의 기술 수준을 높여 보다 정밀한 업무를 처리하고자 노력을 기울이고 있다. 인터넷 전문 은행인 케이뱅크는 지난 9일 영상인식 인공지능 전문기업과 협업해 신분증 인식 속도를 기존 대비 80% 단축했으며 흔들리거나 빛 번짐 등 식별이 어려운 상황에도 100%에 가까운 인식률을 보였다. 또한 네이버가 개발한 OCR 모델 ‘디어’는 지난해 OCR 분야 글로벌 경진대회인 ‘Robust Reading Competition’에서 1위를 거머쥐며 국내 OCR 기술의 국제적 위상을 높였다. 최근 OCR은 로보틱 처리 자동화(Robotic Process Automation, 이하 RPA)와 함께 활용되고 있다. RPA는 파일과 폴더를 이동하거나 이메일을 작성해 발송하는 등 사람이 해오던 단순 업무들을 로봇이 자동으로 수행함으로써 그 속도와 처리량을 크게 증대할 수 있다. 예컨대 사업자등록증 이미지를 업로드하면 OCR이 그 안의 문자 정보를 추출하고 RPA 기능이 △등록번호 △상호 △성명 등의 주요 항목을 엑셀 파일에 기입하는 것이다. 허 교수는 “OCR이 RPA와 결합되면 택배 송장 처리와 같이 사람이 직접 정보를 입력해 처리하는 업무들이 대체로 자동화되며 산업 및 사회적 생산성이 향상된다”고 말했다. 또한 허 교수는 “OCR 기술 자체는 이미 많은 부분이 안정화돼 실제 적용 단계에 있다”면서도 “이미 영어로 학습된 모델을 제3의 언어로 적응시키거나 영상 및 이미지의 품질이 낮을 경우의 인식도를 높이는 등의 발전이 이뤄져야 할 것”이라고 전했다.