기자명 우수진 기자 (waterjean@skkuw.com)

인터뷰 - 국민대 소프트웨어학부 강승식 교수 

기계는 단어의 의미를 이해하기 어려워
정확한 AI번역은 양질의 말뭉치 확보에 달려

 

2018년 영국의 시장 조사 업체인 테크나비오의 조사 결과에 따르면 세계의 자동 통번역시스템 시장규모는 2013년부터 연평균 19.1%씩 증가했다고 한다. 이처럼 기계 번역은 무서운 속도로 성장하고 있다. 기계 번역의 활성화는 실생활에서도 체감할 수 있다. 파파고, 구글 번역기와 같은 AI 번역기는 어느새 우리 삶에 자연스럽게 스며들었다. 그렇다면 기계 번역은 어떤 원리로 이뤄졌고 어떻게 발전했을까? 한국어 정보처리 기술을 연구 및 개발하고 있는 국민대 소프트웨어학부 강승식 교수에게 기계 번역의 변천사에 대해 물어봤다. 
 

우리가 기대하는 수준에 도달하지 못했던 초기의 기계 번역
강 교수는 기계 번역이 어색하게 느껴지는 이유가 기계가 단어나 문장의 의미를 이해하지 못하기 때문이라고 밝혔다. 강 교수는 “‘밤에 밤을 먹는다’는 문장에서 사람은 문맥이나 지식을 활용해 ‘먹는 밤’과 ‘낮과 밤의 밤’을 쉽게 구별하지만 기계는 그렇지 않다”며 그에 대한 예시를 들었다. 이 문제를 해결하려 초기의 기계 번역이 선택한 방법이 RBMT(규칙 기반 기계 번역)다. RBMT는 말 그대로 ‘규칙’을 활용해 번역을 시도하는 방식이다. 이어 강 교수는 “초기에는 번역에 필요한 다양한 지식을 컴퓨터가 접근할 수 있는 형태로 조직하기 어려웠다”며 규칙을 기반으로 번역할 수밖에 없었던 배경을 설명했다.
RBMT의 규칙은 언어학적 이론을 기반으로 한다. 단어나 문장구조에 관한 언어학 이론인 의미론을 참고해 의미 규칙을 만들고 문맥을 보는 이론인 상황 의미론으로 상황 의미 규칙을 만드는 식이다. 강 교수는 “인간의 자연 언어는 규칙이 방대하고 예외 현상이 많아 모든 규칙을 코딩하기는 불가능에 가까웠다”며 RBMT를 이용한 규칙의 한계를 말했다. 이에 덧붙여 “코딩 과정에서 주어, 목적어 같은 문장 구조를 분석하는 단계도 7~80% 정도의 성능밖에 구현되지 않았다”며 기계 번역의 성능이 일정 수준 이상으로 올라가기 어려웠던 이유를 밝혔다.
 

번역 결과물의 정확도를 높인 말뭉치의 활용
말뭉치란 텍스트를 컴퓨터가 활용할 수 있는 형태로 모아놓은 집단을 말한다. 번역가들의 정확한 결과물이 말뭉치에 속한다. 그는 SMT(통계 기반 번역)가 이러한 말뭉치를 활용한 방식이라고 말했다. 강 교수는 “SMT는 오늘날의 NMT(인공신경망 기반 번역)처럼 충분한 양의 데이터베이스를 갖고 있는 것은 아니지만 일정량이 쌓여 있을 때 활용할 수 있는 방식”이라며 SMT가 RBMT와 NMT의 과도기에 있는 단계라고 설명했다. SMT는 갖고 있는 말뭉치를 참고해 단어가 가진 여러 의미의 사용 빈도를 분석하고 사용 빈도가 가장 높은 의미를 선택해 번역한다. 이때 통계의 대상은 단순히 한 단어가 아닌 문장 내 여러 단어의 관계성이다. 강 교수는 “‘밤’이라는 단어가 ‘낮과 밤의 밤’으로 많이 사용돼도 앞에 ‘맛있는’이라는 단어가 온다면 이들의 관계를 계산해 ‘먹는 밤’으로 번역한다”며 예시를 들었다. 이렇듯 SMT는 문장 전체를 통계의 대상으로 삼아 문장 내의 부분적인 통계를 종합적으로 고려해 번역 결과물을 생성한다. 그는 “규칙만 가지고 판별했을 때보다 자연스럽고 정확한 의미의 결과물을 도출해낼 가능성이 높다”며 말뭉치의 활용이 번역의 정확도를 높인 이유를 설명했다. 

오늘날 기계 번역의 주인공 NMT
강 교수는 최근 대부분의 기계 번역이 딥러닝을 사용하는 NMT를 기반으로 한다고 밝혔다. 파파고, 구글 번역기 등이 대표적인 예다. 딥러닝은 제공받은 학습 데이터를 기반으로 기계가 스스로 학습하는 방법이다. 그는 “NMT는 번역가들이 번역한 결과물인 학습 데이터를 제공받은 후 이 데이터에서 규칙을 발견한다”며 “이후 컴퓨터가 접근할 수 있는 파일의 형태로 조직한다”고 인코딩 과정을 설명했다. 이어 강 교수는 “‘한-영 번역’의 경우 한글 문장을 입력받으면 한글 말뭉치를 파일 형태로 조직해 인공신경망에 학습시켜야 한다”고 예를 들며 “이때 컴퓨터는 어떤 입력이 들어와도 최대한 정확한 결과물을 내놓도록 문장을 컴퓨터가 접근할 수 있는 표현으로 조직한다”고 말했다. 한편 디코딩은 이와 반대로 내부적으로 표현된 내용을 영어 문장으로 생성해주는 것이다. 

이처럼 ‘한-영 번역’의 경우 내부적으로 한글 말뭉치를 인코딩해서 파일을 만들고 이 파일로부터 디코딩해 타깃 문장인 영어 문장을 만드는 과정을 거쳐 이뤄진다. 이에 강 교수는 “결과적으로 NMT는 입력된 말뭉치를 번역에 활용하는 것”이라며 “좋은 품질의 말뭉치를 최대한 많이 마련하는 것이 기계 번역의 정확도를 높이는 핵심”이라고 말했다. 이에 덧붙여 “NMT는 새로운 결과물을 만드는 것이 아니라 기존의 말뭉치를 활용한다”고 설명하며 “그렇기 때문에 신조어나 새로운 고유 명사와 같이 학습 데이터에 없는 내용이 입력되면 제대로 처리를 해낼 수 없다는 한계가 있다”고 전했다.
 

사람과 함께해야 하는 기계 번역
기계 번역 사용에 있어 주의할 점을 묻는 질문에 강 교수는 “기본적으로 기계라는 것이 100% 완벽하지 않다는 것을 인지해야 한다”고 답했다. 강 교수는 “구글 번역기나 파파고 같은 AI 번역기는 접근성이 뛰어나지만 결과물에 대해 책임을 지지는 않는다”고 말했다. 정확한 결과물을 얻어야 하고 번역 결과물에 책임을 져야 하는 경우 기계 번역에만 의존해서는 안 된다고 조언한 것이다. 이어 그는 “기계 번역을 효율적으로 사용하기 위해서는 기계 번역의 장점은 취하고 편향성 문제가 발생할 수 있는 내용에 대해서는 최종적으로 사람의 수정을 가해야 한다”며 기계 번역에 사람의 손길이 필요하다고 말했다. 마지막으로 강 교수는 “기계 번역은 사람의 시간과 비용을 절약하기 위해 사용하는 것임을 명심해야 한다”는 당부의 말을 남겼다.
 

ⓒ강승식 교수 제공
ⓒ강승식 교수 제공