번역 속도를 높이는 기계 번역(Machine Translation), 제대로 활용하기


Written by Song


기계 번역(Machine Translation, MT)은 1940년대 워렌 위버(Warren Weaver)에 의해 처음 언급된 이후 여러 단계로 발전해 왔습니다. 초기에는 ‘규칙 기반 기계 번역(RBMT)’으로서 번역의 대상이 되는 원문의 규칙을 개발자가 입력하고 그 규칙에 따라 시스템이 번역하는 방식이었습니다. 즉, 원문이 지닌 문법, 주어와 목적와 같은 단어의 순서 등 개발자가 입력한 규칙에 기반하여 언어를 변환하는 알고리즘이었습니다. 그러나 이 방식은 개발자가 각 언어에 해당하는 수많은 규칙을 직접 입력해야 하는 것은 물론 언어가 표현되는 변칙적인 형태를 시스템에 수동으로 입력하는 데 한계가 있었기에 이를 극복하기 위한 ‘말뭉치 기반 기계번역(Corpus-based Machine Translation)’이 탄생하였습니다. 이 방식은 크게 ‘예시 기반 기계번역(EBMT)’와 ‘통계 기반 기계번역(SMT)’로 나뉘었습니다.

예시 기반 기계번역은 번역 대상인 원문과 번역문 쌍을 데이터로 저장한 후 새롭게 번역이 필요한 원문에서 동일한 문장이 있을 경우 이러한 정보를 활용해 번역 결과를 산출하는 방식이고 통계 기반 기계번역은 원문과 번역문 언어의 관계도를 통계화하여 번역문을 만들어 내는 방식입니다. 이 후 현재의 딥러닝 알고리즘을 활용한 기계 번역, 인공 신경망 기반의 기계 번역(NMT)까지 가파른 속도로 발전하고 있으며 음성 인식, 이미지 및 자연어 처리 등 많은 기술에 기계 번역 알고리즘이 활용되면서 번역 관련 서비스들이 매우 활발하게 공급되고 있습니다.

미국의 구글(Google), 마이크로소프트(Microsoft), 페이스북(Facebook), 중국의 바이두(Baidu), 러시아의 얀덱스(Yandex), 한국의 네이버 등 해당 국가의 주요 포털사들이 자체 번역 서비스를 제공하고 있으며 번역 정확도 또한 나날이 높아지고 있습니다. 하지만 이러한 기계 번역의 눈부신 발전에도 불구하고 짧은 문장이나 단순한 구조의 문장을 제외하곤 원문의 컨텍스트(Context)를 정확히 이해하고 번역하는 데에는 여전히 부족한 점이 많습니다. 



프란치스코 교황이 트위터에 전쟁이 아닌 평화를 부르짖는 메시지가 전혀 반대의 의미로 번역된 예입니다. 우스꽝스러운 상황이지만 이처럼 기계 번역은 글을 쓰는 사람이 표준화된 문장으로 논리적으로 글을 쓰지 않는다면 그 원문의 의미를 정확하게 파악하는 데 어려움이 있습니다.

이러한 점을 고려한다면 현재까지 기계 번역이 지닌 한계는 명확해 보이지만 오히려 번역 산업에서는 그 역할의 중요성이 나날이 높아지고 있습니다. 특히 해외 비즈니스 거래에 사용되는 컨텐츠들을 신속하고 정확하게 번역하여 업무에 바로 활용할 필요가 있는 IT, 제약, 자동차 등 기술 산업의 수요에 발맞춰 번역 회사 및 번역사들은 이러한 기계 번역을 적극 활용하는 추세입니다. 즉, 기술 문서처럼 내용이 논리적으로 구성되고 정보 전달이 주 목적으로서 맥락 파악이 어렵지 않은 데이터 기반의 컨텐츠들에 기계 번역 기능을 잘만 활용한다면 사람에 의한 최종적인 검수 과정을 통해 보다 효율적이고 빠른 고품질의 번역물을 생산해 낼 수 있습니다. 


그렇다면 번역사들이 발빠르게 돌아가는 기술 산업의 요구에 발맞춰 번역물을 신속하게 제공하기 위해 기계 번역을 보다 유용하게 활용할 수 있는 방법에는 어떤 것들이 있을까요? 지금부터 그 방법들에 대해 소개해 보도록 하겠습니다.

첫째, 기계 번역은 ‘정형화'된 문장을 가장 잘 인식합니다. 당연한 말이지만 기계 번역은 개발 과정에서 각 나라의 가장 표준적인 문장을 기본 데이터로 하고 있습니다. 즉, 번역사가 원문의 내용 중 문장 구조가 불완전하거나 맞춤법에 오류가 있는 것을 발견한다면 해당 부분의 단어나 문장 구조만 수정하여 기계 번역에 적용해 원문의 내용을 제대로 반영한 번역물을 얻어낼 수 있습니다. 예를 들어 원문에 신조어가 포함되어 있다면 적절한 단어로 수정한 후 표준적인 문장을 사용하거나, 여러 문장들이 복잡하게 얽혀 있는 경우 접속사나 문장부호를 활용해 구분한 후 시제를 명확히 하는 등 원문을 임의로 수정한 후 기계 번역에 적용한다면 오번역을 상당 부분 낮출 수 있습니다.

둘째, 축약된 단어나 줄임말은 그 단어의 원 형태를 펼쳐서 사용하는 것이 좋습니다. 예를 들어 lol(laugh out loud)이나 TMI(Too Much Information)와 같이 초성체로 이루어진 단어나 한영 번역의 경우 한자의 음만 따서 이루어진 한글은 그 원 의미를 일반적인 단어들로 수정하여 번역한 후 해당 번역물에선 다시 적절한 형태의 축약어나 줄임말로 변환해 적용하면 됩니다.

셋째, 한영 번역의 경우 원문에 주어가 생략이 되어 있다면 적절한 주어를 삽입하여 기계 번역에 삽입하는 것이 좋습니다. 우리말에선 일반적으로 주어가 생략되는 경우가 많은데 그 상태로 영어로 번역한다면 문장의 주어나 고유명사가 엉뚱하게 번역되는 경우가 빈번하게 일어나므로 문장의 주어를 임의로 삽입한다면 오번역을 줄일 수 있습니다.

넷째, 영어가 아닌 타 언어의 번역이 필요할 경우 우선 기계 번역기에서 영어로 번역한 후 영어에서 한글로 2차 번역을 하는 것이 좋습니다. 타 언어와 한글 간의 번역 데이터보다 타 언어-영어 간 번역 데이터가 월등히 많으므로 이러한 2차 번역을 통해 번역 정확도를 높일 수 있습니다.

다섯째, 고유명사가 문장 중간에 위치하거나 다른 단어로 오식될 위험이 있다고 판단된다면 고유명사를 ‘A’와 같은 형태로 콤마를 활용하여 구분해 주는 것이 필요합니다. 콤마나 괄호 형태로 단어를 구분해 준다면 기계 번역기에선 해당 단어를 구분하여 번역하기에 엉뚱한 형태의 번역이 나올 가능성이 낮아지기 때문입니다.

이와 같이 기계 번역의 오번역을 줄일 수 있는 몇 가지 방법에 대해 간략히 알아보았습니다. 기계 번역의 무서운 발전 속도에 따라 번역의 정확도도 과거에 비해 놀라울 정도로 높아졌지만 해당 기계 번역물을 곧바로 사용하기엔 여전히 부족한 점이 많은 것도 사실입니다. 하지만 이제 기계 번역은 우리 삶의 일부로 깊숙이 파고 들었으며 많은 번역 회사들이 이를 적극 활용하여 번역 속도와 정확도를 높이는 데 주력하고 있습니다.

기계 번역이 처음 등장했을 때 개발자들이 가졌던 ‘인간을 대체하는 기계 번역'에 대한 야망처럼 기술은 끝없이 발전하겠지만 그 시대가 도래하기 전까지 더 효율적인 번역 작업을 위해 기계 번역을 지혜롭게 활용하는 것도 결국 우리의 몫일 것입니다.


댓글

이 블로그의 인기 게시물

오큘러스 퀘스트2로 영화보기 - DLNA 서버 설정

오큘러스 퀘스트2에서 영화보기 좋은 앱?? - VR 플레이어 간단 비교