TOMWIN'S BLOG

Written by Song 기계 번역(Machine Translation, MT)은 1940년대 워렌 위버(Warren Weaver)에 의해 처음 언급된 이후 여러 단계로 발전해 왔습니다. 초기에는 ‘규칙 기반 기계 번역(RBMT)’으로서 번역의 대상이 되는 원문의 규칙을 개발자가 입력하고 그 규칙에 따라 시스템이 번역하는 방식이었습니다. 즉, 원문이 지닌 문법, 주어와 목적와 같은 단어의 순서 등 개발자가 입력한 규칙에 기반하여 언어를 변환하는 알고리즘이었습니다. 그러나 이 방식은 개발자가 각 언어에 해당하는 수많은 규칙을 직접 입력해야 하는 것은 물론 언어가 표현되는 변칙적인 형태를 시스템에 수동으로 입력하는 데 한계가 있었기에 이를 극복하기 위한 ‘말뭉치 기반 기계번역(Corpus-based Machine Translation)’이 탄생하였습니다. 이 방식은 크게 ‘예시 기반 기계번역(EBMT)’와 ‘통계 기반 기계번역(SMT)’로 나뉘었습니다. 예시 기반 기계번역은 번역 대상인 원문과 번역문 쌍을 데이터로 저장한 후 새롭게 번역이 필요한 원문에서 동일한 문장이 있을 경우 이러한 정보를 활용해 번역 결과를 산출하는 방식이고 통계 기반 기계번역은 원문과 번역문 언어의 관계도를 통계화하여 번역문을 만들어 내는 방식입니다. 이 후 현재의 딥러닝 알고리즘을 활용한 기계 번역, 인공 신경망 기반의 기계 번역(NMT)까지 가파른 속도로 발전하고 있으며 음성 인식, 이미지 및 자연어 처리 등 많은 기술에 기계 번역 알고리즘이 활용되면서 번역 관련 서비스들이 매우 활발하게 공급되고 있습니다. 미국의 구글(Google), 마이크로소프트(Microsoft), 페이스북(Facebook), 중국의 바이두(Baidu), 러시아의 얀덱스(Yandex), 한국의 네이버 등 해당 국가의 주요 포털사들이 자체 번역 서비스를 제공하고 있으며 번역 정확도 또한 나날이 높아지고 있습니다. 하지만 이러한 기계 번역의 눈부신 발전에도 불구하고 짧은 문장이나 단순한 구조의 문장을 제외하곤 원문...

글

번역 속도를 높이는 기계 번역(Machine Translation), 제대로 활용하기