라벨이 기계번역인 게시물 표시

기계번역 & 포스트 에디팅

이미지
Written by 라일라 안녕하세요, 탐윈의 라일라입니다. 😊 오늘은 최근 번역학계에서 가장 뜨거운 감자라고 할 수 있는 기계 번역(Machine Translation)과 포스트 에디팅(post-editing)에 대해 간략하게 살펴보려고 합니다. 몇 년 전 한 설문조사에서, AI가 발전하게 되면 가장 먼저 사라질 직업에 ‘번역가’가 당당하게(?) 이름을 올린 적이 있는데요. 이로 인해 학계에서는 기계번역에 대해 논의를 하지 않을 수 없는 상황이라고 생각합니다. 그렇다면 정확하게 기계번역이라는 건 무엇일까요? 학계에서는 규칙 기반 기계번역, 통계기반 기계번역, 신경망 기계번역으로 단계를 나누어 그 동향을 추적하고 있습니다만, 오늘 포스팅에서는 기계번역의 매커니즘에 대해 알아보는 것보다 전체적인 시각에서 짧게 이야기를 나누고자 합니다. 기계가 결국 인간이 하는 번역을 대체하게 될까요? 여러분은 어떻게 생각하시나요? 학계에서도 이에 대해 다양한 의견이 있지만 ‘기계가 인간을 완벽하게 대체할 수는 없다’는 의견이 조금 더 우세한 편으로 보입니다. 기계를 이기고, 인간이 지고, 이런 피상적인 것보다는 ‘그렇다면 앞으로 우리는 어떻게 대처해야 할까?’라는 질문에 더욱 초점을 두고 있습니다. 기계는 앞으로 계속 발전할 것이니 그에 맞춰 인간도 대비를 해야 하는 셈이죠. 이러한 관점에서 기계번역과 더불어 ‘포스트 에디팅’이라는 개념도 함께 논의되고 있습니다. 어쩔 수 없이 따라붙는 필연적인 작업이라고 할 수 있는데요. 쉽게 말하자면 기계번역의 결과물의 오류를 인간이 수정하여 더욱 개선된 최종 결과물을 만들어내는 작업입니다. 이런 면에서 번역 분야에서 기계와 인간은 상생하게 되는 겁니다. 여러분께서 어느 분야에 몸을 담고 계시든, 구글 번역기나 네이버 파파고를 사용할 순간이 적어도 한 번은 오게 될 것입니다. 그만큼 기계번역은 생각보다 우리의 일상에 굉장히 깊게 스며들어 있습니다. 오늘 포스팅을 읽으시고 다음 번에 번역기를 사용하게 되신다면, 한 번쯤 앞으로의 기계번역은

번역 속도를 높이는 기계 번역(Machine Translation), 제대로 활용하기

이미지
Written by Song 기계 번역(Machine Translation, MT)은 1940년대 워렌 위버(Warren Weaver)에 의해 처음 언급된 이후 여러 단계로 발전해 왔습니다. 초기에는 ‘규칙 기반 기계 번역(RBMT)’으로서 번역의 대상이 되는 원문의 규칙을 개발자가 입력하고 그 규칙에 따라 시스템이 번역하는 방식이었습니다. 즉, 원문이 지닌 문법, 주어와 목적와 같은 단어의 순서 등 개발자가 입력한 규칙에 기반하여 언어를 변환하는 알고리즘이었습니다. 그러나 이 방식은 개발자가 각 언어에 해당하는 수많은 규칙을 직접 입력해야 하는 것은 물론 언어가 표현되는 변칙적인 형태를 시스템에 수동으로 입력하는 데 한계가 있었기에 이를 극복하기 위한 ‘말뭉치 기반 기계번역(Corpus-based Machine Translation)’이 탄생하였습니다. 이 방식은 크게 ‘예시 기반 기계번역(EBMT)’와 ‘통계 기반 기계번역(SMT)’로 나뉘었습니다. 예시 기반 기계번역은 번역 대상인 원문과 번역문 쌍을 데이터로 저장한 후 새롭게 번역이 필요한 원문에서 동일한 문장이 있을 경우 이러한 정보를 활용해 번역 결과를 산출하는 방식이고 통계 기반 기계번역은 원문과 번역문 언어의 관계도를 통계화하여 번역문을 만들어 내는 방식입니다. 이 후 현재의 딥러닝 알고리즘을 활용한 기계 번역, 인공 신경망 기반의 기계 번역(NMT)까지 가파른 속도로 발전하고 있으며 음성 인식, 이미지 및 자연어 처리 등 많은 기술에 기계 번역 알고리즘이 활용되면서 번역 관련 서비스들이 매우 활발하게 공급되고 있습니다. 미국의 구글(Google), 마이크로소프트(Microsoft), 페이스북(Facebook), 중국의 바이두(Baidu), 러시아의 얀덱스(Yandex), 한국의 네이버 등 해당 국가의 주요 포털사들이 자체 번역 서비스를 제공하고 있으며 번역 정확도 또한 나날이 높아지고 있습니다. 하지만 이러한 기계 번역의 눈부신 발전에도 불구하고 짧은 문장이나 단순한 구조의 문장을 제외하곤 원문