언어 선택 :

신경망 기계 번역: 언어 번역에서 인공 지능이 작동하는 방식

대부분의 마케팅 전문가가 말하듯이, 빅데이터의 폭발은 기업이 운영 효율화를 추구하고 혁신을 추진하는 방식에 혁신적인 변화를 일으켰습니다. 그리고 이러한 변화는 앞으로 진행될 일들의 시작에 불과합니다. 전문가들은 데이터 양이 매년 40%씩 증가할 것으로 예상하고 있습니다.

물론 기업은 데이터를 효과적으로 활용하는 방법을 모색하면서 정보 과부하 처리에 어려움을 겪기도 했습니다. 하지만 빅데이터는 또한 기업에 큰 기회를 제공합니다. 그중 하나는 로컬라이제이션을 통해 글로벌 비즈니스를 성취하는 것입니다.

로컬라이제이션 업계에 변화를 일으키는 요인에는 데이터 양의 엄청난 증가 외에도 두 가지 요인이 더 있습니다. 첫째는 컴퓨터 성능의 기하급수적 향상이고, 둘째는 딥러닝에 대한 높아진 관심입니다. 여기서 딥러닝이란 Google이 이미지 및 음성 인식 알고리즘에 사용하는 기계 학습의 한 유형입니다.

이러한 요인을 고려하면 최근 딥러닝에서 ‘신경망 기계 번역(NMT)’이라는 새로운 기능이 출현해 번역 및 로컬라이제이션에 혁신을 가져온 것도 놀라운 일이 아닙니다. 결국, 데이터 양이 늘어나고 기술이 점점 더 발전하면 번역 가능한 자료도 늘어나게 됩니다. 그렇다면 NMT란 정확히 무엇이며 어떻게 로컬라이제이션 효율성을 높일 수 있을까요?

Lionbridge의 기계 번역 담당 이사인 Jay Marciano는 최근 웨비나에서 NMT라는 더 정확한 새 번역법을 활용하는 방법과 이 번역 방식이 어떻게 업계 발전을 이끌고 있는지에 대해 다루었습니다.

신경망 기계 번역의 작동 방식

신경망 기계 번역은 비교적 새로운 패러다임으로, 2014년 말에 처음 그 이용 가능성이 논의되었습니다. 이에 앞서 기계 번역은 기존 번역의 데이터베이스를 이용하는 기계 학습법인 ‘번역 메모리’라는 통계 모델을 기반으로 이루어졌습니다.

NMT는 번역 메모리를 통해 학습된다는 점에서 통계적 기계 번역(SMT)과 유사하지만, 딥러닝 및 더 많은 양의 학습 데이터를 사용해 인공 신경망을 구축한다는 점에서 차이가 있습니다.

Marciano는 통계적 기계 번역의 작동 방식을 보여주기 위해 체스 게임을 예로 듭니다. 체스 프로그램에서는 제한된 공간에서 제한된 횟수의 이동만 할 수 있습니다. 이때 프로그램은 단순히 가능한 모든 이동을 계산해 가장 적합한 이동법을 찾습니다. 마찬가지로, SMT 시스템에서 기계 학습은 원문의 n-그램(한 문장의 단어를 6개씩 묶는 방식)과 대상 언어의 n-그램을 비교하여 상관관계를 찾는 방식으로 진행됩니다.

반면, 신경망 기계 번역은 Marciano의 설명에 따르면 신경계 "키우기"라고 설명할 수 있습니다. 그것은 마치 피아노를 치는 것과 같습니다. 실수를 하면 이를 기억하여 다시 치기를 완전히 통달할 때까지 반복합니다. 신경망 MT 시스템 또한 동일한 방식으로 신경망을 통해 문제를 해결하는 방식을 찾습니다.

이런 의미에서 신경망 MT는 제한적이고 때때로 부정확한 n-그램 기반 모델보다 훨씬 더 효과적입니다. 첫째로, NMT 시스템은 SMT 시스템처럼 CPU(중앙 처리 장치)에서 처리되는 대신 강력한 GPU(그래픽 처리 장치)에서 실행됩니다. 신경망 MT는 관련 데이터 양이 너무 많아서 문장을 번역하는 데 시간이 오래 걸린다는 단점이 있긴 하지만(마치 SMT 시스템이 그 이전의 규칙 기반 시스템보다 시간이 더 오래 걸린 것처럼) 통계적 MT는 6단어 묶음 외부에서 규칙이 발생할 경우 언어 처리에 큰 어려움을 겪습니다.

물론, NMT는 고도의 기술 콘텐츠 등을 번역할 때 몇 가지 문제에 부딪힐 수 있습니다. 예컨대, 신경망 기반 MT를 비롯해 기계 번역 시스템에서는 알려지지 않은 기술 약어를 포함하는 원본 자료를 제대로 번역하지 못합니다. 하지만 딥러닝에서는 독일어를 한국어로 번역할 때처럼 학습 데이터가 많지 않은 언어 방향에 대해서도 다른 언어의 원어 자료로부터 간접 또는 '피벗' 학습 데이터를 사용할 수 있는 가능성이 있습니다.

NMT와 SMT는 어떤 점에서 가장 크게 차이가 날까요? 딥러닝 알고리즘에 학습 자료를 제시할 때 우리는 무엇을 찾아야 할지를 알고리즘에 알려주지 않아도 됩니다. 그저 시스템이 원문 문장 전후의 문맥 단서 등 패턴을 직접 찾아내도록 합니다. 그러나 이 과정이 구체적으로 어떻게 일어나는지는 아직 여러 가지 면에서 수수께끼로 남아 있습니다.

신경망 MT와 빅데이터: 능력의 한계를 넘어서

신경망은 메타데이터가 첨부된 강아지 이미지 같은 지도식(supervised) 데이터로 시스템을 학습시키는 이미지 및 음성 인식 프로그램에서 처음으로 사용되었습니다. 이때 시스템은 메타데이터를 판독함으로써 이미지 내용을 강아지로 식별할 수 있습니다.

그런 다음, 시스템은 신경망을 통해 이미지와 내용을 연결시키는 최선의 경로를 찾기 위해, 잘못된 답이 얻어진 경우 더 나은 경로를 백업 및 탐색하여 결과적으로 올바른 답을 얻을 수 있는 신경 경로를 전개합니다. 이 경로는 그 이후에도 계속 강조됩니다.

음성 인식의 경우, 특정 언어로 녹음된 문장에 대한 올바른 트랜스크립션은 일반적으로 하나만 있으므로 딥러닝에서의 학습이 매우 간단합니다. 반면 번역의 경우에는 학습 자료에 '노이즈'가 더 많이 섞여 있으므로 작업이 더 복잡합니다.

그럼에도 불구하고 Marciano는 우리가 세상을 인식하고 분석하는 능력이 딥러닝과 빅데이터를 통해 그 한계를 넘어설 수 있다고 말합니다. 빅데이터에서는 그토록 방대한 양의 정보를 처리함으로써 인간의 인식 능력을 뛰어넘는 복잡한 패턴을 식별하고 이러한 패턴 간의 연관성을 파악할 수 있습니다.

그러나 NMT 과정의 그 심층에서 무슨 일이 일어나는지 파악하기는 어렵습니다. 처리 작업의 대부분은 복잡한 데이터의 '숨겨진 층(hidden layer)'에서 이루어지므로 우리는 신경망이 어떻게 결정을 내리는지 확인하기 어렵습니다.

바로 이런 이유로 우리는 그저 알고리즘에 학습 자료를 제시하기만 하고 그 밖의 다른 작업은 알고리즘이 알아서 수행하도록 합니다. 번역 결과가 정확하지 않으면 우리는 학습 자료를 수정합니다. Lionbridge 또한 GeoFluent를 사용하여 신경망 MT 결과물의 오류를 정정합니다.

BLEU와 같은 품질 평가 방법은 사용처가 점점 더 모호해지고 있습니다. 신경망 MT 시스템의 경우, 불명확한 이유로 참조 번역과는 다른 번역을 선택하면 설령 그것이 완전히 올바른 번역이더라도 용어 선택에 패널티가 부과될 수 있습니다.

신경망과 커뮤니케이션의 미래

신경망을 디버깅하고 결정 과정을 이해하는 것은 어렵지만 신경망 MT의 언어 구사력이 나날이 향상되는 것을 볼 때 이러한 기술에서 번역의 미래를 보는 것도 충분히 가능한 일입니다. 그렇다면, 현재 신경망 MT를 제공하는 다른 기계 번역 공급자가 있을까요?

간단히 답하면 없습니다. 현재 인터넷에서 바로 사용해볼 수 있는 신경망 MT 시스템에는 Google Translate(특정 컴퓨터 지원 번역[CAT] 도구에 통합 가능), Microsoft Translator, Systran Pure Neural Machine Translation의 세 가지 시스템이 있습니다. 그러나 Lionbridge는 완전한 학습 도구 세트와 함께 생산 준비가 완료된 시스템을 갖췄다는 점에서 다른 업체에 비해 약간 앞서 있습니다. Microsoft, Google, Systran, Baidu, Facebook, Amazon 및 기타 업체에서 올해 출시될 NMT 시스템에 대한 발표 내용을 확인해 보세요.

신경망 MT는 SMT 시스템과 비교해 가장 큰 개선이 기대되는 언어 방향에 대해 먼저 구축될 전망입니다. Lionbridge는 사용 가능한 신경망 번역 시스템을 평가하여 이러한 도구가 로컬라이제이션 프로세스에 적합하며 고객의 요구를 충족할 수 있는지 확인한 후 출시할 계획입니다. 당사의 기계 번역 아이디어 리더십 페이지를 방문하여 최신 MT 트렌드를 알아보세요. 

한 가지는 확실합니다. 신경망 MT가 앞으로의 판도를 바꿀 것입니다. 이 모델은 등장한 지 얼마 되지 않았음에도 불구하고 지난 10년 동안 번역 업계에 엄청난 발전을 가져왔습니다. 전통적인 방식의 번역과 기계 번역의 격차는 계속 좁아지고 있으며, Lionbridge는 이러한 격차를 더욱 좁히기 위한 방법을 계속해서 모색하고 있습니다.

신경망 MT의 이점과 Lionbridge에서 예측하는 기계 학습의 미래에 대해 좀 더 자세히 알아보려면 다음의 전체 웨비나를시청하세요. 신경망 MT란 무엇인가, 그리고 이것이 번역 효율에 미치는 영향은?

linkedin sharing button
  • #blog_posts
  • #translation_localization

Lionbridge
AUTHOR
Lionbridge