Using Machine Translation

번역에서 기계번역의 역할

AI, 대규모 언어 모델 등의 기계번역 용어 정리

대중과 언어서비스 업계에서 새로운 흥미를 불러일으키고 있는 대규모 언어 모델(LLM)의 발전과 더불어, 수십 년의 역사를 지닌 기계번역(MT)이 번성하고 있습니다.

최근 들어 AI가 대세로 확고히 자리잡은 가운데 생성형 AI(GenAI)가 최신 유행어로 부상하면서 다양한 업계의 관심을 끌고 있습니다. 기계번역과 직접적인 관련이 있는 사람이든 아니든 그 개념에 대해 알아야 할 필요가 있습니다.

기업과 소비자가 접할 수 있는 AI 응용 분야가 늘면서 이와 밀접한 관련이 있는 용어들도 대거 등장했습니다. 업계 전문가가 아닌 일반 사용자는 종종 비슷하게 사용되는 용어들의 차이를 어떻게 구분할 수 있을까요?

기계번역은 어떻게 이루어지는 것일까요?

라이온브리지(Lionbridge)가 설명해 드립니다. 라이온브리지에는 당사의 자부심이기도 한 세계적 수준의 숙련된 MT 전문가들이 포진해 있습니다. 당사는 이들과 협력하여 업계를 끊임없이 움직이는 용어의 미묘한 또는 그럴싸한 차이점을 알 수 있도록 돕기 위해 아래의 용어 목록을 정리했습니다.

1. AI

최근의 MT 트렌드를 이해하려면 먼저 기계번역이 등장하게 된 배경이자 엄청난 위력을 자랑하는 AI(인공지능)부터 이해해야 합니다. AI란 학습이나 문제해결과 같이 본래 사람의 사고 과정을 거쳐야만 할 수 있다고 여겨지던 작업을 기계가 수행하면서 보여주는 '지능'입니다. 최근 몇 년간 컴퓨터의 성능이 향상되자 AI가 수혜의 대상이 되었습니다. 성능이 더욱 강화된 컴퓨터가 주어진 작업을 처리하면서 한층 뛰어난 처리 능력을 발휘하고, AI 적용에 필요한 지식을 습득할 수 있는 수단인 기계학습도 발전하게 된 것입니다.

2. 기계학습

기계학습은 방대한 양의 데이터를 사용해 컴퓨터가 작업을 처리할 수 있도록 학습시키는 컴퓨터공학의 한 분야입니다. 기계학습에서는 특정 작업과 관련된 데이터를 검토하고 해당 데이터에서 패턴을 찾아 패턴 간의 연관성을 만듭니다. 이후 이런 방식으로 새로 익힌 내용을 활용하여 컴퓨터가 작업을 처리할 방법을 구상합니다. 이와 같은 분석 과정 이후 컴퓨터의 작업 처리 능력이 개선되면 이를 '기계학습이 이루어졌다'고 표현합니다.

상상할 수 있는 거의 모든 것에 대한 데이터를 보유한 덕에 이 데이터를 토대로 일기예보부터 자동 주식 종목 선정, 기계번역에 이르기까지 모든 분야에서 기계학습을 사용하여 컴퓨터의 성능을 개선하고 있습니다.

3. 기계번역(MT)

간단히 말해 기계번역(MT)은 자동 번역입니다. 한 언어로 된 소스 자료를 컴퓨터에 입력하면 다른 언어로 출력됩니다. 완벽하지는 않지만 기계번역은 고품질의 번역을 더욱 효율적으로 만들어낼 수 있는 가장 강력한 도구 중 하나입니다.

지난 수십 년 동안 MT 번역 결과물의 품질은 꾸준히 향상했고 지원하는 언어의 수도 계속 증가했습니다. 초창기 기계번역의 단순한 단어 교체 시스템부터 규칙 기반 MT의 명시적으로 코딩된 문법 및 어휘, 통계적 MT의 대량 고속 처리 패러다임, 신경망 MT의 딥러닝 및 신경망 네트워크, 생성형 AI의 사람이 번역한 것처럼 자연스러운 번역까지, 기계번역의 발전은 날로 정교해지는 인간의 컴퓨터 활용 방식이 반영된 결과입니다.

기계번역을 묘사한 미래형 홀로그램

4. 통계적 기계번역

통계적 기계번역(SMT)은 기계학습을 활용하여 주어진 원본 문장을 토대로 엄청난 수의 번역 후보군을 생성한 다음 그중 대상 언어에서 단어와 구문이 함께 나타날 가능성을 놓고 가장 적합한 번역을 선택합니다. SMT는 소스 언어 및 대상 언어에 함께 등장하는 단어의 소그룹인 'n-gram'이라는 렌즈를 통해 번역을 학습합니다. 기계학습 단계에서 SMT 시스템에 학습 자료가 제공됩니다. 바로 막대한 양의 소스 언어 예시 문장과 이를 대상 언어로 번역한 문장입니다. 학습 알고리즘이 소스 문장과 대상 문장을 n-gram으로 분할한 다음 특정 소스 언어의 n-gram이 문장에 나타날 경우 어떤 대상 언어의 n-gram이 번역 결과에 나타날 가능성이 높은지 판단합니다.

이후 학습 알고리즘은 해당 단어 및 구가 대상 언어에 나란히 등장할 확률을 계산하는 언어 모델을 구축합니다. 학습이 완료되면 새 자료를 번역합니다. SMT 시스템은 새로운 소스 문장을 n-gram으로 분할하고 가장 관련성이 높은 대상 언어 n-gram을 찾아 후보 문장을 생성합니다. 최종 번역은 대상 언어 n-gram이 소스 문장의 n-gram과 가장 연관성이 높고, 해당 단어가 대상 언어에서 함께 등장할 가능성이 가장 높은 문장입니다.

SMT 시스템이 전혀 언어적이지 않다는 점을 고려해 보면 SMT의 성능은 놀라울 정도로 우수합니다. 실제로 시스템은 포괄적인 문장이 아닌 n-gram만을 고려합니다. 이러한 접근 방식은 또 다른 유형의 MT인 신경망 기계번역의 접근 방식과는 다릅니다.

5. 신경망 기계번역

단어가 아닌 문장을 번역 단위로 간주해 번역하는 신경망 기계번역(NMT)은 SMT의 가장 큰 단점인 n-gram 분석에 의존하는 문제를 극복했습니다. NMT는 SMT와 마찬가지로 시스템에서 학습 자료를 받되 시스템에 자율권을 부여한다는 점에서 결정적인 차이가 있습니다. 자료를 받은 후 이 데이터에서 익힐 수 있는 모든 정보의 학습 방법을 시스템이 스스로 결정하는 것입니다.

NMT 시스템은 각 소스 문장의 정보 벡터를 구축하여 각 단어에 대한 정보를 주변 단어와 연결합니다. 일부 시스템의 경우 단어당 수백 개의 정보를 생성하므로 정확도가 매우 높아집니다. NMT 시스템은 딥러닝을 통해 각 단어 및 소스 문장에 관한 정보를 엄청나게 수집한 다음, 번역 프로세스에 꼭 필요한 이 방대한 데이터 스트림을 이른바 '어텐션 모델'을 사용하여 분석하고, 이를 통해 추려낸 핵심 정보에 집중합니다. 그 결과 번역된 글의 문맥이 크게 개선되었으며 컴퓨터로 생성한 번역이 갈수록 자연스러워졌습니다.

NMT는 로컬라이제이션 업계의 판도를 바꾸었습니다. 도구세트가 충분히 발전하고 기술이 향상함에 따라 라이온브리지는 기계번역의 활용을 늘려 생산성을 가속화하고 있습니다. 그러나 2022년에 주요 신경망 기계번역 엔진은 품질이 거의 개선되지 않았고, 이는 NMT 패러다임의 종말과 판도 변화의 조짐을 알리는 신호탄이 되었습니다.

기술 네트워크

6. 생성형 AI와 대규모 언어 모델

생성형 AI는 프롬프트 및 포괄적인 다중양식 학습을 기반으로 텍스트와 이미지를 비롯한 새로운 콘텐츠를 생성할 수 있는 AI 시스템입니다. 이 시스템은 사람이 직접 번역한 것과 비슷한 수준으로 번역할 수 있다는 점에서 주목을 받고 있습니다. 대규모 언어 모델(LLM)은 언어에 초점을 맞춘 AI 시스템으로, 방대한 데이터베이스를 통해 얻은 지식을 바탕으로 텍스트를 요약, 번역, 예측, 생성할 수 있습니다. 이 LLM은 텍스트 번역에 필요한 학습을 따로 하지 않았는데도 뛰어나진 않지만 양호한 수준의 번역 실력을 드러냈고 품질도 빠르게 개선되고 있습니다. 챗GPT는 2022년 11월에 등장하자마자 대세가 된 최초의 LLM으로, 출시 후 두 달 만에 1억 명의 사용자를 끌어모았습니다.

생성형 AI와 LLM의 역량이 확대됨에 따라 반복적이고 핵심적인 언어 활동에서 이러한 기술이 미치는 영역이 더욱 커질 것입니다. 이에 따라 사람은 다음 세 가지 영역에서 고부가가치 활동에 집중할 수 있을 것으로 기대됩니다.

  • 콘텐츠 구상 - 아이디어의 발상을 통해 콘텐츠 작성 프로세스를 촉진할 수 있습니다.
  • 콘텐츠 검증 - 콘텐츠의 정확성, 보안, 사실 여부를 확인할 수 있습니다.
  • 콘텐츠 분석 - 모니터링을 강화하고 성과를 개선하는 데 집중할 수 있습니다.

기업은 트랜스크리에이션과 같은 고부가가치 서비스를 보다 저렴하게 이용할 수 있으므로 궁극적으로 고객에게 더 큰 호응을 이끌어내고, 여러 국가의 구매자에게 더욱 설득력 있고 신뢰할 수 있는 콘텐츠를 제공할 수 있게 될 것입니다. 라이온브리지는 생성형 AI의 사용 사례를 파악하고 LLM을 최대한 활용하여 로컬라이제이션 워크플로를 자동화하는 애플리케이션을 개발하고 있습니다.

7. 대규모 언어 모델 기계번역

대규모 언어 모델 기계번역(LLM MT)이란 기계번역에 대규모 언어 모델을 사용하는 것을 말합니다. 아직은 충분히 개발되지 않은 상태이지만 언젠가는 신경망 MT 패러다임을 대체할 수 있다고 봅니다. LLM의 번역 품질은 괜찮은 수준으로, 라이온브리지가 실시한 한 평가에서 OpenAI의 GPT-4 모델이 내놓은 영어-중국어 쌍의 번역 품질이 Yandex의 신경망 기계번역 엔진을 뛰어넘기도 했습니다. 하지만 현재 시점에서 LLM은 속도, 품질, 경제성 측면에서 5대 주요 신경망 기계번역 엔진에 필적할 수는 없으므로 신경망 MT 엔진을 대체하기에는 아직 무리입니다. 당사는 라이온브리지 기계번역 추적 도구를 통해 LLM 기계번역의 성능을 모니터링합니다. 현재 이 도구는 GPT-4 기계번역 평가를 포함하여 여러 LLM 모델의 성능을 측정하고 있습니다.

8. 휴먼인더루프 AI 번역

휴먼인더루프(Human-in-the-loop) AI 번역이란 원하는 수준의 번역 결과를 내기 위해 인간과 기계의 노력을 결합하는 것을 말합니다.

생성형 AI나 LLM은 번역 효율과 비용 효과를 향상시키지만 그럼에도 다음과 같은 이유로 사람의 개입이 반드시 필요합니다.

  • 기술이 사람의 독창성을 대신할 수 없다.
  • 사람의 감독 없이는 전적으로 기술을 신뢰할 수 없다.
  • 기술은 독립적으로 실행될 수 없다.

다음은 사람이 개입하여 LLM에서 드러난 몇몇 주요 문제를 해결하고 가치를 증진하는 방법입니다.

  • 번역된 결과물을 전체적으로 검토합니다. 이는 번역의 일관성을 유지하기 위해 반드시 필요합니다. 생성형 AI 및 LLM 기술은 프롬프트가 수백 단어는 유지해야 가장 좋은 성능을 발휘하는데, 이 때문에 일관성이 떨어지는 번역 결과물이 생성되는 문제가 종종 발생합니다.

  • 프로젝트 유형별로 일련의 프롬프트에 여러 용어집과 지침을 주입시켜 일관된 브랜드 보이스를 구현합니다.

  • 프롬프트를 작성합니다. 이는 생성형 AI 및 LLM 기술이 자체적으로 실행될 수는 없는 경우 효과적인 성능을 낼 수 있도록 하는 첫 번째 단계이자 핵심 요건입니다.

  • 정교한 전용 플랫폼을 구축하여 수천 개의 프롬프트를 작성하고, 사용 사례를 재활용하며, 원하는 결과물을 얻기 위해 필요에 따라 지침과 용어집을 주입시킵니다. 라이온브리지는 효과적인 프롬프트를 재활용하여 반복 사용할 수 있도록 설계된 프롬프트 반복 플랫폼을 출시했습니다.

  • 번역 메모리와 신경망 기계번역을 함께 사용하는 기존 워크플로에 LLM 기술을 통합하여 시간을 절약하고, 인력 소모를 줄이고, 비용을 절감하는 방법을 결정합니다. 라이온브리지의 전담 AI팀은 LLM을 기존 워크플로에 통합하는 데 탁월합니다.

라이온브리지를 선택해야 하는 이유

라이온브리지는 MT 언어를 능숙하게 사용합니다. 당사는 2002년부터 대규모 MT 서비스를 제공해 왔으며 유망한 최신 기술 개발에 앞장서고 있습니다. 기계번역의 최신 동향은 기계번역 사고의 리더십 페이지에서 확인하세요.

문의하기

번역 자동화를 위한 최신 도구 구현에 관심이 있으신가요? 자세한 내용은 지금 바로 문의하여 알아보세요.

  • #blog_posts
  • #translation_localization
linkedin sharing button

작성자
라이온브리지

상담 받기

비즈니스 이메일을 입력하세요