"내부 LLM이나 AI 솔루션을 개발 중이라면 이를 활용하는 것이 좋습니다… 어떤 유형의 콘텐츠에 가장 적합한지 파악해 보세요. 당사는 귀사의 솔루션에서 기대할 수 있는 결과물에 대한 이해를 통해 귀사의 여정을 도울 수 있어 기쁘게 생각합니다."
- Simone Lamont, 글로벌 솔루션 부문 부사장
번역에 문제가 있다고 느끼시나요? 대규모 언어 모델(LLM)이 급속히 발전함에 따라, 기업들도 이를 이용하여 번역을 자동화하고 번역 규모를 늘릴 새로운 방법을 모색하고 있습니다. 하지만 많은 기업이 실제 LLM 결과 때문에 난관에 봉착해 있습니다. 바로 여기서 생성형 AI 프로젝트가 성공할지, 비용만 허비하고 중단된 실험으로 끝날지 판가름 날 수 있습니다.
라이온브리지(Lionbridge)의 글로벌 솔루션 부문 부사장인 Simone Lamont가 진행한 웨비나 '번역 품질에 문제가 있나요?'에서는 기업이 번역 프로젝트에 LLM을 사용할 때 직면하는 주요 과제와 이를 극복하고 고품질의 다국어 콘텐츠를 확보하는 방법에 대해 설명했습니다.
웨비나의 전체 내용을 확인하려면 아래 버튼을 클릭하여 녹화본을 시청하세요.
전 세계 기업들이 AI 프로젝트를 시작하고 LLM을 워크플로에 통합하고 있습니다. 기대는 현실이 되기도 하지만 실망으로 바뀔 수도 있습니다.
실제로 AI 프로젝트의 72%가 수익을 거두기도 전에 중단됩니다. 그 이유는 번역 품질은 떨어지고, 환각과 오역이 자주 발생하며, 사내에 각 대상 언어로 LLM을 맞춤화할 전문 인력이 부족하기 때문입니다.
LLM은 엄청난 처리 속도와 작업 규모를 자랑하지만 신중하게 설정하지 않으면 이해관계자와 브랜드의 신뢰도를 해치는 오류를 유발할 수 있습니다.
기업들은 브랜드 이름의 오역, 숫자나 측정 단위 처리 오류, 용어의 일관성 결여 등의 문제를 보고합니다. 특히 적절한 언어 자산이 부족한 상태로 사내에서 LLM을 학습시킨 경우 더욱 그렇습니다.
또 다른 과제는 효과적인 프롬프트 엔지니어링을 위해서는 시간과 기술이 필요하다는 점입니다. 중국어, 독일어, 프랑스어와 같은 언어에 대한 맞춤형 솔루션을 만들기 위해서는 기술 전문성과 언어 전문성이 모두 필요한데, 이러한 전문성을 모두 갖춘 팀은 많지 않습니다. AI 기반 번역이 소규모 프로젝트에서 효과적이었다고 해도 기업 워크플로 규모로 확장하기는 쉽지 않습니다.
기본 설정 상태의 ChatGPT나 다른 LLM의 성능이 기업 번역에 사용해도 될 정도일까요? 라이온브리지 기계번역 추적 도구의 벤치마킹 결과에 따르면, 사전 학습된 표준 LLM은 일반적으로 기존 기계번역 엔진이나 하이브리드 솔루션에 비해 번역 성능이 떨어지는 것으로 나타났습니다. 미세조정 및 검색 증강 생성(RAG)을 활용하면 품질을 개선할 수 있습니다. 그러나 조직에 AI 기반 솔루션을 도입하기 전에 언제 어떤 방식으로 이러한 기술을 적용할지, 그 결과물을 어떻게 테스트할지 파악해야 합니다.
모든 콘텐츠에 동일한 수준의 번역 품질이 요구되는 것은 아닙니다. 이 웨비나에서는 콘텐츠 위험도와 비즈니스 요구사항에 맞춰 워크플로를 조정하는 일이 얼마나 중요한지를 역설합니다. 예를 들어, 마케팅용 보도자료에는 높은 정확도와 브랜드 일관성이 요구되는 반면, 업데이트가 빠른 웹사이트의 경우에는 문구가 약간 어색해도 허용될 수 있습니다.
병원 침대 사용 설명서와 인공 심박동기 매뉴얼의 정확도 요건은 매우 다릅니다.
의료 및 법률 문서의 경우 이견이 생기지 않을 정도로 오류가 전혀 없어야 합니다.
다른 콘텐츠 유형의 경우 완벽함보다는 속도와 비용이 더 중요할 수 있습니다.
콘텐츠를 이해하는 것은 필수입니다. 라이온브리지의 REACH 프레임워크는 투자수익, 참여, 잠재고객, 관리를 고려하여 적절한 접근방식과 각 사용 사례에 필요한 인력 투입 수준을 결정하도록 기준을 제시합니다. 정보 제공만을 위한 콘텐츠인지, 전문 콘텐츠나 규제 대상 콘텐츠인지, 혹은 영향력이 큰 콘텐츠인지 등과 같은 유형 파악을 바탕으로, 인적 검토가 필요 없는 수준부터 전문가가 완전히 검증하는 수준까지 LLM 기반 번역의 워크플로를 결정합니다.
번역 워크플로를 개선하기 위해서는 맞춤화가 중요합니다. 라이온브리지의 AI 우선 플랫폼인 Lionbridge Aurora AI™는 번역 메모리(TM), 용어집, 동적 프롬프트, LLM 보조 후편집을 활용하여 번역 품질을 높이는 동시에 투입되는 인력을 줄입니다. 각 사용 사례에 맞게 어조, 스타일, 용어를 맞춤화할 수 있으며 널리 쓰이지 않는 비주류 언어에도 맞춤화 적용이 가능합니다.
Simone은 지속적인 평가의 중요성을 강조했습니다. 라이온브리지는 용어, 정확성, 스타일, 지역별 관행 및 잠재고객과의 관련성을 기반으로 번역 품질을 분석하는 자동 평가 기능을 제공합니다. 평가에 따른 점수표를 바탕으로 기업은 자체 AI 솔루션의 강점과 약점을 파악하여 목표에 부합하도록 개선할 수 있습니다.
AI 솔루션이 작업에 적합한지는 어떻게 알 수 있을까요? 이 웨비나에서는 LLM 성능과 번역 품질을 평가할 수 있도록 실질적인 단계를 제시했습니다.
먼저 지금의 워크플로를 평가해 보세요. LLM의 결과물이나 기계번역 결과물을 사람에 의한 번역과 비교하세요.
라이온브리지의 자동 품질 평가 기능을 사용하여 용어, 스타일, 정확도 등 개선이 필요한 부분을 정확히 파악하세요.
비용, 처리시간, 허용 가능한 오류율 간 균형을 맞춰 다양한 콘텐츠 유형을 적절한 AI 워크플로에 배정하세요.
라이온브리지의 평가 서비스는 기업이 LLM 성능을 섣불리 추측하지 않도록 돕고자 번역된 콘텐츠 샘플을 받아 평가한 후 종합적인 점수표와 실행 가능한 인사이트를 제공해 드립니다. 이러한 데이터를 통해 기업은 위험 부담이 적은 특정 콘텐츠에는 사내 LLM을 활용하고, 위험도가 높은 프로젝트에는 전문적인 지원을 요청할 수 있습니다.
이번 웨비나에서는 LLM이 기대에 미치지 못할 때 성과를 극대화하는 방법에 대한 인사이트를 제공했습니다. 핵심 사항은 다음과 같습니다.
LLM 성능은 LLM 번역 솔루션, 관련 언어 자산, 맞춤화 수준에 따라 크게 달라집니다.
모든 콘텐츠에 동일한 수준의 번역 품질이 요구되는 것은 아닙니다. 비용, 처리 시간, 콘텐츠 위험도 간 균형을 이루면서 원하는 콘텐츠 결과물을 얻을 수 있도록 워크플로를 조정하세요.
기본 설정 상태의 LLM은 미세조정된 솔루션이나 하이브리드 솔루션에 비해 성능이 떨어지는 경향이 있습니다.
맞춤 프롬프트, 용어집, 번역 메모리(TM)를 사용하면 번역 품질이 향상됩니다.
고위험 콘텐츠나 규제 대상 콘텐츠의 경우 여전히 사람의 검토가 필수적입니다.
객관적인 데이터를 통해 AI 솔루션의 강점과 약점을 평가하고 정보를 기반으로 결정을 내리세요.
라이온브리지는 기업이 자체 LLM의 번역 결과물을 평가할 수 있도록 자동 평가 기능을 제공합니다.
라이온브리지가 다른 웨비나에서 다룬 AI 관련 주제가 궁금하다면 라이온브리지 웨비나 페이지에서 웨비나 녹화본 라이브러리를 확인해 보세요.
기대하는 품질의 번역 결과물을 얻기 위해 LLM 성능을 신뢰할 수 있는 수준까지 높이고 싶으신가요? 라이온브리지와 함께하시면 프로젝트를 평가하고 최적화 및 맞춤화하여 AI로 성공을 거둘 수 있습니다. 라이온브리지에 문의하여 지원을 받아보세요.
참고: 이 요약 블로그는 라이온브리지 콘텐츠 리믹스 앱으로 처음 작성한 후 사람이 수정한 콘텐츠입니다.