A person’s arms reaching toward circular geometric shapes

En una reciente evaluación de la traducción automática, un modelo de IA generativa ha presentado un mejor rendimiento que un motor de traducción automática neuronal

¿Supondrá este hito el principio del fin del paradigma de la traducción automática neuronal?

Última actualización: 12 mayo 2023 9:13

Por primera vez desde que realizamos las evaluaciones comparativas de traducción automática (TA), un modelo de inteligencia artificial (IA) generativa ha obtenido un mejor resultado que un motor de traducción automática neuronal (NMT). En concreto, GPT-4, un modelo lingüístico de gran tamaño (Large Language Model, LLM), ha presentado un rendimiento ligeramente superior al de Yandex en la combinación de inglés a chino.

Resulta interesante examinar las implicaciones que este avance trae consigo.

De tratarse de una señal que sugiera que el paradigma de la traducción automática neuronal está llegando a su fin o que experimentará un cambio drástico, podemos aguardar una transformación en los resultados de la traducción automática que incluirá una mejora en la calidad, una mayor adopción y la capacidad de producir más contenido.

Los proveedores de TA deberán situarse a la vanguardia de este avance tecnológico y analizar el impacto que este tendrá en sus actuales motores de TA con el fin de presentar una oferta que aproveche al máximo estos avances. Las personas que adquieran una TA deben estar al tanto de estas innovaciones para poder realizar inversiones inteligentes, lo cual, probablemente, incluirá algunas tecnologías basadas en LLM en lugar de soluciones de traducción automática neuronal pura.

CONTACTE CON NOSOTROS

Los modelos LLM obtienen un mejor resultado que los motores de TA neuronales: ¿qué relevancia tiene este avance?

Aunque el resultado de esta evaluación supone una auténtica revolución, es necesario ponerlo en perspectiva, pues dicho resultado solamente se refiere a un modelo en una única combinación lingüística. El modelo LLM solamente obtuvo un mejor rendimiento que un motor de NMT de los cinco analizados y únicamente en un tipo de evaluación de la TA, la evaluación de múltiples referencias. Por tanto, ¿podemos afirmar que este logro es realmente importante? Por supuesto que sí.

Aunque esta constatación puede parecer insignificante dentro del contexto anterior, sí es digna de mención porque es la primera vez que un enfoque distinto sobre la traducción automática (TA) ha superado a un motor de TA neuronal desde la aparición de este tipo de motores. Además, el motor de NMT ha sido superado por un enfoque distinto al de la TA, ya que el nuevo modelo consiste en una automatización lingüística para múltiples fines que no ha sido diseñada específicamente para la traducción automática. Este último detalle es lo que convierte en extraordinario el hecho de que un modelo lingüístico de gran tamaño como GPT-4 haya superado a un motor de NMT.

¿Qué implicaciones tiene el notable resultado de traducción obtenido por ChatGPT-4 para el paradigma de la traducción automática neuronal?

Desde febrero de 2022, hemos cuestionado públicamente la posibilidad de que se produjera un cambio en el paradigma de la TA en un futuro relativamente próximo. Si desea conocer nuestra opinión sobre este tema durante todo este tiempo, consulte nuestros comentarios sobre la herramienta de seguimiento de la traducción automática MT Tracker. Estos últimos resultados comparativos aportan pruebas adicionales de que se avecina un cambio importante.

Sin embargo, no debemos extraer conclusiones tan rápido. Todavía es muy pronto para afirmar que los modelos lingüísticos de gran tamaño sustituirán a los motores de NMT y proclamar que dicho cambio es inminente es una auténtica osadía. Necesitamos más tiempo para evaluar muchos más datos. Es necesario contemplar múltiples factores, y la tecnología de los LLM deberá mejorar considerablemente para que pueda constituir una solución de traducción viable para las empresas.

Es probable que el cambio de paradigma comience con la adopción por parte de los motores de NMT de algunos enfoques de los LLM, ya que las tecnologías de NMT y de LLM comparten múltiples puntos en común.

¿En qué se diferencian los resultados de las traducciones elaboradas con tecnologías NMT y LLM en las tres combinaciones lingüísticas analizadas?

A continuación, realizaremos una comparación de las traducciones obtenidas por los cinco principales motores de traducción automática neuronal y algunos modelos de GPT en tres combinaciones lingüísticas.

Hemos calculado el nivel de calidad en cuanto a la distancia de edición inversa, empleando múltiples referencias para las siguientes combinaciones lingüísticas: del inglés hacia el chino (EN-ZH), del inglés hacia el español (EN-ES) y del inglés hacia el alemán (EN-DE).

La distancia de edición mide el número de ediciones que un traductor humano debe realizar en el texto producido por una TA para que la traducción resultante sea igual de buena que una traducción humana. Para llevar a cabo nuestro cálculo, comparamos el resultado de la TA sin procesar con diez traducciones distintas realizadas por humanos, es decir, con múltiples referencias, y no solo con una única traducción humana. La distancia de edición inversa supone que cuanto mayor sea el número resultante, mejor será la calidad.

En la figura 1 se puede ver que apenas existen diferencias en la distancia de edición inversa entre los motores de NMT y los LLM, lo que implica que han presentado un rendimiento similar. Sin embargo, en particular, el modelo lingüístico de gran tamaño GPT-4 obtuvo una calidad de la traducción ligeramente superior que el motor de NMT Yandex en la combinación del inglés hacia el chino.

Comparación del grado de calidad de la traducción automática entre los modelos de GPT y los principales motores de TA neuronal en la combinación lingüística inglés-chino

Los resultados de traducción en las combinaciones del inglés hacia el español y del inglés hacia el alemán se muestran, respectivamente, en las figuras 2 y 3. En ambos casos, todos los motores de TA neuronal presentaron un mejor rendimiento que los LLM, tal y como había sucedido hasta la fecha.

Como esperábamos, cuanto mejor sea el modelo de GPT, mejores serán los resultados de la TA. Prueba de ello es que GPT-4 ha obtenido un mejor rendimiento que ChatGPT y GPT-3.

¿Puedo confiar en los modelos lingüísticos de gran tamaño para utilizar mis traducciones en un entorno profesional?

La IA generativa todavía se encuentra en sus primeras fases y no ha terminado de evolucionar por completo. Por consiguiente, presenta ciertas carencias en algunos ámbitos clave. En nuestro artículo sobre ChatGPT y localización se pone de manifiesto que esta tecnología no dice la verdad, no tiene la más remota idea de las cosas y tampoco sabe contar. ¿Está dispuesto a confiar en ella? Cuidado,

sus deficiencias deberían ser un motivo de preocupación para las empresas.

Una persona de perfil observando una pantalla

Variabilidad

Nuestra evaluación demuestra que los resultados de GPT son variables, es decir, pueden cambiar de un proceso a otro. Este fenómeno se puede observar en las figuras 2 y 3, en las cuales la primera y la segunda instancia obtienen resultados distintos.

En cierto modo, este resultado no nos sorprende. Sin embargo, esta variabilidad resulta esencial a la hora de sopesar si emplear los LLM en las traducciones profesionales, ya que la previsibilidad es algo imprescindible.

Cuando las empresas traducen su contenido, hay poco margen para el azar. Los resultados de la TA deben ser más deterministas de lo que actualmente ofrece la IA generativa. Por lo general, la coherencia es una de las características que se espera que ofrezca la TA profesional, así como otros usos de los LLM para fines profesionales.

Los resultados puramente deterministas se oponen a la naturaleza de los modelos generativos, en los cuales se supone y se asume cierto nivel de creatividad o variabilidad. Esto está bien e incluso resulta deseable en algunos casos, pero no en todos. Es esencial contar con un mecanismo que permita controlar la variabilidad (más allá de utilizar el ajuste de «Temperatura», es decir, el ajuste que debería controlar la «creatividad» del LLM).

Todavía no está claro cuál es el mejor enfoque para controlar la variabilidad en los modelos generativos. Quizás los usuarios puedan solucionar este problema a través de algunas indicaciones predefinidas y de una combinación de ajustes para tareas concretas; sin embargo, será necesaria una solución más concreta.

La ausencia de previsibilidad no encaja demasiado bien con gran parte de las aplicaciones empresariales.

Inestabilidad de la API

Otro de los problemas que actualmente plantean los LLM es la inestabilidad de su interfaz de programación de aplicaciones (API).

La mayoría de las aplicaciones de IA generativa todavía se encuentran en sus primeras fases de implantación. Por otra parte, la enorme demanda aumenta considerablemente el uso de su API. La combinación de estos dos factores plantea problemas. Esto es algo evidente, pues la gente se encuentra con más problemas al emplear estas aplicaciones que al recurrir a otras tecnologías más maduras.

Errores

En los resultados de la TA elaborada por los LLM hemos detectado una serie de errores relacionados con la precisión que no estaban presentes en los resultados de la NMT o que sí aparecían, aunque en un porcentaje muy inferior.

Entre otros, se detectaron alucinaciones (es decir, términos inventados o que no aparecen en el texto de origen) o problemas de concordancia, relacionados con la correspondencia dentro del texto (por ejemplo, la unión de un adjetivo o determinante de género femenino con un sustantivo de género masculino, y viceversa).

Como se muestra en la tabla 1, en la traducción hacia el español, el LLM empleó una palabra rara y, posiblemente, demasiado coloquial como es «marketeros». Una traducción precisa, en este caso, sería «responsables del marketing». En el caso de las traducciones hacia el alemán o el chino, los LLM cometieron errores similares. Vigilar los errores catastróficos de la TA es, por tanto, algo sumamente importante, ya que, de lo contrario, las marcas pueden tener que enfrentarse a consecuencias económicas, jurídicas o para su reputación en función de la gravedad del error.

Tabla 1. Ejemplos de términos «inventados» o «alucinaciones» en el resultado de la TA obtenido con un LLM

Inglés - Español (EN-ES)
Inglés - Alemán (EN-DE)
Inglés - Chino (EN-ZH)

Origen	As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture.
Destino	Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera.
Comentario	Opción correcta: «responsables del marketing»

Origen	Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions
Destino	Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben.
Comentario	Opciones correctas: «Vermittler» y «bankähnlichen»

Origen	See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability.
Destino	看看本田如何利用推特的即时赢取功能为一个好事业赢得提升，同时也获得购买意向和品牌可喜度的提升。
Comentario	Opciones correctas: «公益事业» y «好感度»

Tabla 1. Ejemplos de términos «inventados» o «alucinaciones» en el resultado de la TA obtenido con un LLM
Idioma	Origen	Destino	Comentario
Inglés - Español (EN-ES)	As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture.	Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera.	Opción correcta: «responsables del marketing»
Inglés - Alemán (EN-DE)	Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions	Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben.	Opciones correctas: «Vermittler» y «bankähnlichen»
Inglés - Chino (EN-ZH)	See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability.	看看本田如何利用推特的即时赢取功能为一个好事业赢得提升，同时也获得购买意向和品牌可喜度的提升。	Opciones correctas: «公益事业» y «好感度»

Como se muestra en la tabla 2, el LLM cometió errores de concordancia o relacionados con caracteres al realizar las traducciones hacia los tres idiomas de destino. Por ejemplo, utilizó la palabra «otras» en español en lugar de la forma masculina. Estos tipos de errores pueden minar la confianza de los consumidores en las marcas.

Tabla 2. Ejemplos de errores de concordancia y caracteres

Inglés - Español (EN-ES)
Inglés - Alemán (EN-DE)
Inglés - Chino (EN-ZH)

Categoría	Error de concordancia
Origen	The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music.
Destino	El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna.
Comentario	Debería haberse utilizado la forma masculina («otros»)

Categoría	Error de concordancia
Origen	Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand.
Destino	Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen.
Comentario	Debería haberse empleado el indefinido en acusativo («Reiniger»)

Categoría	Error de escritura
Origen	Handle the fiber with care as damage may occur if struck or bent sharply.
Destino	小心處理纖維，因為如果受到撞擊或急劇彎曲可能會損壞。
Comentario	Caracteres en chino tradicional

Tabla 2. Ejemplos de errores de concordancia y caracteres
Categoría	Idioma	Origen	Destino	Comentario
Error de concordancia	Inglés - Español (EN-ES)	The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music.	El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna.	Debería haberse utilizado la forma masculina («otros»)
Error de concordancia	Inglés - Alemán (EN-DE)	Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand.	Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen.	Debería haberse empleado el indefinido en acusativo («Reiniger»)
Error de escritura	Inglés - Chino (EN-ZH)	Handle the fiber with care as damage may occur if struck or bent sharply.	小心處理纖維，因為如果受到撞擊或急劇彎曲可能會損壞。	Caracteres en chino tradicional

El veredicto: ¿estamos ante el principio del fin del paradigma de la NMT?

En nuestra opinión, no estamos ante el principio del fin del paradigma de la NMT. Como hemos explicado, desde hace algún tiempo, existen señales que sugieren que la NMT ha madurado y que es probable que se produzca un cambio de paradigma. Nos encontramos en un proceso continuo que nos dirige hacia ese fin.

Comenzamos cuestionando si el predominio del paradigma en su forma actual estaba llegando a su fin tras percibir que la calidad de los cinco principales motores de NMT comenzaba a estancarse, puesto que no presentaba mejoras importantes, Esto se puede ver en la figura 4, donde se muestra la evolución de la calidad de los resultados de los cinco principales motores de NMT entre mayo de 2018 y diciembre de 2022 para el alemán, el español, el ruso y el chino utilizando la distancia de edición inversa.

Rendimiento de los motores de traducción automática neuronal

Las escasas mejoras en la calidad obtenidas durante 2022 nos llevaron a concluir que la NMT se había estancado, de un modo similar a lo que había sucedido al final del anterior paradigma central de la TA, el paradigma estadístico. La herramienta Machine Translation Tracker de Lionbridge es el sistema de evaluación de los principales motores de TA que más tiempo lleva realizando este tipo de seguimiento y ofrece información adicional sobre el rendimiento de los cinco motores de NMT.

Aunque los últimos avances en la calidad de la traducción por medio de un modelo de IA generativa pueden acercar todavía más el final del paradigma de la NMT tal y como lo conocemos, a esta tecnología todavía le queda un largo camino por recorrer.

Es importante resaltar que la mayoría de las aplicaciones de IA generativa continúan en las primeras fases de implantación. Por tanto, existen problemas, como los que hemos resaltado previamente, que deberán solucionarse y que están en proceso de resolverse. Ya estamos asistiendo a la introducción de ciertas mejoras a una velocidad sorprendente. En las últimas pruebas realizadas en ChatGPT-4, algunos de estos problemas ya se habían resuelto. La increíble velocidad a la que se pueden mejorar los LLM respalda la idea de que esta tecnología se convertirá en el siguiente paradigma de la traducción automática.

Lo más probable es que los proveedores de TA neuronal integren algunos aspectos de los LLM en la arquitectura de la NMT en lugar de que los LLM superen el paradigma actual en conjunto a medida que evoluciona el paradigma. Ya hemos sido testigos de otros períodos híbridos similares cuando el sector de la TA pasó del modelo de TA basado en reglas (RBMT) a la TA estadística (SMT).

¿El rendimiento de la traducción de la IA generativa impresiona a los traductores?

¿Qué opinan los traductores humanos de la IA generativa? A tenor de sus deficiencias, los responsables de realizar la evaluación, quienes compararon el rendimiento de los motores de TA neuronales y los LLM, indicaron que siguen prefiriendo el resultado de la TA neuronal al resultado de los LLM. Los evaluadores han expresado constantemente esta preferencia, incluidos los responsables de la evaluación de los resultados de chino.

No cabe duda de que la IA generativa seguirá evolucionando y de que nosotros estaremos aquí para ayudarle a estar al tanto de los frenéticos avances.

Póngase en contacto con nosotros

Lea nuestro artículo del blog para conocer nuestra opinión acerca del rendimiento de la traducción de ChatGPT y las implicaciones que esto tiene para el futuro de la localización.

¿Le gustaría descubrir cómo Lionbridge le puede ayudar a aprovechar de manera eficaz la traducción automática? Póngase en contacto con nosotros hoy mismo.

AUTORES

Rafa Moral y Janette Mandell

#translation_localization
#ai
#generative-ai
#blog_posts

QUÉ HACEMOS

SECTORES

RECURSOS

QUIÉNES SOMOS