Traducción automática (en términos comprensibles)

Hoja de referencia: terminología en traducción artificial, de la inteligencia artificial a los modelos lingüísticos de gran tamaño

Última actualización: 14 diciembre 2023 17:38

Tras décadas de historia, la traducción automática (TA) está en auge y los avances en los modelos lingüísticos de gran tamaño (LLM, por sus siglas en inglés) generan un renovado interés entre el público y los círculos de servicios lingüísticos.

En los últimos años, todos los aspectos de la inteligencia artificial se han ido consolidando en el espíritu de nuestra era, y la IA generativa, la palabra de moda, ha captado la atención en todos los sectores. Sea cual sea su relación con el concepto de traducción automática, debe saber cómo hablar sobre ella.

A medida que las aplicaciones de inteligencia artificial se han hecho más accesibles para empresas y consumidores, surge un nuevo léxico de términos estrechamente relacionados. Si es un observador externo, ¿cómo entiende la diferencia entre términos que a veces se usan indistintamente?

¿Cómo se comprende la traducción automática?

Estamos aquí para ayudarle. En Lionbridge, contamos con algunos de los expertos en TA con más experiencia del mundo. Hemos trabajado con ellos para elaborar esta hoja de referencia con la que podrá conocer las sutiles diferencias (y las que no lo son tanto) de los términos que hacen que el sector siga avanzando.

PÓNGASE EN CONTACTO CON NOSOTROS

1. Inteligencia artificial

Para conocer las tendencias actuales en TA, primero debe familiarizarse con el escenario en que han surgido: una poderosa y atractiva inteligencia artificial. La IA es la «inteligencia» que las máquinas demuestran al realizar tareas que normalmente se considera que requieren algún tipo de pensamiento humano, como el aprendizaje o la resolución de problemas. En los últimos años, la IA se ha beneficiado del aumento de la potencia de los ordenadores. Los ordenadores más potentes ofrecen un procesamiento más intenso durante una tarea y un aprendizaje automático, que es la forma en que adquieren los conocimientos necesarios para las aplicaciones de IA, más avanzado.

2. Aprendizaje automático

El aprendizaje automático es una rama de la informática que utiliza cantidades masivas de datos para enseñar a los ordenadores a realizar tareas. El aprendizaje automático examina datos relacionados con una determinada tarea, encuentra patrones en esos datos y establece asociaciones entre ellos, y luego utiliza esos nuevos conocimientos para dar forma al modo en que el ordenador realiza la tarea. Si después de dicho análisis el ordenador mejora en la realización de la tarea, entonces decimos que la máquina ha aprendido o que se ha producido un aprendizaje automático.

Como disponemos de datos sobre casi todo lo que quepa imaginar, utilizamos el aprendizaje automático para mejorar el rendimiento de los ordenadores en todos los campos, desde el pronóstico del tiempo hasta la selección automática de acciones de bolsa, pasando por la traducción automática.

3. Traducción automática

En pocas palabras, la traducción automática es una traducción realizada por una máquina: se introduce un material en el idioma original en un ordenador y este lo devuelve en otro idioma. No es perfecta, pero es una de las herramientas más potentes con las que contamos para obtener traducciones de gran calidad de forma más eficaz.

En las últimas décadas, la TA ha mejorado en lo que se refiere a la calidad de sus resultados y la variedad de idiomas con los que se puede utilizar. Desde los sencillos sistemas de sustitución de palabras en los inicios de la TA hasta los léxicos y gramáticas de la TA basada en normas explícitamente codificadas, pasando por un paradigma de cálculos de la TA estadística o el aprendizaje profundo, las redes neuronales de la TA neuronal o los asombrosos resultados similares a los de un humano de la IA generativa, los avances de la TA reflejan el uso cada vez más sofisticado de los ordenadores.

Un holograma futurista que representa la traducción automática

4. Traducción automática estadística

La traducción automática estadística (Statistical Machine Translation, SMT) utiliza el aprendizaje automático para generar una gran cantidad de posibles traducciones para una determinada frase; luego, selecciona la mejor opción, basándose en la probabilidad de que las palabras y frases aparezcan juntas en el idioma de destino. La traducción automática estadística aprende de la traducción a través del prisma de los «engramas» (pequeñas agrupaciones de palabras que aparecen juntas en el idioma de origen y en el idioma de destino). En las fases de aprendizaje automático, se proporciona material de aprendizaje al sistema de traducción automática estadística: es decir, muchísimos ejemplos de oraciones en el idioma de origen y sus traducciones en el idioma de destino. El algoritmo de aprendizaje divide las oraciones de origen y las de destino en engramas. Luego determina qué engramas del idioma de destino es probable que aparezcan en una traducción cuando un determinado engrama del idioma de origen aparece en una frase.

A continuación, el algoritmo de aprendizaje crea un modelo lingüístico que calcula la probabilidad de que determinadas palabras o frases aparezcan unas junto a otras en el idioma de destino. Cuando se consigue el aprendizaje y llega el momento de traducir material nuevo, el sistema de traducción automática estadística divide la nueva oración original en engramas, busca los engramas del idioma de destino con un porcentaje más alto de coincidencia y genera posibles traducciones. La traducción final será esa frase cuyos engramas del idioma de destino se corresponden con un mayor porcentaje de coincidencia con los engramas de la frase original y cuyas palabras del idioma de destino tienen mayor probabilidad de aparecer juntas en este idioma.

La traducción automática estadística funciona sorprendentemente bien, en especial si se tiene en cuenta que no hay ningún componente lingüístico en un sistema de traducción automática estadística; de hecho, el sistema solamente tiene en cuenta los engramas, nunca una frase completa. Esto la distingue de otro concepto de TA: la traducción automática neuronal.

5. Traducción automática neuronal

La traducción automática neuronal supera el gran defecto de la traducción automática estadística: su dependencia del análisis de engramas. La traducción automática neuronal favorece las capacidades de la máquina; el sistema recibe el material de aprendizaje, al igual que ocurriría en la traducción automática estadística, pero existe una diferencia clave: cuando el sistema recibe el material, decide por sí solo cómo aprender todo lo posible sobre esa información.

Los sistemas de traducción automática neuronal crean vectores de información para cada frase de origen, asociando así la información de cada palabra con las palabras que la rodean. Algunos sistemas ofrecen cientos de datos por cada palabra, lo que mejora la precisión. Con el aprendizaje profundo, los sistemas de traducción automática neuronal captan una gran cantidad de información de cada palabra y oración de origen; luego, utilizan lo que se denomina un modelo de atención para centrarse en las características más importantes que se han aprendido a través del análisis de estos flujos masivos de datos y que son importantes para el proceso de traducción. El resultado son traducciones que muestran una notable mejora en la fluidez; así, las traducciones creadas por ordenador empezaron a sonar cada vez más naturales.

La traducción automática neuronal ha supuesto una auténtica revolución en nuestro sector y hemos incrementado el uso de la traducción automática para agilizar nuestros procesos de producción a la par que se desarrollaban los conjuntos de herramientas y mejoraba la tecnología. En 2022, los principales motores de traducción automática neuronal no lograron mejorar su calidad de manera considerable, una señal de que el paradigma estaba llegando a su fin y se estaban dando las condiciones propicias para un cambio revolucionario.

6. IA generativa y modelos lingüísticos de gran tamaño

La IA generativa es un sistema de inteligencia artificial (IA) con capacidad para generar contenido innovador, incluidos texto e imágenes, a partir de peticiones y de entrenamiento multimodal. Destaca por su capacidad para producir respuestas de una calidad similar a la de un humano. Un modelo lingüístico de gran tamaño es un sistema de IA centrado en idiomas. Es capaz de resumir, traducir, predecir y generar texto a partir del conocimiento adquirido de bases de datos masivas. A pesar de que no ha recibido un entrenamiento específico para traducir texto, es capaz de ocuparse de esta tarea con una buena calidad (aunque no excelente) y que sigue mejorando con gran rapidez. ChatGPT fue el primer modelo lingüístico de gran tamaño en popularizarse. Lo hizo a partir de noviembre de 2022 y atrajo a 100 millones de usuarios en solo dos meses tras su lanzamiento.

A medida que aumente su capacidad, la tecnología de IA generativa y de LLM se ocupará cada vez en mayor medida de actividades lingüísticas básicas y repetitivas. Esperamos que deje más margen para actividades humanas de mayor valor en estos tres ámbitos:

Concepción de contenidos: las personas ponen en marcha el proceso de creación de contenidos con la concepción de ideas.
Validación de contenidos: las personas garantizan la precisión, la seguridad y la autenticidad del contenido.
Análisis de contenidos: las personas permiten una supervisión más sólida y un mejor rendimiento.

Los servicios de gran valor, como la transcreación, serán más asequibles económicamente para las empresas y, en última instancia, permitirán a las marcas ofrecer contenidos que tengan más calado en los compradores y sean más convincentes y dignos de confianza para compradores de distintos países. Lionbridge está identificando aplicaciones para la IA generativa y desarrollando diversas aplicaciones para sacar el máximo partido de todas las capacidades de los LLM con el fin de automatizar el flujo de trabajo de la localización.

7. Traducción automática con modelos lingüísticos de gran tamaño

La traducción automática con modelos lingüísticos de gran tamaño (LLM) se refiere al uso de estos LLM para la traducción automática. Es posible que algún día la traducción automática con LLM sustituya al paradigma de la TA neuronal, pero la tecnología aún no está lo bastante desarrollada. Los LLM producen resultados adecuados y el modelo GPT-4 de OpenAI incluso superó al motor de traducción automática neuronal de Yandex para la combinación de idiomas inglés-chino en una evaluación de Lionbridge. No obstante, en el momento de redactar este artículo, los LLM no pueden igualar la velocidad, la calidad y la asequibilidad de los cinco principales motores de traducción automática neuronal, por lo que todavía no son un sustituto adecuado para ellos. Lionbridge supervisa el rendimiento de la traducción automática con LLM con el Lionbridge Machine Translation Tracker. El Tracker mide ahora también varios modelos de LLM, incluida la traducción automática de GPT-4.

8. Traducción de IA con intervención humana

La traducción de IA con intervención humana (o «humano en el bucle») combina el trabajo de humanos y máquinas para generar los resultados de traducción que se necesitan.

Aunque la IA generativa y los LLM mejoran la eficacia y la rentabilidad de la traducción, la intervención humana es indispensable por las siguientes razones:

La tecnología no puede sustituir al ingenio humano.
No se puede confiar en la tecnología por completo, sin supervisión.
La tecnología no puede funcionar de forma autónoma.

Los humanos superan algunos problemas clave que presentan los LLM y aportan valor añadido de estas formas:

Revisan el resultado traducido en su totalidad, lo que es especialmente importante para la coherencia. La tecnología de IA generativa/LLM da mejores resultados cuando los «prompts» (o peticiones) se limitan a unos cientos de palabras y esta restricción suele dar lugar a incoherencias en los fragmentos de traducción.
Incorporan varios glosarios e instrucciones por tipo de proyecto en una serie de prompts, para que la voz de la marca sea uniforme.
Generan prompts, el primer paso y un requisito fundamental para que la IA generativa y los LLM ofrezcan buenos resultados y algo que la tecnología no puede ejecutar por sí sola.
Crean plataformas sofisticadas y especializadas que organizan miles de prompts, reciclan su uso e intercalan instrucciones y glosarios según sea necesario para obtener los resultados deseados. Lionbridge ha diseñado y puesto en marcha una plataforma de iteración de prompts para reciclar e iterar prompts eficaces.
Determinan cómo integrar la tecnología de LLM en los flujos de trabajo existentes que aprovechan las memorias de traducción y la traducción automática neuronal para ahorrar tiempo, reducir el esfuerzo y recortar costes. El equipo especializado en IA de Lionbridge ofrece unos resultados sobresalientes en la armonización de los LLM en flujos de trabajo existentes.

Razones para elegir Lionbridge

En Lionbridge, hablamos con fluidez el idioma de la TA. Desde 2002 ofrecemos servicios de TA a gran escala y estamos a la vanguardia de la innovación. Visite nuestra página de liderazgo redactada por especialistas en TA para conocer las últimas tendencias en este campo.

Póngase en contacto con nosotros

¿Le interesa implementar herramientas de vanguardia para automatizar sus traducciones? Póngase en contacto con nosotros hoy mismo para obtener más información.

#blog_posts
#translation_localization

ESCRITO POR

Lionbridge

Rellene nuestro formulario de contacto para hablar con nosotros.

Nos encantará conocer sus necesidades e informarle acerca de cómo pueden ayudarle nuestras innovadoras funciones a traspasar fronteras y ampliar su alcance global. ¿Quiere descubrir nuevas posibilidades? Estamos deseando mostrárselas.

QUÉ HACEMOS

SECTORES

RECURSOS

QUIÉNES SOMOS