Traduction automatique neuronale : comment l'intelligence artificielle opère pour traduire dans différentes langues

Dernière mise à jour : 17/02/2017 17:43

Comme la plupart des professionnels du marketing le savent, l'explosion du big data a révolutionné la manière dont les entreprises stimulent l'efficacité opérationnelle et l'innovation, et cette tendance va se poursuivre. D'après les experts, les volumes de données vont continuer d'augmenter de 40 % chaque année.

Alors que les entreprises trouvent des moyens efficaces d'exploiter les données, elles font évidemment face à des difficultés pour gérer les surcharges d'informations. Néanmoins, le big data offre de grandes opportunités, dont la possibilité pour une entreprise de bénéficier d'une visibilité à l'échelle internationale grâce à la localisation.

En plus des fortes augmentations des volumes de données, deux autres facteurs révolutionnent le secteur de la localisation. Premièrement, la croissance exponentielle de la puissance des ordinateurs, puis l'intérêt accru vis-à-vis de l'apprentissage approfondi : un type d'apprentissage automatique que Google utilise dans ses algorithmes de reconnaissance vocale et d'image.

Si l'on tient compte de ces facteurs, il n'est pas surprenant que l'apprentissage approfondi ait apporté une vague de changement dans le secteur de la traduction et de la localisation connue sous le nom de traduction automatique neuronale (NMT). Après tout, à l'image des volumes de données et des évolutions technologiques, les supports traduisibles ne cessent de croître. Concrètement, qu'est-ce que la NMT et comment augmente-t-elle l'efficacité de la localisation ?

Dans le cadre d'un webinaire récent, Jay Marciano, directeur de la traduction automatique de Lionbridge, a parlé de l'application de cette nouvelle méthode de traduction plus précise et de la manière dont elle fait évoluer le secteur.

Fonctionnement de la traduction automatique neuronale

La traduction automatique neuronale est une technologie relativement récente, qui a vu le jour fin 2014. Avant cela, la traduction automatique s'appuyait sur un modèle statistique dans lequel l'apprentissage automatique repose sur une base de données regroupant les traductions précédentes, appelées mémoires de traduction.

Tandis que la NMT, comme la traduction automatique statistique, s'entraîne toujours sur des mémoires de traduction, elle utilise l'apprentissage approfondi (et possiblement un volume de données d'entraînement plus élevé) pour développer un réseau neuronal artificiel.

Pour expliquer le fonctionnement de la traduction automatique statistique, Marciano fait le parallèle avec un jeu d'échecs. Dans un programme d'échec, il existe un univers limité dans lequel il est possible de réaliser un nombre limité de déplacements. Le programme calcule simplement tous les déplacements possibles pour trouver le meilleur. De la même manière, l'apprentissage automatique d'un système de traduction automatique statistique compare les n-grammes, ou des groupes de six mots, d'une phrase source avec ceux de la langue cible pour trouver des corrélations.

D'autre part, selon Marciano, la traduction automatique neuronale permet de créer un système neuronal. C'est comme le piano : lorsque vous faites une erreur, vous revenez en arrière et vous réessayez jusqu'à ce que vous réussissiez. Les systèmes de traduction automatique neuronale parcourent les réseaux neuronaux de la même façon.

En ce sens, la traduction automatique neuronale est bien plus efficace que le modèle basé sur les n-grammes, qui est limité et souvent imprécis. D'une part, à l'inverse des systèmes de traduction automatique statistique (SMT), les systèmes de NMT sont exécutés sur des GPU (processeurs graphiques) puissants et non sur des CPU (processeurs). Et, même si la NMT est plus lente pour traduire une phrase en raison de la richesse des données incluses, comme l'étaient les systèmes de SMT par rapport aux systèmes plus anciens basés sur les règles, la traduction automatique statistique présente des problèmes importants avec les langues où les règles dépassent les groupes de six mots.

Bien entendu, la NMT rencontre toujours quelques problèmes : lors de la traduction de contenu hautement technique, par exemple. Toutefois, aucun système de traduction automatique, y compris la NMT, ne permet de bien traduire les documents sources comprenant des abréviations techniques inconnues. Pour les combinaisons linguistiques qui n'ont pas beaucoup de données d'entraînement (du coréen vers l'allemand, par exemple), l'apprentissage approfondi permet d'utiliser des données d'entraînement indirectes, ou « permutées », à partir des documents sources d'une autre langue.

Quelle est la grande différence entre la NMT et la SMT ? Lorsque vous intégrez des ressources d'entraînement aux algorithmes d'apprentissage approfondi, vous ne leur indiquez pas forcément ce qu'il faut chercher. Vous laissez le système identifier des modèles, comme des indices contextuels autour de la phrase source. Les détails du processus, cependant, restent mystérieux à bien des égards.

NMT et big data : se débarrasser des capacités limitées

Les réseaux neuronaux ont d'abord été utilisés dans les programmes de reconnaissance vocale et d'image, en entraînant les systèmes avec des données supervisées, comme l'image d'un chien dotée de métadonnées. En lisant ses métadonnées, le système saurait que le contenu de l'image est un chien.

Ensuite, le système essaierait de trouver le meilleur chemin via le réseau neuronal pour faire ce lien, en faisant marche arrière et en trouvant de meilleurs chemins en cas de mauvaise réponse, jusqu'à développer un processus neuronal découlant sur la bonne réponse. C'est le chemin qui serait mis en avant.

Dans le domaine de la reconnaissance vocale, pour une phrase enregistrée dans une langue donnée, l'apprentissage approfondi ne peut généralement trouver qu'une transcription correcte, ce qui facilite grandement l'entraînement. Les ressources d'entraînement pour la traduction, qui est une tâche plus complexe, comportent plus de « bruit ».

Toutefois, selon Marciano, nous pouvons nous débarrasser de nos capacités limitées pour percevoir et analyser le monde grâce à l'apprentissage approfondi et au big data. Au vu du nombre d'informations offertes par le big data, nous sommes en mesure d'identifier des modèles compliqués et d'effectuer des associations entre eux, par des méthodes qui outrepassent la capacité de reconnaissance humaine.

Cependant, il est difficile de développer une représentation mentale du processus de la NMT. La plupart du processus est exécuté dans des « couches cachées » de données complexes. Il est ainsi difficile de savoir comment le réseau neuronal prend ses décisions.

C'est pourquoi, si les traductions sont inexactes, nous pouvons uniquement présenter les ressources d'entraînement et les ajuster après que les algorithmes ont fait leur travail. De plus, Lionbridge corrige les erreurs de traduction automatique neuronale à l'aide de GeoFluent.

L'utilisation de méthodes d'évaluation de la qualité, comme BLEU, constitue alors une zone grise. Si un système de NMT choisit une traduction différente de la traduction de référence pour une raison obscure, il peut être pénalisé pour son choix de vocabulaire, même si la traduction est tout à fait correcte.

L'avenir des réseaux neuronaux et de la communication

Bien qu'il soit difficile de corriger les erreurs au sein d'un réseau neuronal et de comprendre sa prise de décision, il faut accorder une grande importance à la NMT au vu de la hausse encourageante de la fluidité apportée par cette technologie. D'autres prestataires de services de traduction automatique fournissent-ils actuellement un système de traduction automatique neuronale ?

Non. Vous pouvez trouver trois systèmes de NMT sur Internet : Google Translate (qui peut être intégré à n'importe quel outil de traduction assistée par ordinateur [CAT]), Microsoft Translator et Systran Pure Neural Machine Translation. Toutefois, nous avons une longueur d'avance en termes de systèmes prêts à l'emploi dotés d'ensembles complets d'outils d'entraînement. Cette année, soyez à l'affût des nouveautés concernant les systèmes de NMT de Microsoft, Google, Systran, Baidu, Facebook, Amazon et bien d'autres.

Le déploiement de la NMT concernera en premier lieu les combinaisons linguistiques qui connaissent les améliorations les plus importantes sur les systèmes de SMT. Chez Lionbridge, nous prévoyons d'évaluer les systèmes de traduction neuronale disponibles pour découvrir comment ils s'intègrent à nos processus de localisation et répondent aux besoins des clients avant de procéder à notre propre déploiement. Rendez-vous sur notre page dédiée à la traduction automatique pour obtenir les dernières tendances du secteur.

Une chose est sûre : la traduction automatique neuronale est une véritable révolution. Par rapport aux 10 dernières années et compte tenu du caractère récent de ce modèle, les avancées réalisées dans le secteur de la traduction sont incroyables. La différence entre la traduction traditionnelle et la traduction automatique ne va cesser de se réduire, et nous comptons bien découvrir jusqu'où cela peut aller.

Pour en savoir plus sur les avantages de la NMT et nos attentes concernant l'avenir de l'apprentissage automatique, regardez le webinaire : Neural MT: What It Is, and How it Impacts Translation Efficiency

(Définition et impact de la NMT sur l'efficacité en traduction)

#blog_posts
#translation_localization

AUTEUR

Lionbridge

CE QUE NOUS FAISONS

Secteurs

Aurora AI™

RESSOURCES

NOTRE ENTREPRISE

Traduction automatique neuronale : comment l'intelligence artificielle opère pour traduire dans différentes langues

Fonctionnement de la traduction automatique neuronale

NMT et big data : se débarrasser des capacités limitées

L'avenir des réseaux neuronaux et de la communication