Lionbridges expertkommentar: analys av automatiserad översättning

Lionbridges tekniska experter utforskar paradigmen för maskinöversättning och generativ AI och delar med sig av insikter om de senaste trenderna inom automatiserad översättning.

KONTAKTA OSS

Trots att generativ AI förändrar branschen i grunden är maskinöversättningstekniken fortfarande relevant

Förändringarnas tid: insikter om utvecklingen inom automatiserad översättning

Vi har under en tid förutspått att maskinöversättningsparadigmet (MT) går mot sitt slut. Läs våra expertkommentarer för att ta reda på varför.

Våra experter på automatiserad översättning delar med sig av insikter i olika ämnen, till exempel

översättningsresultat från olika MT-motorer och modeller med generativ AI (GenAI) vid vissa tidpunkter och vad resultaten innebär i ett större sammanhang
begränsningar hos automatiserade översättningsverktyg
metoder för att effektivisera maskinöversättning.

Ju mer du lär dig om MT och GenAI, desto enklare blir det att välja hur verktygen ska användas för att tillgodose dina behov. Dra nytta av fördelarna hos respektive paradigm för att i slutändan effektivisera översättningsarbetet, producera mer innehåll och uppnå kostnadsbesparingar.

Aktuell expertkommentar från Lionbridge

Intressanta egenheter hos GPT-4, oktober 2023

Vi har förbättrat Lionbridges bedömningsverktyg för maskinöversättning för att ta hänsyn till förekomsten av och potentialen hos generativ AI (GenAI) och stora språkmodeller (LLM). Från och med nu kommer rapporten förutom resultat från GPT-3.5 och Davinci även innehålla översättningsresultat från GPT-4 – och naturligtvis resultat från neurala MT-motorer (NMT).

Vilka nya upptäckter har ni gjort på sistone? Vissa intressanta egenheter hos GPT-4.

Vi har upplevt flera problem i samband med GPT-4, bland annat långsam prestanda, oförmåga att producera översättningar av olika anledningar samt inkonsekvent beteende, exempelvis att översättningar saknas i vissa körningar men inte andra.

Upptäckt 1: GPT-4 klarar inte av att översätta viss text.

GPT-4 klarade inte av att översätta en viss mening i vår MT-testuppsättning.

Efter lite efterforskningar drog vi slutsatsen att en term med sexuella associationer i vissa sammanhang orsakade problemet. Vi vill vara tydliga med att meningen i vår testuppsättning var en helt vanlig och godtagbar mening. Trots detta utlöste termen GPT-4:s filter för innehåll av sexuell karaktär, vilket ledde till att AI:n censurerade översättningen av meningen och därmed inte producerade något alls. Resultatet överraskade oss av två anledningar:

När termen användes isolerat och på det sätt den brukar uppstod inte några problem.

Sammanhanget för just den här meningen kunde inte tolkas på något problematiskt sätt.

Observationen fick oss att dra slutsatsen att en del av filtreringsmekanismen i GPT-4 kanske bygger på en enkel lista med förbjudna ord som även innehåller tvetydiga termer. Den här metoden är problematisk, eftersom den riskerar att angripa för brett och ge falskt positiva resultat, vilket är ett allvarligt problem vid professionell översättning.

Tidigare maskinöversättningsteknik, till exempel neurala MT-motorer, har inte den här sortens problem med innehållsfiltrering. Därför kan vi anta att det är en begränsning hos LLM-tekniken.

Begränsningen får konsekvenser i verkliga scenarier. Tänk dig till exempel att du behöver översätta medicinskt innehåll om gynekologi eller sexualupplysning. Då blir du kanske överraskad om LLM inte översätter delar av texten.

En intressant aspekt är att vi bara noterade problemet när meningen översattes till ett visst språk, kinesiska, men inte när vi översatte den till andra språk. Resultatet visar att filtret användes på måltexten från GPT-4. Lösningen är att stänga av innehållsfiltren vid översättningsuppgifter.

Upptäckt 2: GPT-4 ger varierande resultat.

Efter att ha följt maskinöversättningsresultat från LLM i fem veckor upptäckte vi att de varierade kraftigt, i synnerhet med GPT-4.

Även om vi förväntade oss de här resultaten från generativ AI var variationen större än vi hade räknat med – även när vi använde Top_p-parameterinställningar (Temperature and Top Probability) för att göra resultatet mindre kreativt och mer förutsägbart. Översättningsresultatet skilde sig åt i varje enskild GPT-omgång vi körde, även när vi utförde översättningarna direkt efter varandra.

Även om översättningarna är olika kan båda två vara godtagbara. Trots detta är det här ännu en aspekt som behöver kontrolleras och ytterligare en skillnad jämfört med det tidigare neurala MT-paradigmet.

Vi börjar ana att det här potentiella paradigmskiftet – från NMT till LLM MT – kanske inte bara består av en teknisk förändring, utan också ställer krav på att vi själva ändrar synsätt: Det kan hända att vi behöver lära oss att leva med mindre förutsägbara resultat, även när vi använder exakt samma källtext och parametrar. Vi kanske också får acceptera större variation än vi är vana vid med dagens automatisering.

I viss mån kan vi därmed bli tvungna att godta större ovisshet, men vi kan ändå använda vissa mekanismer och bra metoder för att se till att variationen blir någorlunda kontrollerbar.

Slutligen: När du studerar vårt diagram, observera att det ökade redigeringsavståndet för GPT-4 inte betyder att kvaliteten har sjunkit. Det beror på att GPT-resultaten är så varierande. Nästa månad kanske linjen går upp. Håll utkik här för att ta del av fler insikter och framsteg.

—Rafa Moral, Lionbridge Vice President, Innovation

Index över ämnen i våra expertkommentarer

Utforska sammanfattningarna nedan för att lära dig mer om ämnena i våra tidigare expertkommentarer.

Mars 2023 — en stor språkmodell (LLM) överträffar en neural maskinöversättningsmotor (MT): Vad händer nu?

Februari 2023 — Förbättra maskinöversättning (MT): MT-anpassning respektive MT-träning

Januari 2023 — Jämförelse av översättningskvalitet mellan ChatGPT och de stora maskinöversättningsmotorerna

November 2022 — Förbättringar i Microsofts MT

Oktober 2022 — MT och språkets stilnivå

September 2022 — Använda terminologi för att höja MT-kvaliteten

Augusti 2022 — Hantera katastrofala maskinöversättningsfel

Juli 2022 — Rankningslista för maskinöversättning

Juni 2022 — Korrekt analys av MT-kvalitet

Maj 2022 — Amazon- och Yandex-prestanda i maj

April 2022 — Prestandan hos Yandex i april

Mars 2022 — Anpassade jämförelser av maskinöversättningsmotorer

Februari 2022 — Den neurala maskinöversättningens framtid

Januari 2022 — Prestandan hos maskinöversättningsmotorer i januari

December 2021 – Lionbridge lägger till Yandex MT i den jämförande kvalitetskontrollen MT Quality Tracker

November 2021 – Bing Translator uppvisar bättre resultat

Oktober 2021 – Framstegen för Amazons maskinöversättningsmotor

September 2021 – Amazon förbättrar sin maskinöversättningskvalitet

Augusti 2021 – De främsta teknikföretagen och deras utveckling av maskinöversättningsmotorer

Lionbridges bedömningsverktyg för maskinöversättning

Lionbridges bedömningsverktyg för maskinöversättning har använts under lång tid för att mäta MT-resultaten i branschen.

Bedömningsverktyget mäter de totala resultaten från de fem största neurala MT-motorerna och flera GenAI-modeller. Det bedömer även översättningskvaliteten inom olika språkkombinationer och ämnesområden. Med vissa undantag ger GenAI inte bättre resultat än de stora neurala MT-motorerna. Modellerna producerar dock hyfsade resultat, framför allt med tanke på att de inte har tränats specifikt för översättning.

Vilka lärdomar kan vi dra? Trots det enorma intresset för att börja använda GenAI/LLM behåller maskinöversättningen sin ställning som tillförlitligt, automatiskt översättningsverktyg.

Översättningsresultaten förändras hela tiden och vårt bedömningsverktyg följer svängningarna.

Gå till bedömningsverktyget

Lionbridges expertkommentarer

Få insikter från våra experter på automatiserad översättning.

Mars 2023

Generativ artificiell intelligens (AI) har nått en viktig milstolpe: I en av våra jämförande analyser överträffade den en neural maskinöversättningsmotor (NMT). Närmare bestämt var det så att den stora språkmodellen (LLM) GPT-4 producerade något högre kvalitet än Yandex för språkkombinationen engelska till kinesiska, som du kan se i bild 1.

Den här utvecklingen är anmärkningsvärd, eftersom det är första gången ett annat slags MT-metod har överträffat en neural MT-motor sedan NMT såg dagens ljus. Dessutom är det en ”icke-MT”-metod som har klått NMT-motorn, en allmän språkautomation som inte har förberetts speciellt för maskinöversättning.

Varför är den här händelsen viktig för dig? Om du är MT-leverantör måste du gå i täten för tekniska framsteg och fundera över hur de kan påverka ditt befintliga MT-erbjudande, så att du kan behålla din konkurrenskraft. Om du är MT-köpare behöver du hålla ett vaksamt öga på utvecklingen för att göra kloka MT-investeringar – som förmodligen omfattar LLM-baserad teknik i stället för renodlade neurala MT-lösningar.

Det är värt att notera att generativ AI fortfarande är i sin vagga. Det innebär att den fallerar på vissa viktiga områden. Till exempel producerar den olika resultat vid flera körningar, har ett instabilt API (Application Programming Interface) och gör fler fel än neurala MT-motorer. De här problemen måste lösas för att tekniken ska mogna och vi kan redan se att förbättringar uppnås i häpnadsväckande hastighet.

LLM-modeller har en förmåga att förbättras i otrolig fart, vilket stöder uppfattningen att LLM:er kan bli nästa paradigm för maskinöversättning. Vi förväntar oss en hybridperiod då leverantörer av neural MT integrerar vissa aspekter av LLM:er i neurala MT-arkitekturer i takt med att paradigmet utvecklas.

I vår blogg kan du läsa en jämförelse av översättningskvaliteten från neurala MT-motorer och LLM:er för två ytterligare språkkombinationer och få veta mer om vår syn på om detta är början på slutet för paradigmet neural maskinöversättning.

—Rafa Moral, Lionbridge Vice President, Innovation

	MT-träning
Vad är det och hur fungerar det?	En MT-motor byggs och tränas genom att använda stora mängder tvåspråkiga data från korpusar och översättningsminnen (TM) i syfte att förbättra precisionen hos maskingenererade översättningar
Vad gör den?	Den förbättrar MT-motorns förslag för att ge mer korrekta resultat och minska behovet av efterredigering
Specifika fördelar	Ger företag möjlighet att utforma en specifik varumärkesröst, ton och stil och skapa regionala varianter
Risken med att använda det	Om det inte finns tillräckligt med kvalitetsdata för att träna motorn kan MT-träningen misslyckas med att förbättra resultatet. MT-motorn kan ge dåliga förslag och försämra hela översättningskvaliteten om oerfarna författare överanvänder terminologi
När ska det användas?	Perfekt till högspecialiserat innehåll, marknadsföring och kreativt innehåll och allt innehåll som kräver: * En specifik varumärkesröst, ton eller stil * Regionala varianter och om du har tillräckligt med data för att utföra MT-träning
Framgångsfaktorer	Minst 15 000 unika segment för tillräcklig träning av motorn
Kostnadsaspekter	Det uppstår kostnader för den första träningen och eventuellt också kostnader för ytterligare träning som kan behövas längre fram om övervakningen av MT-resultat tyder på att det finns utrymme för förbättringar. MT-träning kan vara väl investerade pengar i vissa fall när de potentiella fördelarna är tillräckligt stora

VAD VI GÖR

AI

BRANSCHER

Lionbridges expertkommentar: analys av automatiserad översättning

Trots att generativ AI förändrar branschen i grunden är maskinöversättningstekniken fortfarande relevant

Förändringarnas tid: insikter om utvecklingen inom automatiserad översättning

Aktuell expertkommentar från Lionbridge

Intressanta egenheter hos GPT-4, oktober 2023

Vilka nya upptäckter har ni gjort på sistone? Vissa intressanta egenheter hos GPT-4.

Upptäckt 1: GPT-4 klarar inte av att översätta viss text.

Upptäckt 2: GPT-4 ger varierande resultat.

Index över ämnen i våra expertkommentarer

Lionbridges bedömningsverktyg för maskinöversättning

Lionbridges expertkommentarer

Mars 2023

Februari 2023

Anpassning och träning av maskinöversättning

Januari 2023

November 2022

Oktober 2022

September 2022

Augusti 2022

Juli 2022

Juni 2022

Maj 2022

April 2022

Mars 2022

Februari 2022

Januari 2022

December 2021

November 2021

Oktober 2021

September 2021

Augusti 2021

Träffa våra experter på maskinöversättning

Rafa Moral

Yolanda Martin

Thomas McCarthy

Fyll i kontaktformuläret för att inleda ett samtal med oss.

Skicka ett meddelande så kan vi prata om vad ni behöver eller informera om våra tjänster och priser. Vi finns alltid här för er – skicka ett meddelande om hur vi kan hjälpa er. Gå till sidan "Bli en del av vårt team" om du vill arbeta för Lionbridge.

Kontakta oss

LANGUAGE CLOUD™

BRANSCHER