1. WER WIR SIND
Allie Fritz, Director of Interpretations bei Lionbridge

Meet the Pride: Allie Fritz

Director of Interpretations bei Lionbridge

mobile-toggle

SPRACHE AUSWÄHLEN:

Wirbelndes digitales Netz

Majority Voting war gestern

Was abweichende Meinungen der Annotatoren über das moderne KI-Training verraten

Die meisten Annotationspipelines behandeln abweichende Meinungen als Problem, das behoben werden muss. Wenn mehrere Annotatoren von KI-Trainingsdaten denselben Datenpunkt kennzeichnen, resultiert das Etikett aus dem Majority Vote. Der Hinweis auf die Uneinigkeit wird nicht weiter verfolgt. In vielen Situationen funktioniert dieses Vorgehen gut, etwa bei der Transkription oder der deterministischen Objekterkennung. Konsensfilter reduzieren Rauschen, reduzieren die Anzahl der Beiträge geringer Qualität und liefern Datenmengen, die umstandslos genutzt werden können.

Da die Anwendungsfälle der Kennzeichnungssysteme für KI-Daten immer komplexer werden, gehen bei der Zusammenfassung abweichender Meinungen in nur einer Antwort wertvolle Informationen zu Unklarheiten, Interpretationen und Grenzfällen verloren. Die für modernes KI-Datentraining zuständigen Teams stellen sich eine neue Frage: Was wäre, wenn gerade abweichende Meinungen nützliche Signale enthalten?

Die Grenzen des Majority Votings beim KI-Datentraining

Eine konsensorientierte Auswertung bleibt für Annotationen in großem Umfang zentral. Majority Voting hilft hingegen, Betrug zu erkennen, unzuverlässige Mitwirkende zu filtern und eine annotierte Datenbasis hoher Qualität zu schaffen. In großen KI-Annotationsprogrammen werden häufig Zustimmungskennzahlen verwendet, um anormales Verhalten zu identifizieren. Mitwirkende, deren Labels häufig von denen ihrer Kollegen abweichen, können gekennzeichnet werden, um zusätzliche Überprüfungen oder Nachschulungen zu veranlassen oder sie aus dem Pool der Mitwirkenden zu entfernen. Insofern haben abweichende Meinungen für Governance und Qualitätssicherung eine wichtige Funktion. Anderseits deutet nicht jede Abweichung von der Mehrheitsmeinung auf schlechte Kennzeichnung hin.

In vielen Einsatzszenarien mit modernem KI-Datentraining, bei dem menschliche Interpretationen berücksichtigt werden, können die Unterschiede der Annotatoren eine legitime Mehrdeutigkeit widerspiegeln und stellen nicht unbedingt einen Fehler dar. Beispiele:

  • Präferenzranking und Reinforcement Learning from Human Feedback (RLHF)
  • Stimmungs- oder Intentklassifizierung
  • Sicherheit und Richtlinieninterpretation
  • Interkulturelle oder linguistische Nuancen
  • Multimodale Long-Context-Analyse

In solchen Kontexten kann die Zusammenfassung abweichender Meinungen in einem vermeintlich richtigen Label dazu führen, dass Informationen über die menschliche Interpretation schwieriger oder mehrdeutiger Einghabedaten verloren gehen.

Person, die an einem Laptop mit mehrfarbigem Bildschirm arbeitet

Forschungsergebnisse zu abweichenden Meinungen beim KI-Datentraining

Wissenschaftliche Untersuchungen stützen zunehmend die Auffassung, dass abweichende Meinungen von Annotatoren modelliert werden können und nicht beseitigt werden sollten. In Learning from Multi-Annotator Data: A Noise-Aware Classification Framework (ACM Transactions on Information Systems, 2019) zeigen Zhang et al., dass herkömmliche Auswertungsmethoden wichtige Unterschiede in der Zuverlässigkeit und Voreingenommenheit von Annotatoren verdecken können.

Statt die Herstellung des Konsens als vorbereitenden Schritt zu betrachten, modelliert das Framework Annotatoren als probabilistische Labeler, deren Zuverlässigkeit und Interpretationsmuster im Rahmen des Trainings erlernt werden können. Das System nahm die Unterschiede und Unsicherheiten der Annotatoren in das Modelltraining auf und erzielte im Nachgang eine im Vergleich zum einfachen Majority Voting höhere Leistung. Die zentrale Erkenntnis lautet nicht, dass die Konsensnildung mangelhaft ist. Abweichende Meinungen von Menschen enthalten vielmehr strukturierte Informationen über die Trainingsdaten selbst.

Von der Qualitätskontrolle zur Signaloptimierung für KI-Datentraining

Bisher wurden Datenannotationspipelines primär auf Durchsatz und Qualitätskontrolle ausgelegt. Das Ziel bestand darin, für jedes Beispiel das zuverlässigste einzelne Label zu ermitteln. Da die Modelle jedoch immer größere Kontextfenster und multimodale Eingaben verarbeiten, geht es bei der Annotation zunehmend um Interpretation statt um einfache Klassifizierung. In solchen Umgebungen können abweichende Meinungen Folgendes aufdecken:

  • Mehrdeutige oder grenzwertige Eingaben
  • Unklare Annotationsrichtlinien
  • Unterschiede in der menschlichen Interpretation
  • Bereiche, in denen Modelle im Praxiseinsatz wahrscheinlich Fehler produzieren

Anstatt abweichende Meinungen sofort auszublenden, analysieren einige Teams für KI-Datenlösungen diese nun im Rahmen des Annotationsprozesses als diagnostisches Signal. Diese Veränderung des KI-Datentrainings kann Entscheidungen und Konsens nicht ersetzen. Vielmehr wird die Annotationspipeline erweitert, um zusätzliche Signale zu extrahieren, sofern die Qualitätsschwellenwerte erreicht werden.

Anordnung von Nullen und Einsen in Orange und Lila

Praktische Anwendungsmöglichkeiten von Daten zu abweichenden Meinungen

Durch die Erfassung und Analyse abweichender Meinungen in kontrollierten Annotationssystemen können sowohl der Aufbau der Datenmenge als auch das Training der KI-Modelle verbessert werden. Unternehmen nutzen die aus abweichenden Meinungen resultierenden Signale zunehmend in einigen wenigen wichtigen Szenarien.

Szenarien für die Nutzung der aus abweichenden Meinungen resultierenden Signale

  • Identifizierung von Stichproben mit hoher Unsicherheit: Datenpunkte, die eine geringe Übereinstimmung der Annotatoren zeigen, entsprechen oft Grenzfällen, mit denen Modelle Schwierigkeiten haben. Die Priorisierung dieser Daten für erneutes Training oder eine zusätzliche Überprüfung kann die Robustheit des Modells effizienter verbessern als eine zufällig erfolgende Vergrößerung der Datenmengen.

  • Stärkung des präferenzbasierten Trainings: In Rankingtasks und RLHF-artigen Tasks spiegeln abweichende Meinungen die tatsächlichen Unterschiede des menschlichen Urteilsvermögens wider. Die Modellierung dieser Unterschiede kann Nutzenmodelle und Abstimmungsergebnisse verbessern.

  • Präzisierung der Annotationsrichtlinien: Regelmäßig abweichende Meinungen bei Mitwirkenden deuten eher auf unklare Anweisungen als auf Labelingfehler hin. Das frühzeitige Erkennen dieser Muster reduziert kostspielige Nacharbeiten, wenn Datenmengen skaliert werden.

  • Bias- und Fairnesssignale: Die Muster abweichender Meinungen über linguistische oder demografische Segmente können bedeutsame Interpretationsunterschiede aufzeigen und in die Fairnessbewertung einfließen.

  • Unterstützung von Qualitätskontrolle und Betrugserkennung: Gleichzeitig können anormale Muster abweichender Meinungen auf unzuverlässige Mitwirkende oder koordinierten Betrug hindeuten. Die Überwachung der Muster einheitlicher Meinungen bleibt daher eine entscheidende Komponente der Mitwirkendenkontrolle.

Ausgereifte Annotationssysteme eliminieren abweichende Meinungen nicht einfach. Sie analysieren diese vielmehr und unterscheiden zwischen Rauschen und aussagekräftiger Variabilität.

Operationalisierung der Signale abweichender Meinungen beim KI-Datentraining

Um aus abweichenden Meinungen Erkenntnisse zu gewinnen, reicht es nicht aus, dieselbe Stichprobe von mehreren Annotatoren bearbeiten zu lassen. Unternehmen müssen über folgende Fertigkeiten verfügen:

  • Metadaten auf Annotatorenebene verfolgen
  • Muster einheitlicher Meinungen taskübergreifend erfassen
  • Anormales Verhalten erkennen
  • Daten mit hoher Unsicherheit in großen Datenmengen identifizieren

Viele ältere Annotationspipelines für das KI-Datentraining wurden in erster Linie auf Konsensfindung und Durchsatz ausgelegt. Um strukturierte Erkenntnisse aus abweichenden Meinungen zu gewinnen, werden Systeme benötigt, die die Zuverlässigkeit der Annotatoren, Muster abweichender Meinungen und Interpretationsvarianten in großen Gruppen von Mitwirkenden erfassen können.

Damit Unternehmen diese Möglichkeiten nutzen können, müssen sie eng mit dem Annotationspartner zusammenarbeiten. Annotationsanbieter gewinnen auch im Personalmanagement an Bedeutung und unterstützen Teams bei der Strukturierung von Annotationsworkflows, Qualitätskontrollen und Datensignalen, um das Training moderner Modelle zu unterstützen. Bei effektiver Umsetzung der Maßnahmen lassen sich aus abweichenden Meinungen Einblicke in die Interpretation komplexer Daten durch Menschen und Modelle gewinnen.

Die kommende Entwicklungsstufe der Annotationsstrategie

Die Skalierung der multimodalen Systeme für das KI-Datentraining und die immer umfangreicher werdenden Kontextinformationen führen dazu, dass Annotationen neben dem Labeling in immer größerem Umfang menschliches Urteilsvermögen benötigen. Der Aufbau der Annotation wird zum Hebel für die Leistung. Die Konsensbildung bleibt für Datenqualität und -governance unverzichtbar.

Gerade führende Unternehmen nutzen abweichende Meinungen in der Trainingspipeline als informatives Signal und nicht länger als Datenmüll. Das Label wird möglicherweise abschließend mittels Majority Voting bestimmt. Die abweichenden Meinungen zeigen aber, wo Modelle Lernbedarf haben.

Sprechen Sie uns an

Möchten Sie wissen, wie abweichende Meinungen KI-Datentrainingssysteme verbessern können? Suchen Sie nach anderen KI-Datenlösungen oder Datenannotationsservices? Die KI-Datenservices von Lionbridge unterstützen Sie dabei, Ihre Ziele zu erreichen – sei es ein leistungsfähigeres Modell oder verantwortlicher KI-Einsatz. Melden Sie sich bei uns.

linkedin sharing button
  • #generative-ai
  • #ai
  • #ai-training

VERFASST VON
Engi Lim, AI Sales Enterprise Director und Erik Hindman, AI Solutions Senior Director

Kontakt

Bitte geben Sie eine geschäftliche E-Mail-Adresse an.