大多數的註解流程,仍舊將意見不一致視為是需要消除的東西。當多名 AI 訓練資料註解人員對同一個資料點進行註解時,是採用多數決的方式決定最後的標記並捨棄其餘的信號。對例如聽寫或確定性物件偵測等許多任務來說,這種做法很有效。這種依共識篩選的做法可減少雜訊、縮減低品質的註解資料,並製作出更容易加以操作化的資料集。
然而,隨著 AI 資料標記系統開始應用於更複雜的領域,將意見不一致簡化為單一個答案,反而可能會掩蓋跟不確定性、解讀以及極端案例相關的寶貴資訊。因此現代的 AI 資料訓練團隊也開始提出另一個問題:意見不一致本身會不會也蘊藏著有用的信號?
基於共識的資料聚合 (aggregation),仍舊是大規模註解的基礎。多數決的做法,會有助偵測詐騙、過濾不可靠的資料提供人員,以及維持滿足基準的高品質標記資料。大型的 AI 註解專案經常會使用一致性指標來辨識異常行為。若資料提供人員的標記始終與同儕不一致,可能就會被標記為需要進一步審閱、再訓練或移除。從這方面來看,意見不一致在治理跟品管上扮演了重要的角色。然而,並非所有的不一致都意味著標記品質不佳。
在許多現代的 AI 資料訓練使用案例,尤其是那些涉及人類解讀的案例中,註解人員間的差異有時能反映出合理的模稜兩可情況,而非錯誤。一些例子包括:
在這些情境下,將意見不一致收攏簡化為單一個「正確」的標記,可能會因此失去人類如何解讀困難或模糊不清內容的寶貴資訊。
學術研究日漸支持這種看法:可以將註解人員的意見不一致納入模型中,而不是加以化解。Zhang 等人的研究〈Learning from Multi-Annotator Data: A Noise-Aware Classification Framework〉(ACM Transactions on Information Systems,2019 年) 便指出,傳統的聚合方法可能會忽略了註解人員可靠性與偏見中的重要差異。
他們的架構並沒有將共識視為是預處理步驟,而是將註解人員視為是機率標記器,系統則可以在訓練期間學習其可靠性及解讀模式。系統會將註解人員差異性與不確定性直接建置到模型訓練中,因此所達成的下游任務效能會比單純的多數決要來得好。這個研究的重要見解並不是說共識有缺陷,而是指出人類間的意見分歧,往往含有訓練資料本身的結構化資訊。
在過去,資料註解流程設計的主要考量是產能跟品質控管,目標是要為每一個例子產出最可靠的單一個標記。然而,隨著模型往更長的上下文長度以及多模態輸出發展,解讀 (而非單純的分類) 在註解中佔有的比例也會越來越高。在這些環境中,意見不一致或許能揭露以下情況:
與其立即收攏簡化不一致,有些 AI 資料解決方案團隊現在反而會在註解流程中,將這些分歧意見視為是診斷信號來進行分析。AI 資料訓練的這個轉變並不會取代仲裁或共識的做法,而是拓展註解流程的能力,在達到基準品質門檻後進一步擷取更多信號。
找出不確定性高的樣本:註解人員一致性低的資料點,常常是模型難以妥善處理的極端案例。優先重新訓練這些樣本或進行額外的審閱,可以改善模型的穩健性,而且效率會比隨機擴展資料集來得好。
強化基於偏好的訓練:在排名跟 RLHF 式的任務中,意見不一致能反映出人類判斷的實際分布差異。將這種差異性建置到模型中,可以改善回饋模型並對齊結果。
改善註解指引:資料提供人員間一再發生意見不一致的情形,有時可能是因為指示不夠清楚明確,而不是標記錯誤。及早偵測到這類模式,可以減少擴展資料集規模時發生成本高昂的重做。
顯露偏見和公平性信號:不同語言或人口組成的意見不一致模式,可能會揭露具有意義的解讀差異,為公平性評估提供實用的資訊。
支援品質治理與詐騙偵測:同時,異常的不一致模式也可能代表資料提供人員不可靠或有協同詐騙行為。因此,監控一致性模式仍舊是人力治理很重要的一環。
成熟的註解系統不會單純地化解不一致的意見,而是會加以分析,區別它是作業雜訊還是有意義的差異性。
要取得意見不一致的深入見解,需要的不僅只是將同一個樣本指派給多個註解人員,組織還必須要能夠:
很多傳統的 AI 資料訓練註解流程,其設計的主要考量是共識決議跟任務產能。大型資料提供人才庫如要擷取結構化的不一致深入見解,系統必須要能從大型資料提供人才庫中取得註解人員可靠性、不確定性模式及解讀差異等資料。
對許多組織而言,要將這些功能加以操作化,就需要跟他們的註解合作夥伴密切合作。註解供應商的角色也因此越來越重要,他們不但能輔助客戶進行人力管理,亦可協助團隊安排註解工作流程、品質控管及資料信號的架構,支援進行現代模型訓練。只要能有效地實行,不一致意見便能提供有關人類與模型如何詮釋複雜資料的深入見解。
隨著多模態 AI 資料訓練系統的擴展與上下文長度增加,註解任務除了標記外,也將會更加需要人類判斷力。註解設計將會成為攸關效能高低的要素,而共識仍將會是確保資料品質與治理的重要關鍵。
值得注意的是,一流的組織已經開始將意見不一致視為是訓練流程中的一種有用信號,而不是無用的資訊。最終的標記雖然還是會由多數決來決定,但其背後的意見分歧或許能揭露出模型確切而言在哪些方面仍有學習的空間。