機器翻譯質量的 評估方法


2022-08-15 16:54:50



我們現在已經到了幾乎普遍使用機器翻譯的階段。自然,一旦實際的翻譯過程實現了自動化,下一階段就是對最終產品的質量評估。我們現在有許多不同的選項來評估翻譯質量。這項工作一部分需要人工完成,一部分可以通過自動化算法來完成。每種方法都有優點和缺點。在這里,我們將看看我們團隊在最近對該問題的研究中使用的方法。
語言質量

這是評估翻譯的最傳統方法。最著名的質量評估工具是 LISA QA。語言錯誤根據它們的嚴重程度和類型來評分:語法、詞匯和標點錯誤、數字錯誤等。這種評估的主要問題是,它識別出的機器翻譯中的錯誤遠多于由人工翻譯 - 比較翻譯成為一種從糟糕的翻譯中選擇最好的練習。它也未能解釋這樣一個事實,即在絕大多數情況下,機器翻譯會被編輯,看起來嚴重的錯誤將在下一階段在幾秒鐘內得到糾正。

編輯距離

令人驚訝的是,語言學家并不是都以同樣的方式理解這個概念。有些人將其視為需要更正的文本量,而另一些人則將其視為編輯人員為使文本達到所需質量水平而需要花費的時間。我們的團隊采用第二個定義 - 語言提供者需要花費多少時間才能使翻譯可接受,由質量保證部門評估。
理論上,編輯距離的比較有助于確定最佳機器翻譯。但正如他們所說,魔鬼在細節中。在這里,必須清楚地了解選擇特定翻譯程序的原因。如果目標是提供可用的未經編輯的文本,那么機器翻譯需要被視為最終產品,而如果目標是產生一個可以編輯的翻譯,那么機器翻譯應該被視為一種工具簡化和加快翻譯過程。如果機器翻譯是一種產品,那么關鍵標準是需要糾正的文本量,或者語言錯誤的數量和嚴重程度,這是通過傳統的評估翻譯方法來評估的。但如果機器翻譯被視為一種工具,那么主要問題是它在多大程度上提高了翻譯過程的效率,因此關鍵標準是編輯翻譯所花費的時間。另一個問題是主觀因素——每個語言學家都有自己的長處和短處。對于一位語言學家來說,術語可能是一個弱點——他們可能需要花費大量時間尋找正確的技術詞匯。另一個可能工作得更慢,因為他們可能必須糾正語法。術語可能是一個弱點——他們可能需要花費大量時間尋找正確的技術詞匯。另一個可能工作得更慢,因為他們可能必須糾正語法。術語可能是一個弱點——他們可能需要花費大量時間尋找正確的技術詞匯。另一個可能工作得更慢,因為他們可能必須糾正語法。

估計編輯距離

自然地計算編輯距離是一個昂貴且緩慢的過程。因此,我們的團隊決定估計編輯文本所需的時間,而不是實際編輯它。因此,我們根據糾正錯誤的時間而不是語言因素確定了三種類型的錯誤。
 

類型 描述 嚴重程度
微小錯誤 需要幾秒鐘來糾正的錯誤。這些包括數字錯誤、拼寫錯誤、簡單的語法和文體錯誤等。 1
中等錯誤 需要十多秒才能糾正的錯誤。這些可能包括復雜語法結構中的錯誤、詞匯和術語使用中的錯誤、缺乏一致性等。 3
嚴重錯誤 需要大量時間來糾正或重寫段的錯誤。其中包括曲解原文意思或表達不清、翻譯不完整、復雜語法結構使用錯誤、復雜詞匯使用錯誤等。 6

 
系數可以根據以下邏輯應用于錯誤:如果需要幾秒鐘來糾正一個逗號,那么糾正一個語法錯誤需要更長的時間。未經編輯的片段需要更長的時間來糾正。雖然原理相當簡單,但人為錯誤是評估過程中不準確的主要來源。我們發現,盡管編輯使用的標準有所改變,但他們仍繼續根據語言標準評估翻譯。這一結論是由以下事實提出的:在我們使用這種方法分析的所有批次中,分數與語言質量方面的評估結果相關,而不是與實際編輯距離相關。

相似度百分比

另一種廣泛使用的方法是將未經編輯的翻譯與已編輯的版本進行比較。雖然這個想法起初看起來很吸引人,因為更正的越少,原文的翻譯就越好,但在實踐中,這種方法并沒有被發現是有效的。首先,用于評估相似性水平的算法通常相當不精確。例如,他們經常將大寫字母更改為小寫字母等同于更改整個單詞。這種方法信息量不大的第二個原因是編輯器使用了 CAT 軟件中的過濾器選項。例如,一個文本可能包含一個術語的十幾個示例,但編輯器將使用查找和替換功能對其進行更改。這只需幾秒鐘即可完成,但編輯后的文本量可能很大。

自動化質量評估工具

這些天有很多關于 BLEU、hLepor、COMET 和 CHRF+ 的討論?,F在,使用這些算法來評估翻譯質量已成為一種時尚。它們確實提供了許多優勢:評估速度快、成本幾乎為零,而且這些工具允許用戶非??焖俚乇容^數十種替代翻譯。但是,如果不仔細使用這些工具,則比較結果很容易被誤解。所有可用的工具都會評估一個文本與另一個文本的相似程度。也就是說,如果為這些工具提供了兩個由人類完成的不使用參考語料庫中包含的短語的翻譯,那么這些翻譯可能會被評為比使用此類短語的機器翻譯更差。這使我們研究團隊的工作變得復雜,并導致他們得出錯誤的結論。使用該工具的最佳方法是通過將新版本與舊版本進行比較來衡量質量的提高。比較許多不同的機器翻譯系統可能會得出這樣的結論,即提供最佳結果的系統是用于參考翻譯的系統(許多翻譯人員使用公共機器翻譯系統來幫助他們完成翻譯,這是一個公開的秘密。未經其機構授權的“人工”翻譯)。
另一個明顯的缺點是需要參考翻譯才能進行比較。

結論

簡單任務的自動化是我們共同未來的一個不可避免的方面。我們擁有可靠的自動評估工具只是時間問題。但到目前為止,完全依賴它們還為時過早。至少在未來幾年內,使用人工操作工具和由人工專家進行評估仍將是正確評估機器翻譯質量的標準方法。關鍵是對整個過程采取智能和批判性的方法。