評價準則介紹

2021-06-26 23:57:43 字數 2498 閱讀 3664

bleu具體介紹

bleu:bilingual evaluation translation

人類評價翻譯質量需要考慮以下三方面的情況:adequacy,fidelity(忠實度),fluency(流利度)。

bleu準則的目的:快速,與語言無關,與人類的評價相關度高。

機器翻譯評價系統需要以下兩種成分:

1. a numerical 「translation closeness」 metric

2. a corpus of good quality human reference translations

比較兩者n-gram匹配程度,而且與位置無關。

例子1:

我們的標準的最重要的基石是大家都熟悉的precision,對於一元來說,計算準確率公式為:機器翻譯中的詞出現在參考譯文中的詞的個數/機器翻譯中的總詞數。

但是不幸的是,如下面例子2所示,機器翻譯系統會過多的產生一些「合理的」詞,使準確率提高,但是這不是我們想要的結果。

例子2:

於是我們提出了修正的precision,公式如下所示:

其中公式中count為某n元詞在被測譯文中出現的次數,max_ref_count為該n元詞在乙個參考譯文中最大的出現次數。

如例子2所示,修正的一元的準確率為2/7。

修正的n元詞的準確率的計算公式與一元的相似。

對於例子1來說:candidate 1的修正的2元的準確率為10/17(修正不修正都為這個結果),candidate 2的修正的2元的準確率為1/13。但是對於例子2來說,修正的2元的準確率為0。

一元匹配滿足adequacy,多元匹配滿足fluency。

修正的n-gram的準確率隨著n的增加呈現指數級別的衰減,因此我們需要的權重為對數權重。

機器翻譯的結果不能太長也不能太短,評價標準應該以這個來約束。在一定程度上,n-gram的準確率已經滿足了這個要求(n-gram準確率懲罰那些虛假的詞,而且還懲罰那些在機器翻譯結果中出現的次數比參***中出現的次數多的詞)。但是修正的n-gram的準確率對於翻譯系統翻譯的句子長度沒有過多的限制,如下面例子3所示。

例子3:

因為例子3中candidate相比於正確的長度來說太短了,修正的一元的準確率為2/2,修正的二元的準確率為1/1。

傳統的來說,提出recall來約束這個與句子長度相關的問題。但是bleu需要考慮多個參考翻譯譯文,每乙個參考翻譯對於相同的需要翻譯的詞翻譯為不相同的詞。而且,乙個好的candidate只需要這些參考中的乙個,而不是全部。

的確,recall所有的參考譯文會產生乙個壞的翻譯,如下面例子4所示。

例子4:

candidate 1從參考中可以recall的詞比candidate 2 多,但是明顯的來說翻譯1比2壞的多。因此,傳統的recall計算並不是乙個好的方法。於是提出了sentence brevity penalty的概念。

candidate翻譯比參考翻譯長時已經通過修正的n-gram進行懲罰了,現在只需要懲罰candidate翻譯小於等於參考翻譯的情況。當參考譯文和翻譯譯文的長度相同時,懲罰值為1。比如:

當參考譯文的長度為12,15,17時,翻譯譯文的長度為12時,此時懲罰值為1。如果有兩個參考譯文的長度和翻譯譯文的長度同樣接近,但乙個較長另乙個稍短,則取較短的譯文的長度。如:

翻譯譯文長度為10,參考譯文的長度為8、9、11、15,則參考譯文長度認定為9。

懲罰值計算公式:

然後bleu的計算公式如下:

如果取對數的話,bleu的計算公式如下所示:

基線當中,,權重

忠實度,流利度

忠實度:輸出譯文是否傳達與原文相同的意思?部分語義資訊丟失了、增加了還是被曲解了?

流利度:輸出譯文是否為流利的英文?包括語法正確性和慣用語選擇兩個方面。

準確率,召回率,f測度

p: 不考慮詞序。僅僅關注單詞匹配而不顧單詞順序,是有缺陷的。因此,我們可以計算系統應該生成的正確單詞的個數,而不是系統輸出譯文中正確的單詞數。

r: 這兩個指標都容易被蓄意利用。可以讓系統只輸出確定的譯文單詞,譯文可能非常短,但有很高的準確率(而召回率很低)。

相應的,也可以讓機器翻譯系統輸出所有可能的單詞,那麼這些譯文詞與參考譯文中所有單詞匹配的概率就很高。譯文可能會很長,但能獲得乙個很高的召回率(而準確率很低)。

在機器翻譯中,一般同等的對待準確率和召回率。我們既不想輸出錯誤的單詞,也不想遺漏任何資訊。通常是把準確率和召回率組合在一起,稱為f測度(f-measure),把它定義為準確率和召回率兩個指標的調和平均:

f: 在機器翻譯評測中,這個公式可以被寫為:

位置無關的錯誤率(position-independent error rate),這是乙個錯誤率指標,因此計算的是錯誤匹配的程度,而不是正確匹配的程度。為了克服過長譯文帶來的問題,該指標也考慮那些需要作為錯誤刪除的多餘單詞:

詞錯誤率(word error rate,wer)是較早使用在統計機器翻譯中的自動評測指標之一,借鑑於語音識別,並將詞序考慮在內。它使用了levenshtein距離(levenshtein distance),即兩個字串序列匹配時需要進行編輯操作(插入、刪除和替換)的最少次數。

風險評價準則

一 目的 為加強公司作業風險和崗位風險控制,便於對風險進行分級管理,制定本制度。二 術語 1 風險 風險 r 是發生特定危害事件的可能性 l 及後果 s 的結果。風險r 可能性lx後果嚴重性s 2 危害 可能造 員 疾病 財產損失 工作環境破壞的根源或狀態。三 職責 1 總經理直接負責風險評價領導工...

風險評價準則

4 5宜賓金世界化學 1 目的 為加強作業風險和崗位風險控制,便於對風險進行分級管理,特制定本準則。2 適用範圍 公司內所有作業活動 崗位 部位 裝置等的風險評價和風險分級。3術語3.1風險 風險 r 是發生特定危害事件的可能性 l 及後果嚴重性 s 的結合。風險r 可能性l 後果嚴重性s 3.2危...

風險評價準則

1 目的 為改進職業健康安全績效,確定重要危險源 進行風險控制措施策劃工作,特制定本準則。2 範圍 本標準規定了對公司內所識別的危險源進行職業健康安全風險評價 確定重要危險源的方法 判定準則和要求。3 引用檔案 危險源辯識 風險評價與風險控制程式 4 職責 4.1公司生產副總經理負責本準則的保持和改...