Meta發表具自我監督學習多樣語言的模型 XLS-R 對應多達 128 種語言互譯

Meta發表具自我監督學習多樣語言的模型 XLS-R 對應多達 128 種語言互譯

Meta接下來希望透過單一語言學習模型即可對應識別全球超過7000種語言,並且縮減不同語言之間溝通落差,讓不同語言背景的使用者日後可以更流暢地溝通。

Meta旗下Facebook人工智慧研究院宣布推出名為XLS-R,並且能對應多樣語言自我監督學習的模型,目前已經能識別128種語言,相比先前採用語言學習模型能以10倍資料量學習多達兩倍語言數量。

依照說明,XLS-R語言學習模型是以據自我監督的語句描述識別工具wav2vec 2.0為基礎,並且以長達43萬6000小時長度公開可使用語句進行訓練,並且建立超過20億組參數,藉此獲得可對應128種語言流暢互譯的訓練模型。

在BABEL語言測試中,XLS-R在對應印度阿薩姆語、菲律賓他加祿語、非洲史瓦希利語、寮國通用寮語,以及在伊朗、土耳其等地區使用的喬治亞語,與英語轉譯時的錯誤率,相比前一版本語言模型均明顯減少。

而在BLEU語言互譯的結果中,無論是在參考資料較多或較少情況,都能獲得更高測試分數。

文章來源:https://www.cool3c.com/article/168975

2021-11-25