Meta指出,閩南語是華裔群眾廣泛使用的語言,但缺少標準書寫文字系統。通過全新的AI技術語音翻譯系統,可以讓閩南語使用者與英文使用者口說對話。

為開發這個只有語音的全新翻譯系統,Meta AI研究人員必須克服許多來自傳統機器翻譯系統的挑戰,包括資料蒐集、模型設計,以及準確度評估。

Meta表示,著手打造閩南語翻譯系統時,面臨的一個重大障礙就是是否能夠蒐集到足夠的資料。閩南語是所謂的資源匱乏語言,這意味著與西班牙文或英文等語言相比,該語言尚未有足夠的訓練資料。此外,將英語翻譯成閩南語的翻譯人員相對來說很少,因此更難以蒐集資料並加上註解來訓練模型。 於是利用中文作為中間語言,先將英語(或閩南語)語音翻譯成中文文字,接著再翻譯成閩南語(或英語),然後新增至訓練資料中。此方法利用了資源充足的相似語言的資料,藉此大幅改善了模型成效。 另一個產生訓練資料的作法是語音探勘。我們使用預先訓練好的語音編碼器,便能透過編碼方式將閩南語語音嵌入內容加入到其他語言的相同語意空間中,而無須取得閩南語的書寫文字。閩南語語音可以和擁有相似語意嵌入內容的英語語音和文字配對。我們接著從文字來合成英文語音,產生平行的閩南語和英語語音。 全新的模型作法 許多語音翻譯系統依賴轉譯內容,或依賴語音轉文字系統。但由於主要以口語表達的語言並沒有標準書寫文字形式,因此我們就無法將翻譯的文字製作成翻譯內容輸出。因此,我們聚焦於語音轉語音翻譯。 我們使用語音轉單元翻譯(speech-to-unit translation,S2UT)系統,直接在先前由 Meta 開創的路徑中,將輸入的語音翻譯成一系列聲學單元,然後從這些單元中生成波形。此外,我們針對二次解碼機制採用 UnitY,讓第一階段的解碼器產生相關語言(中文)的文字,然後讓第二階段的解碼器製作單元。

目前語音翻譯系統通常會使用稱為ASR-BLEU的衡量指標來評估,首先需使用自動語音識別系統(ASR)將翻譯後的語音轉譯成文字,然後將轉譯後的文字與人工翻譯的文字比較,以計算BLEU分數(標準機器翻譯衡量指標)。 但評估主要以口語表達的語言(例如閩南語)時,評估語音翻譯的挑戰之一就是沒有標準的書寫文字系統。為啟動自動評估程序,Meta開發了稱為Tâi-lô的系統,將閩南語語音轉譯成標準化的拼音符號。這項技術讓我們能以音節為單位計算BLEU分數,並更容易比較不同方法下的翻譯品質。 同時,Meta也根據名為Taiwanese Across Taiwan的閩南語語音語料庫,建立第一個閩南語與英語雙向的語音翻譯基準資料集。將開放此基準資料集的原始碼,以鼓勵其他研究人員合作進行閩南語語音翻譯,並一同在該領域中取得進一步進展。