財聯社5月23日訊(編輯 周子意)Meta公司周一(5月22日)推出了一個開源AI語言模型——大規模多語言語音(Massively Multilingual Speech, MMS)模型。推出
該模型可以識別超過4000種口語,又開源A語言語音是型支以往任何已知技術的40倍;該模型還將文本語音互轉技術從100多種語言擴展到1100多種。
Meta選擇將MMS模型開源,持種以幫助保護語言多樣性,本轉并鼓勵研究人員在其基礎上進行進一步開發。服務
Meta公司在新聞稿中寫道,推出“今天,又開源A語言語音我們公開分享我們的型支模型和代碼,以便研究界的持種其他人可以在我們的工作基礎上繼續發展。通過這項工作,本轉我們希望為保護全世界令人驚嘆的服務語言多樣性做出一點貢獻。”
數據采集
語音識別和文本到語音模型通常需要對模型進行數千小時的推出音頻訓練,并附帶語音轉錄標簽。又開源A語言語音這些標簽對機器學習至關重要,型支它使算法能夠更準確地分類和理解數據。
如此一來,收集數千種語言的音頻數據是Meta面臨的第一個挑戰,而現有最大的語音數據集最多涵蓋100種語言。
對于那些在工業化國家沒有被廣泛使用的語言,其中的許多語言在未來幾十年甚至存在消失的風險。
Meta使用了一種非常規的方法來收集音頻數據:利用翻譯完成的宗教文本的錄音。
該公司表示,“為了克服這個問題,我們轉向了宗教文本,如圣經,這些文本已被翻譯成多種不同的語言,這些譯本也已被用于廣泛的語言研究中。”
這些宗教文本的各語言譯本也有專業人士進行閱讀并錄音。作為MMS項目的一部分,Meta創建了一個超過1100種語言的“《新約》閱讀數據集”,平均每種語言有32小時的數據。
此外,Meta還指出,考慮到其他宗教類讀物的未標記錄音,我們將可提供的語言數量增加到4000多種。
挽救語言多樣性
這種收集數據的方法乍一聽上去會讓人產生一種想法:基于這些譯本錄音的AI模型是否會嚴重偏向基督教世界觀?
不過Meta指出,情況并非如此,“雖然錄音的內容是宗教的,但我們的分析表明,這并沒有使模型偏向于產生宗教語言。”
“這是因為我們使用了連接主義時間分類(CTC)方法,這與大型語言模型(LLM)或語音識別的序列到序列模型相比,這種方法受到的約束要大得多。”
目前世界上許多語言都面臨著消失的危險,而有限的語音識別和語音生成技術只會加速這一趨勢。
Meta在新聞稿中提出,希望扭轉世界語言逐漸減少的趨勢,希望每個人都能用自己的第一語言來獲取信息或使用技術。