Meta使用「聖經」訓練AI　可識別語言超過千種

特約記者莊堯亭
綜合報導
2023/05/30 11:30
4477

Meta使用「聖經」訓練AI　可識別語言超過千種

特約記者莊堯亭綜合報導
2023/05/30 11:30
4477

（圖 / shutterstock）

國際新聞
字級大小：

國際新聞

字級大小：

美國科技巨頭Meta5月底宣布，團隊在文字轉語音的技術上有所突破。原有技術僅提供100多種語言識別，如今在研發團隊投入下，可識別超過1,000種語言。特別的是，建立龐大語言資料庫時，其中一個重要幫手，竟是全世界最暢銷的書：聖經。

突破文字轉語音技術

美國人工智慧研究實驗室「OpenAI」開發ChatGPT之後，科技巨頭Meta在人工智能研發上也有所突破。今年二月，Meta成立專門研究AI的開發團隊，計畫打造名為「LLaMA」大型語言模型。

根據Meta5月22日發布消息指出，其開發出一種由AI驅動的「文字轉語音技術」(text-to-speech technology)，名為「大型多語言語音模型」(Massively Multilingual Speech，MMS)，未來可識別的語言超過4千種，比任何已知文本轉語音的技術強大40倍以上。

「文字轉語音」和「語音轉文字」之技術，在Meta團隊努力下，從100種語言擴展到1,100多種語言。此功能讓人們在使用VR或AR服務時，使用自己喜歡的語言時，AI也可以聽得懂。

Meta公司表示，開發該功能最大目的，是為「保護面臨消失危機的語言」。「這世界有非常多語言正在消失，目前語音辨識技術的缺陷，會加速語言消失的速度。我們希望人們能更容易使用喜歡的語言，獲取資訊或取得服務。」

至於是怎麼做到的？其實，要能辨識上千種語言，就要餵給AI系統同樣多、甚至更多的語音音頻數據。

目前其語音數據庫裡，僅有100多種語言，「為克服此問題，我們轉向蒐集宗教文本，像是聖經──已被翻譯成非常多語言，這些內容也被廣泛應用在文本翻譯研究工作上。」

這些翻譯的內容多半有公開錄音，可找到人們使用不同語言的閱讀情況。Meta公司創建了1,100多種、以不同語言來閱讀新約聖經的資料庫，平均每種語言的數據資料有32小時。

餵AI海量語言的聖經故事、信息和詩歌

假若其納入更多基督教靈修讀物的語言資料，AI可識別的語言就能累積到4,000多種。此外，所收集的閱讀資料多為男性，但研究分析並未看出男生和女生在聲音表現上的差異。

團隊希望，未來能讓MMS習得更多語言，並在方言語音技術上有所突破。隨此消息一同發布的研究論文中，Meta團隊提到，研究用的數據是來自聖經，包括Faith Comes By Hearing.com、GoTo.Bible、Bible.com等網站。

美國布羅沃德學院（Broward College）語言中心表示，全世界約有7,100種語言。而，Meta公司透過聖經所掌握的語言資料，就有高達6,255種由不同語言或方言錄製的聖經故事、福音講道、經文朗誦和敬拜歌曲。其涵蓋的語言資料庫相當龐大。

「聖經」成為Meta訓練語言模型的工具，該研發團隊表示，他們與基督教倫理學家討論過，對於把新約當成AI學習的材料，大部分信徒應可以接受。

另補充，若AI接觸聖經太久，很可能會難以保持中立世界觀。外界也有人因此批評Meta的做法，質疑用聖經訓練AI，到底是讓語言模型更進步，還是在不久將來爆出更大爭議？

不論如何，從另一角度來看，這本全球最多人買的書，在AI正興起的年代，也成了AI「必讀」的書。