逼近人類水平的語音識別系統來了?
沒錯,OpenAI 新開源了一個名為「Whisper」的新語音識別系統,據稱在英文語音識別方面擁有接近人類水平的魯棒性和準確性!
不僅如此,對于不同口音、專業術語的識別效果也是杠杠的!
一經發布就在推特上收獲4800+ 點贊,1000+ 轉發。

網友們紛紛對它意料之外的強大功能表示驚訝。
不僅是英文,有人用法國詩人波德萊爾的《惡之花》進行了語音測試,得到的文本幾乎與原文一致。

OpenAI 聯合創始人 & 首席科學家 Ilya Sutskever 就表示:
終于有一個靠譜的語音識別系統能聽懂我的口音了。

前任特斯拉人工智能總監 Andrej Karpathy 甚至轉發評論:OpenAI 正處于最好的狀態中。

話不多說,讓我們看看這個被 " 好評如潮 " 的語音系統究竟是怎么回事。
逼近人類水平的語音識別系統
首先,Whisper 最大特點是它使用的超大規模訓練集:
它使用從網絡上收集的68 萬小時的多語言、多任務監督數據進行訓練。
這導致數據集的內容非常多元化,涵蓋了許多不同環境、不同錄音設備下、不同語言的音頻。
具體而言,65% ( 438218 小時 ) 是英語音頻和匹配的英語文本,大約 18% ( 125739 小時 ) 是非英語音頻和英語文本,而最后 17% ( 117113 小時 ) 則是非英語音頻和相應的文本。
其中,非英語部分共包含98 種不同語言。

不過,雖然音頻質量的多樣性可以幫助提高訓練模型的魯棒性,但轉錄文本質量的多樣性并不是同樣有益的。
初步檢查顯示,原始數據集中有大量不合格的、現有自動語音識別 ( ASR ) 系統生成的轉錄文本。
而以往的研究表明,在人工和機器混合生成的數據集上進行訓練,會顯著損害翻譯系統的性能。
為了解決這個問題,研究團隊開發了幾種自動過濾方法來識別和刪除低質量的數據源。
但值得一提的是,沒有說話內容的片段會被留下,作為語音活動檢測的訓練數據。
其次,Whisper 體系結構是一種簡單的端到端方法,具體來說就是 Transformer 的編碼器 - 解碼器格式。

輸入音頻被分成 30 秒的片段,再轉換成 log-Mel 譜圖,然后傳入編碼器。
解碼器被訓練來預測相應的文本標題,并混合特殊標記,指示單一模型執行諸如語言識別、多語言語音轉錄和英語語音翻譯等任務。

除此之外,研究人員還為 Whisper 設置了5 種不同的型號,以下是各模型大致的內存需求和相對速度,使用者可以自行選擇。
但需要注意的是,只有 "large" 型號支持多語言,前 4 個模型都只支持英語。

不過不需要擔心,與其他模型相比,英文語音識別正是 Whisper 的核心競爭力。
實驗結果證明,Whisper 在 Librispeech test-clean 測試的錯誤率達到 2.7%。
雖然這一數值與 Wav2vec 2.0 一樣,但在零樣本性能上,Whisper 明顯更穩健,平均誤差減少了 55%。

甚至零樣本 Whisper 模型還縮小了與人類魯棒性之間的差距。
可以看出,與人類 Alec 相比,LibriSpeech 模型的錯誤率大約是人類的兩倍,而 Whisper 模型的魯棒性邊界則包括 Alec95% 的置信區間。

研究團隊
Whisper 的研究團隊來自 OpenAI,共同一作有兩位:Alec Radford、Jong Wook Kim。

Alec Radford,OpenAI 的機器學習研究員,也是 indico.io 的聯合創始人。

Jong Wook Kim,在紐約大學獲得了音樂技術專業的博士學位,研究方向包括多模態深度學習和音樂理解,目前是 OpenAI 的研究人員。

值得一提的是,研究團隊指出,雖然目前 Whisper 還沒有實時功能,但它的運行速度和內存大小表明,在這一基礎上搭建實時語音識別和翻譯功能是可行的。
他們希望 Whisper 的高精度和易用性,將允許開發人員將語音接口添加到更廣泛的應用程序中。
原文地址:http://www.myzaker.com/article/632f4619b15ec04ad862541b