【GMIS 2017】想和人工智慧聊天，語音辨識還有四大挑戰要面對

2017 年 06 月 14 日

人物Ｘ趨勢

文／黄小天

全球機器智能峰會（GMIS 2017），是全球人工智能產業信息服務平台機器之心舉辦的首屆大會，邀請來自美國、歐洲、加拿大及國內的眾多頂級專家參會演講。本次大會共計 47 位嘉賓、5 個 Session、32 場演講、4 場圓桌論壇、1 場人機大戰，兼顧學界與產業、科技巨頭與創業公司，以專業化、全球化的視角為人工智能從業者和愛好者奉上一場機器智能盛宴。

5 月 27 日，由機器之心主辦、為期兩天的全球機器智能峰會（GMIS 2017）在北京 898 創新空間順利開幕。中國科學院自動化研究所復雜系統管理與控制國家重點實驗室主任王飛躍為本次大會做了開幕式致辭，他表示：「如今人工智慧非常熱，有人說再過幾年人類甚至不如鞋底聰明，50% 甚至 70% 工作被人工智慧取代。」

王飛躍對此表示很震驚，但並不認同，他又說：「情況是，再過幾年，人類 90% 的工作由人工智慧提供，就像今天我們大部分工作是由機器提供的一樣。我們的工作就是盡快讓我們的鞋底也像人一樣聰明，而不是鞋底比我們聰明，並希望機器之心主辦的這次全球機器智能峰會讓我們知道人工智慧會提供一個更美好的未來。」。

大會第一天重要嘉賓「LSTM 之父」Jurgen Schmidhuber、Citadel 首席人工智慧官鄧力、騰訊 AI Lab 副主任俞棟、英特爾 AIPG 數據科學部主任、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智慧專家參與峰會，並在主題演講、圓桌論壇等互動形式下，從科學家、企業家、技術專家的視角，解讀人工智慧的未來發展。

上午，騰訊 AI Lab 副主任、西雅圖人工智慧研究室負責人俞棟發表了主題為「語音識別領域的前沿研究」（Frontier Research of Speech Recognition）的演講，探討分享了語音識別領域的 4 個前沿問題。

俞棟是語音識別和深度學習領域的著名專家。他於 1998 年加入微軟公司，此前任微軟研究院首席研究員，兼任浙江大學兼職教授和中科大客座教授。迄今為止，他已經出版了兩本著作，發表了 160 多篇論文，是 60 餘項專利的發明人及深度學習開源軟件 CNTK 的發起人和主要作者之一。俞棟曾獲 2013 年 IEEE 信號處理協會最佳論文獎。現擔任 IEEE 語音語言處理專業委員會委員，之前他也曾擔任 IEEE／ACM 音頻、語音及語言處理彙刊、IEEE 信號處理雜誌等期刊的編委。

以下為俞棟第一人稱視角的演講主要內容：

屏幕快照 2017-05-27 上午10.15.23.png

從詞彙閱讀到自由對話，人工智慧的下一步？

語音識別是一個有著悠久歷史的研究領域。在過去的幾十年裡，研究人員從最簡單的小詞彙量閱讀語音識別問題「Read Speech」開始，逐漸走向更加複雜的 Broadcast Speech 和 Conversational Speech 語音識別問題。如今，即便是以前認為非常難的「自由對話」，連這樣形式的語音識別問題上，機器也已經達到、甚至超過人的識別水準。但是我們要看到，雖然取得了這些進展，離真正的人與機器的自由交流還有一定差距，這也就是為什麼語音識別的研究前沿又推進了一步。

屏幕快照 2017-05-27 上午10.15.33.png

如今研究的問題越來越沒有環境、說話風格、口音、詞彙等限定（不像以前有非常多的限制），同時這也增加了語音識別的難度，研究的前沿也從近場麥克風轉向遠場麥克風。兩者的區別在於，在遠場情況下，當人的聲音傳達到麥克風時，聲音衰減的很厲害。所以以前在近場麥克風很難見到的一些困難，在遠場麥克風就變得很明顯。如果不解決這些問題，用戶在很多的應用場合仍然會覺得語音識別效果欠佳。

所以今天在這樣的背景下，我介紹一下最近在語音識別當中的一些前沿的研究方向。

屏幕快照 2017-05-27 上午10.15.46.png

研究方向一：更有效的序列到序列直接轉換的模型

屏幕快照 2017-05-27 上午11.01.19.png

語音識別實際上是把語音信號的序列，轉化為文字或詞的序列，所以很多人認為要解決這個問題，找到一個行之有效、序列到序列的轉換模型就可以了。

從前的絕大部分研究是通過對問題做假設，然後據此在語音信號序列，到詞信號之間生成若干個組件，並逐步地轉換以生成詞的序列。在這些假設中間有許多假設，在某些特定場合它是合理的，但是在很多真實的場景下，它又是有問題的。這種模型實質上是說，如果我們去掉可能存在問題的假設，然後借助數據驅動，就有可能找到更好的方法，使序列轉換更准確。

這樣做另外一個好處是整個的訓練也可以變短。

屏幕快照 2017-05-27 上午11.01.30.png

更有效的序列到序列直接轉換的模型，目前來講主要有兩個方向：方向一：CTC 模型。

CTC 模型十分適合語音識別這樣的問題，因為它所要求得輸出序列長度，比輸入序列長度要短很多。CTC 模型還有一個優勢，傳統的深度神經網絡與混合模型一般來說建模量非常小，但是在 CTC 模型裡面你可以相對自由地選擇建模單位，而且在某些場景下建模單位越長、越大，你的識別效果反而會越好。

最近 Google 有一項研究從 YouTube 上採用幾十萬小時甚至上百萬小時的訓練數據量。CTC 的模型可以不依賴額外的語言模型，識別率就能超過傳統模型。但由於訓練穩定性差，CTC 模型相對於傳統模型仍然更難訓練。

屏幕快照 2017-05-27 上午11.24.50.png

更有效的序列到序列直接轉換的模型，第二個方向是：Attention 模型

Attention 模型首先把輸入序列、語音信號序列，轉換成一個中間層的序列表達，在這個中間層序列表達上面，能夠提供足夠的信息，然後就可以基於這個信息有一個專門的、基於遞歸神經網絡的生成模型，這個方法在機器翻譯領域現在成為了主流方案，但是在語音識別領域，它還是一個非常不成熟的技術，它有幾個問題在裡面。

問題 1：只適合短語的識別，對長的句子效果比較差。
問題 2：在做語音識別的時候，它的效果是相對來說非常不穩定的。

屏幕快照 2017-05-27 上午11.30.39.png

那麼如何解決這些問題？目前最佳的解決方案，就是把 CTC 與 Attention 結合起來，這主要是因為CTC 有持續信息，可根據後面的語音信號生成詞，這有助於 Attention 生成更好的表達。兩者結合的最終結果既比 CTC、Attention 各自訓練效果更好，所以是一個 1+1 大於 2 的結果。

屏幕快照 2017-05-27 上午10.16.18.png

但是，即便把 CTC 與 Attention 兩種模型結合起來，其效果比傳統混合模型相比，依然沒有太多長進。所以我們仍然需要解決一些問題。

問題一：在這樣的架構下面，有沒有更好的一些模型結構，或者是訓練准則，能夠比現有的 CTC 或者 Attention 模型更好。
問題二：當擁有的數據較少時，有沒有辦法建造一個結構，使得語言模型和聲學模型緊密結合在一起。
問題三：如何利用各種語料的數據，整合起來訓練一個更好的序列到序列轉換模型。

屏幕快照 2017-05-27 上午11.45.07.png

研究方向二：雞尾酒會問題

人在雞尾酒會這樣非常嘈雜的環境中，能夠把注意力集中在某一個人的聲音上，屏蔽掉周圍的說話聲或噪音，非常好地聽懂要關注的那個人的說話聲音。現在絕大部分的語音識別系統卻沒有這個能力。這個問題在近場麥克風並不明顯，是因為人聲的信噪比非常大，而在語音識別系統上，信噪比下降得很厲害，所以這個問題變得非常突出，成為了一個非常關鍵、比較難解決的問題。

屏幕快照 2017-05-27 下午12.05.05.png

Label permutation 問題目前有兩個較好的解決方案：
- 方案一：Deep Clustering。
- 方案二：Permutation invariant Training。

屏幕快照 2017-05-27 上午11.46.09.png

目前為止我們所用的一些信息，只用到了單麥克風的輸入信息。但是我們知道麥克風陣列可以提供很多的信息，所以一個很重要的問題是，如何有效地利用多麥克風信息來繼續加強其能力。第二個就是有沒有辦法，能夠找到一個更好的分離模型，因為現在大家用的還是 LSTM，但是 LSTM 不見得是最佳模型。第三個問題是我們有沒有辦法利用其他的信息，能否利用這些信息來進一步提升它的性能。

屏幕快照 2017-05-27 上午11.48.28.png

研究方向三：持續預測與適應的模型

第三個大家關注的熱點是，能否建造一個持續做預測系統？我們之前做了一個模型，它的好處是能夠非常快地工作，根據結果來改進下一個數據的識別結果。目前由於模型比較大，性能上很難訓練。

所以現在的問題是如何建造一個更好的模型，它能夠持續地做識別。它需要的特點是什麼呢？一個是它能夠非常快地做 Adaptation（適應），使得下一次再做識別的時候，我們有辦法把類似信息，用更好的方式壓縮在模型裡面，所以在下一次可以很快做識別。

屏幕快照 2017-05-27 上午11.49.38.png

研究方向四：前後端聯合優化

第四個研究前沿有關遠場識別，以及如何做前端和後端更好的聯合優化。傳統來講，前端的信號處理技術一般只用到當前狀態下的語音的信號信息。而機器學習方法用到很多訓練器裡學到的信息，但是很少用到當前的信息，它不進行數據建模，所以我們有沒有辦法把這兩種方法比較好地融合在一起？這是目前很多研究組織發力的一個方向。

另外，我們有沒有辦法更好地把前端的信號處理，跟後端的語音識別引擎做更好的優化。因為前端信號處理有可能丟失信息，且不可在後端恢復。所以我們有沒有辦法做一個自動的系統，能夠比較好地分配這些信息的信號處理，使得前端可以比較少地丟失信息，從而在後端把這些信息更好地利用起來。

（本文授權轉載自 GMIS 2017大会俞栋演讲：语音识别领域的四项前沿研究）