欢乐颂第一季免费阅读,《完美世界》txt全集,玄幻小说完本

我的位置：智能產(chǎn)業(yè)網(wǎng) > 新聞 > 智能人物 > 俞棟：多模態(tài)是邁向通用人工智能的重要方向

俞棟：多模態(tài)是邁向通用人工智能的重要方向

2019-09-10 雷鋒網(wǎng)

隨著語音識(shí)別、自然語言處理、計(jì)算機(jī)視覺等人工智能技術(shù)日益成熟，并逐漸落地到實(shí)際場(chǎng)景中，如何實(shí)現(xiàn)大規(guī)模應(yīng)用落地或者說如何通往通用人工智能，越來越成為這些領(lǐng)域的研究者探索和思考的命題。

在這種探索和思考下，“多模態(tài)”成為人工智能領(lǐng)域諸領(lǐng)軍式專家和學(xué)者重點(diǎn)談及的研究方向，例如，自然語言處理領(lǐng)域?qū)＜覄⑷航淌谠诖饲芭c AI 科技評(píng)論的對(duì)話中，就曾談及諾亞方舟語音語義實(shí)驗(yàn)室目前的一大重點(diǎn)研究方向便是多模態(tài)；德國(guó)漢堡科學(xué)院院士張建偉認(rèn)為人機(jī)交互的未來是多模態(tài)共享模式；計(jì)算機(jī)視覺領(lǐng)域?qū)＜屹Z佳亞教授則在多場(chǎng)演講中提出「多模態(tài)是人工智能的未來」這一觀點(diǎn)。

而騰訊作為業(yè)界關(guān)注這一研究方向的代表之一，自 2018 年 2 月就開始關(guān)注多模態(tài)方向的研究，并于 2018 年 11 月宣布探索下一代人機(jī)交互方式：多模態(tài)智能。

9 月 2 日，在騰訊 AI Lab 攜手 Nature Research（自然科研）及旗下《自然-機(jī)器智能》、《自然-生物醫(yī)學(xué)工程》兩本期刊聯(lián)合舉辦世界首屆「Nature Conference - AI 與機(jī)器人大會(huì)」上，語音識(shí)別領(lǐng)域的領(lǐng)頭人之一、騰訊 AI Lab 副主任、多模態(tài)虛擬人項(xiàng)目負(fù)責(zé)人俞棟博士更是基于其在多模態(tài)技術(shù)上的研究成果，帶來了《虛擬人中的多模態(tài)合成技術(shù)》的演講報(bào)告，以虛擬人項(xiàng)目為載體，向大家介紹了多模態(tài)的技術(shù)優(yōu)勢(shì)，并分享了騰訊 AI Lab 在這一方向上的研究和應(yīng)用探索。

會(huì)后，AI 科技評(píng)論還對(duì)俞棟博士進(jìn)行了專訪，進(jìn)一步探討了多模態(tài)的應(yīng)用探索情況，其中，俞棟博士在將多模態(tài)這一研究方向視為邁向通用人工智能的突破口的同時(shí)，也以更加冷靜的態(tài)度指出，多模態(tài)會(huì)是未來人工智能的一個(gè)非常重要的方向，但并不是全部。因?yàn)槿斯ぶ悄苁且粋€(gè)很廣泛的概念，我們目前對(duì)它可能只是略知皮毛，通往通用人工智能的這條路到底是怎么樣的，大家都還處于一個(gè)探索狀態(tài)。

與此同時(shí)，AI 科技評(píng)論也借此機(jī)會(huì)跟俞棟博士聊了聊他領(lǐng)先將深度學(xué)習(xí)技術(shù)應(yīng)用到語音識(shí)別領(lǐng)域的歷史淵源、從微軟研究院到騰訊 AI Lab 的職業(yè)轉(zhuǎn)變經(jīng)歷以及其對(duì)于語音識(shí)別領(lǐng)域未來發(fā)展的看法。

我們先來看俞棟博士在本次大會(huì)上都分享了什么。

為什么多模態(tài)是人機(jī)交互的發(fā)展趨勢(shì)？

人機(jī)交互走過了鍵盤交互、觸摸交互等若干階段，目前許多設(shè)備采用語音交互的方式。而交互模式經(jīng)歷每一次變化背后的驅(qū)動(dòng)力，都是對(duì)人和機(jī)器之間交互的便利性、自然性以及準(zhǔn)確性所提出的更高的要求。

為了更好地滿足人機(jī)交互的這一需求，俞棟博士指出了一個(gè)非常重要的研究方向或者說發(fā)展趨勢(shì)，那就是多模態(tài)人機(jī)交互。與此同時(shí)，俞棟博士也解釋了為什么多模態(tài)是人機(jī)交互的發(fā)展趨勢(shì)的原因，主要有四點(diǎn)：

第一，多模態(tài)交互能夠讓人類在不同的場(chǎng)景下可以選擇不同的模態(tài)組合進(jìn)行交互，進(jìn)而從整體上提高人機(jī)交互的自然度；第二，在多模態(tài)技術(shù)下，一個(gè)模態(tài)可以補(bǔ)充另一個(gè)模態(tài)的弱點(diǎn)，從而能夠通過融合多個(gè)模態(tài)的信息，獲得更精確的用戶、情感、場(chǎng)景、和發(fā)聲人位置估計(jì)；第三，多模態(tài)交互具有「互為監(jiān)督」的優(yōu)勢(shì)，即當(dāng)機(jī)器無法獲得某個(gè)模態(tài)的明顯信息時(shí)，其他模態(tài)可以為其提供弱監(jiān)督信息，讓機(jī)器能夠持續(xù)做系統(tǒng)自適應(yīng)調(diào)整；第四，多模態(tài)能夠讓人們?cè)谂c機(jī)器的交互過程中擁有多維感覺，從而能夠從視覺、聽覺、觸覺等多方面體會(huì)機(jī)器的情感和表達(dá)的語義。而除了所具備的這些優(yōu)勢(shì)外，俞棟博士認(rèn)為，多模態(tài)交互還能夠給業(yè)界帶來更多的想象空間，比如可以嘗試使用人機(jī)交互技術(shù)去做虛擬解說、虛擬前臺(tái)、虛擬陪伴等。

正是由于多模態(tài)交互所具備的這些優(yōu)勢(shì)以及所帶來的這種想象空間，他也領(lǐng)導(dǎo)團(tuán)隊(duì)開啟了虛擬人的研究項(xiàng)目。下面，俞棟博士也以虛擬人這項(xiàng)研究成果為載體，對(duì)多模態(tài)交互技術(shù)進(jìn)行了詳細(xì)介紹。

多模態(tài)交互技術(shù)詳解及應(yīng)用成果分享

俞棟博士首先介紹了多模態(tài)交互的系統(tǒng)框架，主要包括三個(gè)部分：多模態(tài)輸入、中間的認(rèn)知和決策控制環(huán)節(jié)以及最后的輸出。

進(jìn)一步，俞棟博士向大家展示了多模態(tài)技術(shù)的階段性成果——虛擬人的合成技術(shù)流程：系統(tǒng)首先從文本中提取各種各樣的信息，包括動(dòng)作、表情、情感、重音位置、和激動(dòng)程度等；之后將這些信息輸入到動(dòng)作表情模型生成動(dòng)作和表情，同時(shí)輸入給多模態(tài)合成系統(tǒng) DurIAN 同步生成語音以及口型和表情參數(shù)，進(jìn)而合成真人或者卡通形象。

其中，同步合成語音和圖像的 DurIAN 模型作為多模態(tài)合成技術(shù)的核心成果，則是俞棟博士本次要介紹的重點(diǎn)內(nèi)容。

據(jù)俞棟博士介紹，相較于傳統(tǒng)語音合成方法以及目前最新的端到端語音合成方法，應(yīng)用多模態(tài)合成技術(shù)DurIAN 模型，無論是在自然度、魯棒性、可控性、泛化能力以及實(shí)時(shí)性等方面都取得了更好的效果。

傳統(tǒng)語音合成方法 VS 端到端語音合成方法

在正式介紹 DurIAN 模型前，俞棟博士先介紹了傳統(tǒng)語音合成方法、端到端語音合成方法、以及這兩種方法各自的優(yōu)缺點(diǎn)。

傳統(tǒng)語音合成方法主要基于 BLSTM+WORLD 模型，擁有穩(wěn)定性和可控性較強(qiáng)的優(yōu)點(diǎn)，同時(shí)也存在合成語音機(jī)械感太濃的缺點(diǎn)。不過由于該方法具備較強(qiáng)的穩(wěn)定性和可控性，在工業(yè)界的實(shí)用系統(tǒng)中主要還是使用這種框架。

端到端的語音合成方法優(yōu)點(diǎn)則在于自然度很高，缺點(diǎn)則是穩(wěn)定性和可控性比較差，其中最常見的問題是漏字和重復(fù)。以從文獻(xiàn)中摘錄的結(jié)果為例，該系統(tǒng)出現(xiàn)漏字或者重復(fù)錯(cuò)誤的可能性為 1%-5%。因而，該方法在實(shí)用系統(tǒng)里沒有得到廣泛使用。不過近來，該方法取得了很大進(jìn)展，例如谷歌于 2018 年提出的結(jié)合 WaveNet 的 Tacotron 模型。

相比于傳統(tǒng)語音合成方法，端到端語音合成模型 Tacotron 的優(yōu)勢(shì)主要有四個(gè)改進(jìn)部分：

第一，它使用了基于神經(jīng)網(wǎng)絡(luò)的編碼器模型來替換人工設(shè)計(jì)的語言學(xué)特征；第二，它直接預(yù)測(cè)含有豐富信息的頻率譜，而不是源過濾器聲學(xué)特征；第三，它引入了自回歸模型，解決了合成過程中的過度平滑問題；第四，它采用了基于注意力機(jī)制的端到端訓(xùn)練方法。

不過，這種端到端的注意力機(jī)制也帶來了穩(wěn)定性差的問題。俞棟博士團(tuán)隊(duì)通過分析發(fā)現(xiàn)，注意力機(jī)制是模型出現(xiàn)漏詞、重復(fù)等問題的主要原因。下圖右邊有兩個(gè)合成案例，其中標(biāo)藍(lán)的字是被漏掉的。

應(yīng)用多模態(tài)技術(shù)的語音合成系統(tǒng)：DurIAN 模型

基于對(duì)端到端語音合成模型 Tacotron 出現(xiàn)漏詞、重復(fù)等問題的原因的發(fā)現(xiàn)，俞棟博士團(tuán)隊(duì)在 DurIAN 模型中提出了解決方案，即保留 Tacotron 模型中對(duì)語音合成的自然度有益的部分，也就是上述提到的前三個(gè)改進(jìn)部分，然后使用時(shí)長(zhǎng)預(yù)測(cè)模型來替換端到端注意力機(jī)制。其基本做法是訓(xùn)練一個(gè)音素時(shí)長(zhǎng)預(yù)測(cè)模型，然后在給定時(shí)長(zhǎng)的情況下，對(duì)模型進(jìn)行端到端訓(xùn)練。

這樣的話，DurIAN 模型在能夠保證不出現(xiàn)漏字、重復(fù)問題的情況下，既能保持端到端語音合成模型自然度高的優(yōu)勢(shì)，又能解決系統(tǒng)的穩(wěn)定性和可控性問題。

其中，在可控性方面，DurIAN 模型還能進(jìn)一步實(shí)現(xiàn)精細(xì)的控制，基本思路是采用監(jiān)督學(xué)習(xí)方法，不過不需要對(duì)訓(xùn)練語料進(jìn)行精細(xì)標(biāo)注，比如只需要標(biāo)注語音是否激動(dòng)或者語速是快還是慢。在訓(xùn)練時(shí)，讓每一個(gè)控制變量都學(xué)習(xí)一個(gè)指向性矢量；在合成過程中，則只需對(duì)相應(yīng)的矢量做連續(xù)值的縮放，便可以實(shí)現(xiàn)精細(xì)化的風(fēng)格控制。

除了穩(wěn)定性和可控性，DurIAN 模型在魯棒性和泛化能力、實(shí)時(shí)化等方面都有較大的提升。

針對(duì)此前端到端語音合成系統(tǒng)存在魯棒性以及泛化能力弱的問題，DurIAN 模型引入了語言學(xué)信息，尤其是標(biāo)點(diǎn)和韻律邊界，即通過充分利用中文語音里的韻律結(jié)構(gòu)來提高模型的泛化性能。具體做法是在 DurIAN 模型中采用 Skip Encoder 來替代 Tacotron 模型中的編碼器結(jié)構(gòu)，從而有效引入中文語句里的韻律結(jié)構(gòu)。而Skip Encoder 的基本思想是，在輸入時(shí)用額外的幀顯式表達(dá)這些語言學(xué)信息，不過由于標(biāo)點(diǎn)和韻律邊界本身是一個(gè)時(shí)間點(diǎn)而不是一個(gè)時(shí)間段，因而在編碼器輸出的地方放棄跳過額外增加的幀，這樣每一幀的編碼器輸出仍然與頻率譜的幀相對(duì)應(yīng)。

在實(shí)時(shí)化問題上，此前谷歌曾提出了 waveRNN 模型，雖然在運(yùn)算速度上比神經(jīng)聲碼器一開始常用的 wavenet 快很多，經(jīng)過仔細(xì)的工程優(yōu)化也能夠?qū)崿F(xiàn)實(shí)時(shí)，然而實(shí)時(shí)率不佳，且語音合成成本高。對(duì)此，俞棟博士團(tuán)隊(duì)提出了多頻段同步式 waveRNN 技術(shù)，其基本做法是把語音信息分頻段，每一步用同一個(gè)聲碼器模型同時(shí)預(yù)測(cè)多個(gè)頻段的值，如果分成 4 個(gè)頻段，則每一步可以計(jì)算 4 個(gè)值，計(jì)算次數(shù)就是原來的四分之一。與此同時(shí)，在合成過程中，聲碼器預(yù)測(cè)多頻段的值后，通過上采樣和專門的濾波器設(shè)計(jì)就能保證恢復(fù)沒有失真的原始信號(hào)。

語音合成以外，俞棟博士還展示了 DurIAN 模型在同步合成多模態(tài)信息上的優(yōu)勢(shì)，即該模型中的時(shí)長(zhǎng)預(yù)測(cè)模型，可讓系統(tǒng)能夠同步合成語音、嘴型以及面部表情參數(shù)，最終生成卡通形象或者真人形象的虛擬人。

未來工作展望

盡管在自然度和魯棒性、風(fēng)格可控、實(shí)時(shí)性以及同步合成語音、嘴型和面部表情等方面，DurIAN 模型已經(jīng)做得非常不錯(cuò)，但俞棟博士也指出，該技術(shù)還有很多探索的空間，未來其團(tuán)隊(duì)也還有很多工作要做，主要包括四個(gè)方向：

第一，在模型優(yōu)化上，需要探索在 DurIAN 結(jié)構(gòu)基礎(chǔ)上的端到端訓(xùn)練方法，以更好地支持端到端優(yōu)化；第二，在控制能力上，需要讓模型進(jìn)一步擁有全方位的控制能力，即能夠在不同的場(chǎng)景、情感、音色、語氣信息下，合成對(duì)應(yīng)的語音；第三，在訓(xùn)練語料方面，需要能夠讓系統(tǒng)從低質(zhì)量的語料中學(xué)習(xí)韻律，從高質(zhì)量地語料中學(xué)習(xí)音質(zhì)；第四，需要對(duì)模型的定制化進(jìn)行進(jìn)一步探索，從而在少量的語音語料（<15 分鐘）的情況下，也能夠訓(xùn)練出新的音色。AI 科技評(píng)論專訪俞棟博士對(duì)話實(shí)錄：

多模態(tài)在虛擬人項(xiàng)目中的應(yīng)用探索

問：本次您的報(bào)告主題是《虛擬人中的多模態(tài)合成》，您在演講中重點(diǎn)介紹了虛擬人這一最新成果以及多模態(tài)在虛擬人中的技術(shù)應(yīng)用，那您一開始研究這個(gè)項(xiàng)目的契機(jī)是什么？

俞棟：第一，我們?cè)絹碓揭庾R(shí)到單一技術(shù)能做的事情非常少，因而需要將很多的技術(shù)組合起來，這樣才能做出比較有影響力的成果。

第二，騰訊 AI Lab 創(chuàng)立之初就剛好設(shè)立了虛擬人所需要的各個(gè)研究方向，包括語音、自然語言處理、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等等，所以在虛擬人這個(gè)項(xiàng)目上，我們目前所具備的條件已經(jīng)是比較成熟的。

第三，多模態(tài)交互是歷史發(fā)展的必然趨勢(shì)，我們預(yù)估這項(xiàng)技術(shù)在接下來的幾年時(shí)間里會(huì)變得越來越重要。

問：目前虛擬人項(xiàng)目的進(jìn)展如何？

俞棟：我們?nèi)ツ晗掳肽觊_始規(guī)劃這個(gè)項(xiàng)目，今年年初算是真正開始有組織地做這個(gè)項(xiàng)目，經(jīng)過八個(gè)月時(shí)間的研究，該項(xiàng)目也取得了一些進(jìn)展。（相關(guān)進(jìn)展見上述報(bào)告部分）

這個(gè)項(xiàng)目大概分為三個(gè)核心的部分：第一個(gè)是虛擬人的輸出；第二個(gè)是虛擬人的輸入，包括看、聽、觸摸等感知方面的東西；第三個(gè)是認(rèn)知和對(duì)話的模塊，這個(gè)模塊成熟度最低，但也是非常重要的模塊。對(duì)于認(rèn)知模塊，業(yè)界研究了很久，目前還不知道正確的做法是什么。我們現(xiàn)在對(duì)于這個(gè)部分能夠做到什么程度也不是很清楚，不過，我們還是要組織力量往這個(gè)方向走。

問：現(xiàn)在人工智能領(lǐng)域，包括騰訊優(yōu)圖實(shí)驗(yàn)室負(fù)責(zé)人賈佳亞教授等研究者都在研究多模態(tài)這一技術(shù)，他還在近期的演講中提出了“多模態(tài)是人工智能發(fā)展的未來”的觀點(diǎn)，您怎樣看待這一觀點(diǎn)？

俞棟：我認(rèn)為應(yīng)該說多模態(tài)是未來的一個(gè)重要方向。人工智能是一個(gè)很廣泛的概念，其實(shí)我們到目前為止，可能也只是了解到它的一點(diǎn)皮毛，包括認(rèn)知推理、因果推理到底是怎么回事，機(jī)器的泛化能力為什么這么弱等這類基礎(chǔ)性問題，我們現(xiàn)在都還沒有搞明白。

通往通用人工智能的這條路到底是怎么樣的，大家都還處于一個(gè)探索狀態(tài)，所以強(qiáng)化學(xué)習(xí)、多模態(tài)交互等都是通往通用人工智能的一種重要的嘗試，但不是全部。

在若干年后，說不定大家還會(huì)發(fā)現(xiàn)另外某項(xiàng)技術(shù)才是真正能夠?qū)崿F(xiàn)通用人工智能的技術(shù)。

學(xué)術(shù)研究經(jīng)歷

問：僅就學(xué)術(shù)而言，您的簡(jiǎn)歷就已經(jīng)非常豐富，是首次將深度學(xué)習(xí)技術(shù)應(yīng)用在語音識(shí)別領(lǐng)域的研究領(lǐng)頭人之一，與 Geoffrey Hinton、鄧力等人都有過深度合作，無論是論文、專著還是研究成果方面，表現(xiàn)都非常突出，那您一開始是基于怎樣機(jī)緣選擇語音識(shí)別這一研究方向的呢？

俞棟：我小學(xué)的時(shí)候看過一本課外書，叫《奇異的機(jī)器狗》，現(xiàn)在里面談到的很多東西都已經(jīng)實(shí)現(xiàn)了，包括機(jī)器能夠聽懂人說的話，可以跟小朋友交互、幫他們解決學(xué)習(xí)問題，還能夠帶小朋友去玩，等等。因此實(shí)際上，我在小時(shí)候就對(duì)這些智能機(jī)器人產(chǎn)生了興趣。

而真正與語音識(shí)別這個(gè)方向接觸則是在大學(xué)本科期間。我本科在浙大念自動(dòng)控制專業(yè)，當(dāng)時(shí)就讀的班級(jí)是浙大設(shè)置的一個(gè)特殊的班級(jí)，叫做「混合班」，進(jìn)入這一班級(jí)的都是當(dāng)年入學(xué)新生中最好的一百個(gè)人。這個(gè)班的老師將我們這些學(xué)生當(dāng)做將來專門的研究人員來培養(yǎng)，所以我們一入學(xué)就開始關(guān)心「科技國(guó)家隊(duì)」的概念。

大學(xué)三年級(jí)的時(shí)候，我們便進(jìn)入課題組做研究，當(dāng)時(shí)恰逢人工智能發(fā)展的小高峰期（1989 年~1991 年），其中主要有兩個(gè)比較熱門的方向，一個(gè)是專家系統(tǒng)，像我當(dāng)時(shí)的學(xué)長(zhǎng)吳朝暉（現(xiàn)任浙大校長(zhǎng)）在這個(gè)方向上的研究工作比較多；另一個(gè)方向便是當(dāng)時(shí)剛剛開始熱起來的神經(jīng)網(wǎng)絡(luò)，我當(dāng)時(shí)的一個(gè)方向便是神經(jīng)網(wǎng)絡(luò)。

本科畢業(yè)后，我打算去中科院，因?yàn)楫?dāng)時(shí)在大家的認(rèn)知中，中科院就是科技國(guó)家隊(duì)。由于本科專業(yè)是自動(dòng)控制，所以便去自動(dòng)化所找導(dǎo)師，在此過程中發(fā)現(xiàn)了研究方向跟我的興趣比較一致的黃泰翼老師，他研究的是語音識(shí)別。比較巧的是，我在「混合班」的學(xué)長(zhǎng)徐波（現(xiàn)為自動(dòng)化所所長(zhǎng)），當(dāng)時(shí)也在黃泰翼老師那里念研究生。所以我最后就去黃泰翼老師那里讀研，開始進(jìn)入語音識(shí)別這個(gè)研究領(lǐng)域。

問：實(shí)際上在深度學(xué)習(xí)早期階段，這一方法實(shí)際上并不被看好，您是在怎樣的背景下開始研究深度學(xué)習(xí)的？

俞棟：正如我前面提到，我剛開始接觸神經(jīng)網(wǎng)絡(luò)的時(shí)候，神經(jīng)網(wǎng)絡(luò)是當(dāng)時(shí)人工智能的一個(gè)熱門研究方向之一。

后來我到黃泰翼老師那里讀研究生的時(shí)候，黃泰翼老師以及其實(shí)驗(yàn)室的其他老師也采用神經(jīng)網(wǎng)絡(luò)的方法來做語音識(shí)別，所以我在自動(dòng)化所的碩士論文，便是采用神經(jīng)網(wǎng)絡(luò)的方法做語音識(shí)別。這就為我之后將深度學(xué)習(xí)引入語音識(shí)別任務(wù)的一系列工作奠定了基礎(chǔ)。

問：今年，Hinton 等深度學(xué)習(xí)三巨頭摘得 2018 圖靈獎(jiǎng)，而深度學(xué)習(xí)給人工智能領(lǐng)域帶來的變革性影響早在前幾年就已經(jīng)發(fā)生了，您是否認(rèn)為這是給深度學(xué)習(xí)的一份遲到的榮譽(yù)？另外您怎樣評(píng)價(jià)這三位研究者的工作？

俞棟：我認(rèn)為基本上是適時(shí)的。因?yàn)榭茖W(xué)發(fā)展中的很多進(jìn)展，在當(dāng)時(shí)剛出來的時(shí)候，該領(lǐng)域的人很難看清它們的影響到底有多大，一般都有一個(gè)認(rèn)可延后期，有的可能只需要幾年，有的甚至要等到發(fā)明人去世后這項(xiàng)成果才能被認(rèn)可。所以我認(rèn)為他們獲得這項(xiàng)榮譽(yù)，還算是比較適時(shí)的。

首先，他們很早就開始研究深度學(xué)習(xí)，我大學(xué)期間首次接觸到這項(xiàng)工作之前，他們就做了很多鋪墊性的工作；其次，他們?cè)谶@個(gè)方向上堅(jiān)持了很久，即使在低潮時(shí)期，他們依舊在堅(jiān)持，這都是非常值得我們研究者學(xué)習(xí)的品質(zhì)。

問：將深度學(xué)習(xí)技術(shù)應(yīng)用于語音識(shí)別是否是您最具代表性的工作？之后在語音識(shí)別這一領(lǐng)域您有哪些主要的研究方向？

俞棟：我認(rèn)為這是一項(xiàng)比較有代表性的工作，當(dāng)然我們?cè)谶@個(gè)研究方向上做了一系列工作，因而對(duì)這個(gè)領(lǐng)域起到了一個(gè)比較大的推動(dòng)作用，如果只是單項(xiàng)工作，推動(dòng)作用也就沒有這么大了。

目前我們比較關(guān)注的一個(gè)研究方向是多模態(tài)，這是一項(xiàng)涵蓋視覺、聲音、符號(hào)語言、嗅覺和觸覺等信息的技術(shù)，而語音部分相關(guān)的如語音識(shí)別、語音合成、語音增強(qiáng)、語義分離、聲紋識(shí)別等技術(shù)，在多模態(tài)中都有用到。

從微軟研究院到騰訊 AI Lab

問：學(xué)術(shù)以外，您在工業(yè)界的履歷也非常豐富，2017 年 5 月份，您離開微軟研究院加入騰訊 AI Lab，在工作內(nèi)容以及承擔(dān)的角色方面，有怎樣的轉(zhuǎn)變？

俞棟：原來在微軟研究院任職的時(shí)候，相對(duì)來說會(huì)更加專注自己的研究方向和技術(shù)層面的東西。加入騰訊 AI Lab 后，我承擔(dān)的角色不再是純技術(shù)研究型的，除技術(shù)研究外，還需要扮演管理者的角色。

相對(duì)來說，剛開始比較難適應(yīng)的難點(diǎn)有兩個(gè)：一是自己要花很多時(shí)間在管理方面，做技術(shù)的時(shí)間相對(duì)來說就少了，需要我找到更好的平衡；二是由于我負(fù)責(zé)的團(tuán)隊(duì)在西雅圖，跟總部這邊由于時(shí)差等原因，晚上的很多時(shí)間需要和國(guó)內(nèi)開會(huì)，晚上可自由支配的時(shí)間比在 MSR 時(shí)少了很多。為了減少溝通問題，我增加了到中國(guó)實(shí)驗(yàn)室的時(shí)間。

問：目前，國(guó)內(nèi)科技巨頭其實(shí)都已經(jīng)先后創(chuàng)建了人工智能相關(guān)的實(shí)驗(yàn)室，您怎樣看待騰訊 AI Lab 在其中的位置？

俞棟：現(xiàn)在這些企業(yè)都成立了人工智能實(shí)驗(yàn)室，招了很多很強(qiáng)的科學(xué)家，我認(rèn)為這是一個(gè)好的趨勢(shì)，對(duì)整個(gè) AI 的發(fā)展會(huì)有很好的推動(dòng)作用。

相較之下，騰訊 AI Lab 稍有不同的地方在于，我們的研究跟產(chǎn)品的緊密程度，可能沒有其他實(shí)驗(yàn)室那么高。其他公司的實(shí)驗(yàn)室更像是一個(gè)工程院，偏向于將一些論文中的技術(shù)復(fù)現(xiàn)，然后落地到產(chǎn)品中。而我們則更注重是否能夠發(fā)展前沿技術(shù)，跟其他企業(yè)的實(shí)驗(yàn)室的側(cè)重點(diǎn)不完全一樣。

問：您帶領(lǐng)的團(tuán)隊(duì)對(duì)學(xué)術(shù)界在語音識(shí)別領(lǐng)域的進(jìn)展的關(guān)注度如何？除了語音之外，您的團(tuán)隊(duì)還關(guān)注其他哪些研究方向？

俞棟：我們對(duì)前沿技術(shù)非常關(guān)注。我個(gè)人每年都至少會(huì)參加一次語音相關(guān)的會(huì)議和一次自然語言處理的會(huì)議，同時(shí)我團(tuán)隊(duì)中的其他成員也都會(huì)參加相關(guān)的會(huì)議，因此學(xué)術(shù)界主要的會(huì)議，我們基本上都有同事參加。

語音以外，我們比較關(guān)注的方向，還包括自然語言處理、計(jì)算機(jī)視覺、圖形圖像學(xué)以及機(jī)器學(xué)習(xí)和人工智能技術(shù)的基礎(chǔ)理論等。

語音識(shí)別領(lǐng)域的現(xiàn)狀和未來發(fā)展

問：在工業(yè)落地方面，相比人工智能其他領(lǐng)域，語音識(shí)別是跑在前頭的，但是目前暴露出的問題也很多，其中您認(rèn)為比較嚴(yán)重的問題有哪些?

俞棟：其實(shí)存在的問題，說到底還是魯棒性問題。現(xiàn)在基于深度學(xué)習(xí)的方法使系統(tǒng)魯棒性已經(jīng)比之前好很多了，但是還達(dá)不到我們期望的效果。

現(xiàn)在我們的主要做法就是增加訓(xùn)練語料，而訓(xùn)練語料目前存在采集困難的問題，并且即使采集的語料很多，一旦機(jī)器在一個(gè)此前沒有見過的完全新的 mismatch 的環(huán)境中，也無法實(shí)現(xiàn)太好的效果。

比較典型的例子是，現(xiàn)在很多語音識(shí)別器的錯(cuò)誤率能夠達(dá)到百分之六七，即便在相對(duì)比較嘈雜的環(huán)境下也能做得比較好，但是如果遇到兩個(gè)人同時(shí)說話的場(chǎng)景，錯(cuò)誤率可能達(dá)到百分之五六十。另外如果說話人的口音比較重，語音識(shí)別器的效果也不會(huì)很好。

此前我們也嘗試了很多解決方案，包括提高模型的泛化能力，做模型的自適應(yīng)，目前來看，這些方案還有很大的提升空間。

問：就您看來，語音識(shí)別領(lǐng)域的發(fā)展經(jīng)歷了哪些階段，目前處于怎樣的階段，以及理想化的狀態(tài)應(yīng)該是怎樣的？

俞棟：從難易程度來劃分，語音識(shí)別跟人工智能其他領(lǐng)域經(jīng)歷的階段很相似：一開始做一些非常簡(jiǎn)單的任務(wù)，比如說音素識(shí)別、單字識(shí)別；接著是連續(xù)語音識(shí)別的階段，隱馬科夫模型出來以后，連續(xù)語音識(shí)別就變得可行，后來到了大詞匯量連續(xù)語音識(shí)別；再之后是即時(shí)語音識(shí)別階段，要求機(jī)器能夠聽懂人自由聊天。

現(xiàn)在則是完全真實(shí)場(chǎng)景下的語音識(shí)別階段，比如目前很多研究者在嘗試研究雞尾酒會(huì)場(chǎng)景下的語音識(shí)別。這也是下一階段我們要突破的方向，真實(shí)場(chǎng)景下的語音識(shí)還包括在非常嘈雜的環(huán)境下或者說話人口音很重的場(chǎng)景下做語音識(shí)別。

我認(rèn)為，機(jī)器的理想化狀態(tài)應(yīng)該是能夠比人識(shí)別率更高。計(jì)算機(jī)在未來某一天，應(yīng)該是能夠在各個(gè)場(chǎng)景下的識(shí)別率都比人更高的。

問：未來三到五年，語音識(shí)別領(lǐng)域可以尋求突破的方向或者說技術(shù)有哪些？

俞棟：我認(rèn)為未來三到五年，語音識(shí)別領(lǐng)域可以突破的方向主要有三個(gè)：第一是多模態(tài)；第二個(gè)是具有更強(qiáng)、更快自適應(yīng)能力的模型；第三，類似雞尾酒會(huì)場(chǎng)景下的語音識(shí)別也會(huì)是一個(gè)可以探索的方向。

加入收藏好友分享

相關(guān)閱讀

推薦廠商

陜西西安恒歌數(shù)碼科技有限責(zé)任公司
遼寧北京森之高科科技有限公司
廣東東莞市威邦儀器設(shè)備有限公司
北京博雅工道（北京）機(jī)器人科技有限公司
上海上海研強(qiáng)電子科技有限公司
廣東深圳市英康仕電子有限公司
北京北京市商湯科技開發(fā)有限公司
上海上海查湃智能科技有限公司
廣東深圳市嘉利達(dá)專顯科技有限公司
廣東深圳市拓普泰克技術(shù)股份有限公司

廠商動(dòng)態(tài)

智能產(chǎn)業(yè)網(wǎng)（m.drpay.com.cn）版權(quán)所有

<ul id="e2us0"></ul>

亚洲一区二区在线免费观看-亚洲一区二区在线-亚洲一区二区影院-亚洲一区二区三区在线网站-看黄网站在线-看国产黄色片