隨著語音識(shí)別、自然語言處理、計(jì)算機(jī)視覺等人工智能技術(shù)日益成熟,并逐漸落地到實(shí)際場(chǎng)景中,如何實(shí)現(xiàn)大規(guī)模應(yīng)用落地或者說如何通往通用人工智能,越來越成為這些領(lǐng)域的研究者探索和思考的命題。
在這種探索和思考下,“多模態(tài)”成為人工智能領(lǐng)域諸領(lǐng)軍式專家和學(xué)者重點(diǎn)談及的研究方向,例如,自然語言處理領(lǐng)域?qū)<覄⑷航淌谠诖饲芭c AI 科技評(píng)論的對(duì)話中,就曾談及諾亞方舟語音語義實(shí)驗(yàn)室目前的一大重點(diǎn)研究方向便是多模態(tài);德國(guó)漢堡科學(xué)院院士張建偉認(rèn)為人機(jī)交互的未來是多模態(tài)共享模式;計(jì)算機(jī)視覺領(lǐng)域?qū)<屹Z佳亞教授則在多場(chǎng)演講中提出「多模態(tài)是人工智能的未來」這一觀點(diǎn)。
而騰訊作為業(yè)界關(guān)注這一研究方向的代表之一,自 2018 年 2 月就開始關(guān)注多模態(tài)方向的研究,并于 2018 年 11 月宣布探索下一代人機(jī)交互方式:多模態(tài)智能。
9 月 2 日,在騰訊 AI Lab 攜手 Nature Research(自然科研)及旗下《自然-機(jī)器智能》、《自然-生物醫(yī)學(xué)工程》兩本期刊聯(lián)合舉辦世界首屆「Nature Conference - AI 與機(jī)器人大會(huì)」上,語音識(shí)別領(lǐng)域的領(lǐng)頭人之一、騰訊 AI Lab 副主任、多模態(tài)虛擬人項(xiàng)目負(fù)責(zé)人俞棟博士更是基于其在多模態(tài)技術(shù)上的研究成果,帶來了《虛擬人中的多模態(tài)合成技術(shù)》的演講報(bào)告,以虛擬人項(xiàng)目為載體,向大家介紹了多模態(tài)的技術(shù)優(yōu)勢(shì),并分享了騰訊 AI Lab 在這一方向上的研究和應(yīng)用探索。
會(huì)后,AI 科技評(píng)論還對(duì)俞棟博士進(jìn)行了專訪,進(jìn)一步探討了多模態(tài)的應(yīng)用探索情況,其中,俞棟博士在將多模態(tài)這一研究方向視為邁向通用人工智能的突破口的同時(shí),也以更加冷靜的態(tài)度指出,多模態(tài)會(huì)是未來人工智能的一個(gè)非常重要的方向,但并不是全部。因?yàn)槿斯ぶ悄苁且粋€(gè)很廣泛的概念,我們目前對(duì)它可能只是略知皮毛,通往通用人工智能的這條路到底是怎么樣的,大家都還處于一個(gè)探索狀態(tài)。
與此同時(shí),AI 科技評(píng)論也借此機(jī)會(huì)跟俞棟博士聊了聊他領(lǐng)先將深度學(xué)習(xí)技術(shù)應(yīng)用到語音識(shí)別領(lǐng)域的歷史淵源、從微軟研究院到騰訊 AI Lab 的職業(yè)轉(zhuǎn)變經(jīng)歷以及其對(duì)于語音識(shí)別領(lǐng)域未來發(fā)展的看法。
我們先來看俞棟博士在本次大會(huì)上都分享了什么。
為什么多模態(tài)是人機(jī)交互的發(fā)展趨勢(shì)?
人機(jī)交互走過了鍵盤交互、觸摸交互等若干階段,目前許多設(shè)備采用語音交互的方式。而交互模式經(jīng)歷每一次變化背后的驅(qū)動(dòng)力,都是對(duì)人和機(jī)器之間交互的便利性、自然性以及準(zhǔn)確性所提出的更高的要求。
為了更好地滿足人機(jī)交互的這一需求,俞棟博士指出了一個(gè)非常重要的研究方向或者說發(fā)展趨勢(shì),那就是多模態(tài)人機(jī)交互。與此同時(shí),俞棟博士也解釋了為什么多模態(tài)是人機(jī)交互的發(fā)展趨勢(shì)的原因,主要有四點(diǎn):
第一,多模態(tài)交互能夠讓人類在不同的場(chǎng)景下可以選擇不同的模態(tài)組合進(jìn)行交互,進(jìn)而從整體上提高人機(jī)交互的自然度;第二,在多模態(tài)技術(shù)下,一個(gè)模態(tài)可以補(bǔ)充另一個(gè)模態(tài)的弱點(diǎn),從而能夠通過融合多個(gè)模態(tài)的信息,獲得更精確的用戶、情感、場(chǎng)景、和發(fā)聲人位置估計(jì);第三,多模態(tài)交互具有「互為監(jiān)督」的優(yōu)勢(shì),即當(dāng)機(jī)器無法獲得某個(gè)模態(tài)的明顯信息時(shí),其他模態(tài)可以為其提供弱監(jiān)督信息,讓機(jī)器能夠持續(xù)做系統(tǒng)自適應(yīng)調(diào)整;第四,多模態(tài)能夠讓人們?cè)谂c機(jī)器的交互過程中擁有多維感覺,從而能夠從視覺、聽覺、觸覺等多方面體會(huì)機(jī)器的情感和表達(dá)的語義。而除了所具備的這些優(yōu)勢(shì)外,俞棟博士認(rèn)為,多模態(tài)交互還能夠給業(yè)界帶來更多的想象空間,比如可以嘗試使用人機(jī)交互技術(shù)去做虛擬解說、虛擬前臺(tái)、虛擬陪伴等。
正是由于多模態(tài)交互所具備的這些優(yōu)勢(shì)以及所帶來的這種想象空間,他也領(lǐng)導(dǎo)團(tuán)隊(duì)開啟了虛擬人的研究項(xiàng)目。下面,俞棟博士也以虛擬人這項(xiàng)研究成果為載體,對(duì)多模態(tài)交互技術(shù)進(jìn)行了詳細(xì)介紹。
多模態(tài)交互技術(shù)詳解及應(yīng)用成果分享
俞棟博士首先介紹了多模態(tài)交互的系統(tǒng)框架,主要包括三個(gè)部分:多模態(tài)輸入、中間的認(rèn)知和決策控制環(huán)節(jié)以及最后的輸出。
進(jìn)一步,俞棟博士向大家展示了多模態(tài)技術(shù)的階段性成果——虛擬人的合成技術(shù)流程:系統(tǒng)首先從文本中提取各種各樣的信息,包括動(dòng)作、表情、情感、重音位置、和激動(dòng)程度等;之后將這些信息輸入到動(dòng)作表情模型生成動(dòng)作和表情,同時(shí)輸入給多模態(tài)合成系統(tǒng) DurIAN 同步生成語音以及口型和表情參數(shù),進(jìn)而合成真人或者卡通形象。
其中,同步合成語音和圖像的 DurIAN 模型作為多模態(tài)合成技術(shù)的核心成果,則是俞棟博士本次要介紹的重點(diǎn)內(nèi)容。
據(jù)俞棟博士介紹,相較于傳統(tǒng)語音合成方法以及目前最新的端到端語音合成方法,應(yīng)用多模態(tài)合成技術(shù)DurIAN 模型,無論是在自然度、魯棒性、可控性、泛化能力以及實(shí)時(shí)性等方面都取得了更好的效果。
傳統(tǒng)語音合成方法 VS 端到端語音合成方法
在正式介紹 DurIAN 模型前,俞棟博士先介紹了傳統(tǒng)語音合成方法、端到端語音合成方法、以及這兩種方法各自的優(yōu)缺點(diǎn)。
傳統(tǒng)語音合成方法主要基于 BLSTM+WORLD 模型,擁有穩(wěn)定性和可控性較強(qiáng)的優(yōu)點(diǎn),同時(shí)也存在合成語音機(jī)械感太濃的缺點(diǎn)。不過由于該方法具備較強(qiáng)的穩(wěn)定性和可控性,在工業(yè)界的實(shí)用系統(tǒng)中主要還是使用這種框架。
端到端的語音合成方法優(yōu)點(diǎn)則在于自然度很高,缺點(diǎn)則是穩(wěn)定性和可控性比較差,其中最常見的問題是漏字和重復(fù)。以從文獻(xiàn)中摘錄的結(jié)果為例,該系統(tǒng)出現(xiàn)漏字或者重復(fù)錯(cuò)誤的可能性為 1%-5%。因而,該方法在實(shí)用系統(tǒng)里沒有得到廣泛使用。不過近來,該方法取得了很大進(jìn)展,例如谷歌于 2018 年提出的結(jié)合 WaveNet 的 Tacotron 模型。
相比于傳統(tǒng)語音合成方法,端到端語音合成模型 Tacotron 的優(yōu)勢(shì)主要有四個(gè)改進(jìn)部分:
第一,它使用了基于神經(jīng)網(wǎng)絡(luò)的編碼器模型來替換人工設(shè)計(jì)的語言學(xué)特征;第二,它直接預(yù)測(cè)含有豐富信息的頻率譜,而不是源過濾器聲學(xué)特征;第三,它引入了自回歸模型,解決了合成過程中的過度平滑問題;第四,它采用了基于注意力機(jī)制的端到端訓(xùn)練方法。
不過,這種端到端的注意力機(jī)制也帶來了穩(wěn)定性差的問題。俞棟博士團(tuán)隊(duì)通過分析發(fā)現(xiàn),注意力機(jī)制是模型出現(xiàn)漏詞、重復(fù)等問題的主要原因。下圖右邊有兩個(gè)合成案例,其中標(biāo)藍(lán)的字是被漏掉的。
應(yīng)用多模態(tài)技術(shù)的語音合成系統(tǒng):DurIAN 模型
基于對(duì)端到端語音合成模型 Tacotron 出現(xiàn)漏詞、重復(fù)等問題的原因的發(fā)現(xiàn),俞棟博士團(tuán)隊(duì)在 DurIAN 模型中提出了解決方案,即保留 Tacotron 模型中對(duì)語音合成的自然度有益的部分,也就是上述提到的前三個(gè)改進(jìn)部分,然后使用時(shí)長(zhǎng)預(yù)測(cè)模型來替換端到端注意力機(jī)制。其基本做法是訓(xùn)練一個(gè)音素時(shí)長(zhǎng)預(yù)測(cè)模型,然后在給定時(shí)長(zhǎng)的情況下,對(duì)模型進(jìn)行端到端訓(xùn)練。
這樣的話,DurIAN 模型在能夠保證不出現(xiàn)漏字、重復(fù)問題的情況下,既能保持端到端語音合成模型自然度高的優(yōu)勢(shì),又能解決系統(tǒng)的穩(wěn)定性和可控性問題。
其中,在可控性方面,DurIAN 模型還能進(jìn)一步實(shí)現(xiàn)精細(xì)的控制,基本思路是采用監(jiān)督學(xué)習(xí)方法,不過不需要對(duì)訓(xùn)練語料進(jìn)行精細(xì)標(biāo)注,比如只需要標(biāo)注語音是否激動(dòng)或者語速是快還是慢。在訓(xùn)練時(shí),讓每一個(gè)控制變量都學(xué)習(xí)一個(gè)指向性矢量;在合成過程中,則只需對(duì)相應(yīng)的矢量做連續(xù)值的縮放,便可以實(shí)現(xiàn)精細(xì)化的風(fēng)格控制。
除了穩(wěn)定性和可控性,DurIAN 模型在魯棒性和泛化能力、實(shí)時(shí)化等方面都有較大的提升。
針對(duì)此前端到端語音合成系統(tǒng)存在魯棒性以及泛化能力弱的問題,DurIAN 模型引入了語言學(xué)信息,尤其是標(biāo)點(diǎn)和韻律邊界,即通過充分利用中文語音里的韻律結(jié)構(gòu)來提高模型的泛化性能。具體做法是在 DurIAN 模型中采用 Skip Encoder 來替代 Tacotron 模型中的編碼器結(jié)構(gòu),從而有效引入中文語句里的韻律結(jié)構(gòu)。而Skip Encoder 的基本思想是,在輸入時(shí)用額外的幀顯式表達(dá)這些語言學(xué)信息,不過由于標(biāo)點(diǎn)和韻律邊界本身是一個(gè)時(shí)間點(diǎn)而不是一個(gè)時(shí)間段,因而在編碼器輸出的地方放棄跳過額外增加的幀,這樣每一幀的編碼器輸出仍然與頻率譜的幀相對(duì)應(yīng)。
在實(shí)時(shí)化問題上,此前谷歌曾提出了 waveRNN 模型,雖然在運(yùn)算速度上比神經(jīng)聲碼器一開始常用的 wavenet 快很多,經(jīng)過仔細(xì)的工程優(yōu)化也能夠?qū)崿F(xiàn)實(shí)時(shí),然而實(shí)時(shí)率不佳,且語音合成成本高。對(duì)此,俞棟博士團(tuán)隊(duì)提出了多頻段同步式 waveRNN 技術(shù),其基本做法是把語音信息分頻段,每一步用同一個(gè)聲碼器模型同時(shí)預(yù)測(cè)多個(gè)頻段的值,如果分成 4 個(gè)頻段,則每一步可以計(jì)算 4 個(gè)值,計(jì)算次數(shù)就是原來的四分之一。與此同時(shí),在合成過程中,聲碼器預(yù)測(cè)多頻段的值后,通過上采樣和專門的濾波器設(shè)計(jì)就能保證恢復(fù)沒有失真的原始信號(hào)。
語音合成以外,俞棟博士還展示了 DurIAN 模型在同步合成多模態(tài)信息上的優(yōu)勢(shì),即該模型中的時(shí)長(zhǎng)預(yù)測(cè)模型,可讓系統(tǒng)能夠同步合成語音、嘴型以及面部表情參數(shù),最終生成卡通形象或者真人形象的虛擬人。
未來工作展望
盡管在自然度和魯棒性、風(fēng)格可控、實(shí)時(shí)性以及同步合成語音、嘴型和面部表情等方面,DurIAN 模型已經(jīng)做得非常不錯(cuò),但俞棟博士也指出,該技術(shù)還有很多探索的空間,未來其團(tuán)隊(duì)也還有很多工作要做,主要包括四個(gè)方向:
第一,在模型優(yōu)化上,需要探索在 DurIAN 結(jié)構(gòu)基礎(chǔ)上的端到端訓(xùn)練方法,以更好地支持端到端優(yōu)化;第二,在控制能力上,需要讓模型進(jìn)一步擁有全方位的控制能力,即能夠在不同的場(chǎng)景、情感、音色、語氣信息下,合成對(duì)應(yīng)的語音;第三,在訓(xùn)練語料方面,需要能夠讓系統(tǒng)從低質(zhì)量的語料中學(xué)習(xí)韻律,從高質(zhì)量地語料中學(xué)習(xí)音質(zhì);第四,需要對(duì)模型的定制化進(jìn)行進(jìn)一步探索,從而在少量的語音語料(<15 分鐘)的情況下,也能夠訓(xùn)練出新的音色。AI 科技評(píng)論專訪俞棟博士對(duì)話實(shí)錄:
多模態(tài)在虛擬人項(xiàng)目中的應(yīng)用探索
問:本次您的報(bào)告主題是《虛擬人中的多模態(tài)合成》,您在演講中重點(diǎn)介紹了虛擬人這一最新成果以及多模態(tài)在虛擬人中的技術(shù)應(yīng)用,那您一開始研究這個(gè)項(xiàng)目的契機(jī)是什么?
俞棟:第一,我們?cè)絹碓揭庾R(shí)到單一技術(shù)能做的事情非常少,因而需要將很多的技術(shù)組合起來,這樣才能做出比較有影響力的成果。
第二,騰訊 AI Lab 創(chuàng)立之初就剛好設(shè)立了虛擬人所需要的各個(gè)研究方向,包括語音、自然語言處理、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等等,所以在虛擬人這個(gè)項(xiàng)目上,我們目前所具備的條件已經(jīng)是比較成熟的。
第三,多模態(tài)交互是歷史發(fā)展的必然趨勢(shì),我們預(yù)估這項(xiàng)技術(shù)在接下來的幾年時(shí)間里會(huì)變得越來越重要。
問:目前虛擬人項(xiàng)目的進(jìn)展如何?
俞棟:我們?nèi)ツ晗掳肽觊_始規(guī)劃這個(gè)項(xiàng)目,今年年初算是真正開始有組織地做這個(gè)項(xiàng)目,經(jīng)過八個(gè)月時(shí)間的研究,該項(xiàng)目也取得了一些進(jìn)展。(相關(guān)進(jìn)展見上述報(bào)告部分)
這個(gè)項(xiàng)目大概分為三個(gè)核心的部分:第一個(gè)是虛擬人的輸出;第二個(gè)是虛擬人的輸入,包括看、聽、觸摸等感知方面的東西;第三個(gè)是認(rèn)知和對(duì)話的模塊,這個(gè)模塊成熟度最低,但也是非常重要的模塊。對(duì)于認(rèn)知模塊,業(yè)界研究了很久,目前還不知道正確的做法是什么。我們現(xiàn)在對(duì)于這個(gè)部分能夠做到什么程度也不是很清楚,不過,我們還是要組織力量往這個(gè)方向走。
問:現(xiàn)在人工智能領(lǐng)域,包括騰訊優(yōu)圖實(shí)驗(yàn)室負(fù)責(zé)人賈佳亞教授等研究者都在研究多模態(tài)這一技術(shù),他還在近期的演講中提出了“多模態(tài)是人工智能發(fā)展的未來”的觀點(diǎn),您怎樣看待這一觀點(diǎn)?
俞棟:我認(rèn)為應(yīng)該說多模態(tài)是未來的一個(gè)重要方向。人工智能是一個(gè)很廣泛的概念,其實(shí)我們到目前為止,可能也只是了解到它的一點(diǎn)皮毛,包括認(rèn)知推理、因果推理到底是怎么回事,機(jī)器的泛化能力為什么這么弱等這類基礎(chǔ)性問題,我們現(xiàn)在都還沒有搞明白。
通往通用人工智能的這條路到底是怎么樣的,大家都還處于一個(gè)探索狀態(tài),所以強(qiáng)化學(xué)習(xí)、多模態(tài)交互等都是通往通用人工智能的一種重要的嘗試,但不是全部。
在若干年后,說不定大家還會(huì)發(fā)現(xiàn)另外某項(xiàng)技術(shù)才是真正能夠?qū)崿F(xiàn)通用人工智能的技術(shù)。
學(xué)術(shù)研究經(jīng)歷
問:僅就學(xué)術(shù)而言,您的簡(jiǎn)歷就已經(jīng)非常豐富,是首次將深度學(xué)習(xí)技術(shù)應(yīng)用在語音識(shí)別領(lǐng)域的研究領(lǐng)頭人之一,與 Geoffrey Hinton、鄧力等人都有過深度合作,無論是論文、專著還是研究成果方面,表現(xiàn)都非常突出,那您一開始是基于怎樣機(jī)緣選擇語音識(shí)別這一研究方向的呢?
俞棟:我小學(xué)的時(shí)候看過一本課外書,叫《奇異的機(jī)器狗》,現(xiàn)在里面談到的很多東西都已經(jīng)實(shí)現(xiàn)了,包括機(jī)器能夠聽懂人說的話,可以跟小朋友交互、幫他們解決學(xué)習(xí)問題,還能夠帶小朋友去玩,等等。因此實(shí)際上,我在小時(shí)候就對(duì)這些智能機(jī)器人產(chǎn)生了興趣。
而真正與語音識(shí)別這個(gè)方向接觸則是在大學(xué)本科期間。我本科在浙大念自動(dòng)控制專業(yè),當(dāng)時(shí)就讀的班級(jí)是浙大設(shè)置的一個(gè)特殊的班級(jí),叫做「混合班」,進(jìn)入這一班級(jí)的都是當(dāng)年入學(xué)新生中最好的一百個(gè)人。這個(gè)班的老師將我們這些學(xué)生當(dāng)做將來專門的研究人員來培養(yǎng),所以我們一入學(xué)就開始關(guān)心「科技國(guó)家隊(duì)」的概念。
大學(xué)三年級(jí)的時(shí)候,我們便進(jìn)入課題組做研究,當(dāng)時(shí)恰逢人工智能發(fā)展的小高峰期(1989 年~1991 年),其中主要有兩個(gè)比較熱門的方向,一個(gè)是專家系統(tǒng),像我當(dāng)時(shí)的學(xué)長(zhǎng)吳朝暉(現(xiàn)任浙大校長(zhǎng))在這個(gè)方向上的研究工作比較多;另一個(gè)方向便是當(dāng)時(shí)剛剛開始熱起來的神經(jīng)網(wǎng)絡(luò),我當(dāng)時(shí)的一個(gè)方向便是神經(jīng)網(wǎng)絡(luò)。
本科畢業(yè)后,我打算去中科院,因?yàn)楫?dāng)時(shí)在大家的認(rèn)知中,中科院就是科技國(guó)家隊(duì)。由于本科專業(yè)是自動(dòng)控制,所以便去自動(dòng)化所找導(dǎo)師,在此過程中發(fā)現(xiàn)了研究方向跟我的興趣比較一致的黃泰翼老師,他研究的是語音識(shí)別。比較巧的是,我在「混合班」的學(xué)長(zhǎng)徐波(現(xiàn)為自動(dòng)化所所長(zhǎng)),當(dāng)時(shí)也在黃泰翼老師那里念研究生。所以我最后就去黃泰翼老師那里讀研,開始進(jìn)入語音識(shí)別這個(gè)研究領(lǐng)域。
問:實(shí)際上在深度學(xué)習(xí)早期階段,這一方法實(shí)際上并不被看好,您是在怎樣的背景下開始研究深度學(xué)習(xí)的?
俞棟:正如我前面提到,我剛開始接觸神經(jīng)網(wǎng)絡(luò)的時(shí)候,神經(jīng)網(wǎng)絡(luò)是當(dāng)時(shí)人工智能的一個(gè)熱門研究方向之一。
后來我到黃泰翼老師那里讀研究生的時(shí)候,黃泰翼老師以及其實(shí)驗(yàn)室的其他老師也采用神經(jīng)網(wǎng)絡(luò)的方法來做語音識(shí)別,所以我在自動(dòng)化所的碩士論文,便是采用神經(jīng)網(wǎng)絡(luò)的方法做語音識(shí)別。這就為我之后將深度學(xué)習(xí)引入語音識(shí)別任務(wù)的一系列工作奠定了基礎(chǔ)。
問:今年,Hinton 等深度學(xué)習(xí)三巨頭摘得 2018 圖靈獎(jiǎng),而深度學(xué)習(xí)給人工智能領(lǐng)域帶來的變革性影響早在前幾年就已經(jīng)發(fā)生了,您是否認(rèn)為這是給深度學(xué)習(xí)的一份遲到的榮譽(yù)?另外您怎樣評(píng)價(jià)這三位研究者的工作?
俞棟:我認(rèn)為基本上是適時(shí)的。因?yàn)榭茖W(xué)發(fā)展中的很多進(jìn)展,在當(dāng)時(shí)剛出來的時(shí)候,該領(lǐng)域的人很難看清它們的影響到底有多大,一般都有一個(gè)認(rèn)可延后期,有的可能只需要幾年,有的甚至要等到發(fā)明人去世后這項(xiàng)成果才能被認(rèn)可。所以我認(rèn)為他們獲得這項(xiàng)榮譽(yù),還算是比較適時(shí)的。
首先,他們很早就開始研究深度學(xué)習(xí),我大學(xué)期間首次接觸到這項(xiàng)工作之前,他們就做了很多鋪墊性的工作;其次,他們?cè)谶@個(gè)方向上堅(jiān)持了很久,即使在低潮時(shí)期,他們依舊在堅(jiān)持,這都是非常值得我們研究者學(xué)習(xí)的品質(zhì)。
問:將深度學(xué)習(xí)技術(shù)應(yīng)用于語音識(shí)別是否是您最具代表性的工作?之后在語音識(shí)別這一領(lǐng)域您有哪些主要的研究方向?
俞棟:我認(rèn)為這是一項(xiàng)比較有代表性的工作,當(dāng)然我們?cè)谶@個(gè)研究方向上做了一系列工作,因而對(duì)這個(gè)領(lǐng)域起到了一個(gè)比較大的推動(dòng)作用,如果只是單項(xiàng)工作,推動(dòng)作用也就沒有這么大了。
目前我們比較關(guān)注的一個(gè)研究方向是多模態(tài),這是一項(xiàng)涵蓋視覺、聲音、符號(hào)語言、嗅覺和觸覺等信息的技術(shù),而語音部分相關(guān)的如語音識(shí)別、語音合成、語音增強(qiáng)、語義分離、聲紋識(shí)別等技術(shù),在多模態(tài)中都有用到。
從微軟研究院到騰訊 AI Lab
問:學(xué)術(shù)以外,您在工業(yè)界的履歷也非常豐富,2017 年 5 月份,您離開微軟研究院加入騰訊 AI Lab,在工作內(nèi)容以及承擔(dān)的角色方面,有怎樣的轉(zhuǎn)變?
俞棟:原來在微軟研究院任職的時(shí)候,相對(duì)來說會(huì)更加專注自己的研究方向和技術(shù)層面的東西。加入騰訊 AI Lab 后,我承擔(dān)的角色不再是純技術(shù)研究型的,除技術(shù)研究外,還需要扮演管理者的角色。
相對(duì)來說,剛開始比較難適應(yīng)的難點(diǎn)有兩個(gè):一是自己要花很多時(shí)間在管理方面,做技術(shù)的時(shí)間相對(duì)來說就少了,需要我找到更好的平衡;二是由于我負(fù)責(zé)的團(tuán)隊(duì)在西雅圖,跟總部這邊由于時(shí)差等原因,晚上的很多時(shí)間需要和國(guó)內(nèi)開會(huì),晚上可自由支配的時(shí)間比在 MSR 時(shí)少了很多。為了減少溝通問題,我增加了到中國(guó)實(shí)驗(yàn)室的時(shí)間。
問:目前,國(guó)內(nèi)科技巨頭其實(shí)都已經(jīng)先后創(chuàng)建了人工智能相關(guān)的實(shí)驗(yàn)室,您怎樣看待騰訊 AI Lab 在其中的位置?
俞棟:現(xiàn)在這些企業(yè)都成立了人工智能實(shí)驗(yàn)室,招了很多很強(qiáng)的科學(xué)家,我認(rèn)為這是一個(gè)好的趨勢(shì),對(duì)整個(gè) AI 的發(fā)展會(huì)有很好的推動(dòng)作用。
相較之下,騰訊 AI Lab 稍有不同的地方在于,我們的研究跟產(chǎn)品的緊密程度,可能沒有其他實(shí)驗(yàn)室那么高。其他公司的實(shí)驗(yàn)室更像是一個(gè)工程院,偏向于將一些論文中的技術(shù)復(fù)現(xiàn),然后落地到產(chǎn)品中。而我們則更注重是否能夠發(fā)展前沿技術(shù),跟其他企業(yè)的實(shí)驗(yàn)室的側(cè)重點(diǎn)不完全一樣。
問:您帶領(lǐng)的團(tuán)隊(duì)對(duì)學(xué)術(shù)界在語音識(shí)別領(lǐng)域的進(jìn)展的關(guān)注度如何?除了語音之外,您的團(tuán)隊(duì)還關(guān)注其他哪些研究方向?
俞棟:我們對(duì)前沿技術(shù)非常關(guān)注。我個(gè)人每年都至少會(huì)參加一次語音相關(guān)的會(huì)議和一次自然語言處理的會(huì)議,同時(shí)我團(tuán)隊(duì)中的其他成員也都會(huì)參加相關(guān)的會(huì)議,因此學(xué)術(shù)界主要的會(huì)議,我們基本上都有同事參加。
語音以外,我們比較關(guān)注的方向,還包括自然語言處理、計(jì)算機(jī)視覺、圖形圖像學(xué)以及機(jī)器學(xué)習(xí)和人工智能技術(shù)的基礎(chǔ)理論等。
語音識(shí)別領(lǐng)域的現(xiàn)狀和未來發(fā)展
問:在工業(yè)落地方面,相比人工智能其他領(lǐng)域,語音識(shí)別是跑在前頭的,但是目前暴露出的問題也很多,其中您認(rèn)為比較嚴(yán)重的問題有哪些?
俞棟:其實(shí)存在的問題,說到底還是魯棒性問題。現(xiàn)在基于深度學(xué)習(xí)的方法使系統(tǒng)魯棒性已經(jīng)比之前好很多了,但是還達(dá)不到我們期望的效果。
現(xiàn)在我們的主要做法就是增加訓(xùn)練語料,而訓(xùn)練語料目前存在采集困難的問題,并且即使采集的語料很多,一旦機(jī)器在一個(gè)此前沒有見過的完全新的 mismatch 的環(huán)境中,也無法實(shí)現(xiàn)太好的效果。
比較典型的例子是,現(xiàn)在很多語音識(shí)別器的錯(cuò)誤率能夠達(dá)到百分之六七,即便在相對(duì)比較嘈雜的環(huán)境下也能做得比較好,但是如果遇到兩個(gè)人同時(shí)說話的場(chǎng)景,錯(cuò)誤率可能達(dá)到百分之五六十。另外如果說話人的口音比較重,語音識(shí)別器的效果也不會(huì)很好。
此前我們也嘗試了很多解決方案,包括提高模型的泛化能力,做模型的自適應(yīng),目前來看,這些方案還有很大的提升空間。
問:就您看來,語音識(shí)別領(lǐng)域的發(fā)展經(jīng)歷了哪些階段,目前處于怎樣的階段,以及理想化的狀態(tài)應(yīng)該是怎樣的?
俞棟:從難易程度來劃分,語音識(shí)別跟人工智能其他領(lǐng)域經(jīng)歷的階段很相似:一開始做一些非常簡(jiǎn)單的任務(wù),比如說音素識(shí)別、單字識(shí)別;接著是連續(xù)語音識(shí)別的階段,隱馬科夫模型出來以后,連續(xù)語音識(shí)別就變得可行,后來到了大詞匯量連續(xù)語音識(shí)別;再之后是即時(shí)語音識(shí)別階段,要求機(jī)器能夠聽懂人自由聊天。
現(xiàn)在則是完全真實(shí)場(chǎng)景下的語音識(shí)別階段,比如目前很多研究者在嘗試研究雞尾酒會(huì)場(chǎng)景下的語音識(shí)別。這也是下一階段我們要突破的方向,真實(shí)場(chǎng)景下的語音識(shí)還包括在非常嘈雜的環(huán)境下或者說話人口音很重的場(chǎng)景下做語音識(shí)別。
我認(rèn)為,機(jī)器的理想化狀態(tài)應(yīng)該是能夠比人識(shí)別率更高。計(jì)算機(jī)在未來某一天,應(yīng)該是能夠在各個(gè)場(chǎng)景下的識(shí)別率都比人更高的。
問:未來三到五年,語音識(shí)別領(lǐng)域可以尋求突破的方向或者說技術(shù)有哪些?
俞棟:我認(rèn)為未來三到五年,語音識(shí)別領(lǐng)域可以突破的方向主要有三個(gè):第一是多模態(tài);第二個(gè)是具有更強(qiáng)、更快自適應(yīng)能力的模型;第三,類似雞尾酒會(huì)場(chǎng)景下的語音識(shí)別也會(huì)是一個(gè)可以探索的方向。