更新時(shí)間:2024-08-09 08:34:24作者:佚名
在回答問(wèn)題時(shí),男孩低頭看向左側(cè),壓低聲音,回答非常簡(jiǎn)短。系統(tǒng)立刻意識(shí)到,“他走神了”。男孩的這種反應(yīng)往往是求職面試中的大忌,而系統(tǒng)可以實(shí)時(shí)觀察到這種行為變化,幫助他在以后的面試中避免出現(xiàn)此類(lèi)問(wèn)題。
這套系統(tǒng)名叫 HALEF,基于實(shí)時(shí)多模態(tài)對(duì)話系統(tǒng),通過(guò)接收不同模態(tài)的信息,實(shí)現(xiàn)更好的人機(jī)交互。這套系統(tǒng)的發(fā)明者是加州大學(xué)戴維斯分校(UC Davis)助理教授、語(yǔ)言、多模態(tài)與交互實(shí)驗(yàn)室主任周宇。就在 11 月,周宇博士入選了福布斯 30 位 30 歲以下科學(xué)界杰出人物榜單,這是福布斯表彰年輕人的重要榜單,入選率一般不超過(guò) 5%。
在余博士獲獎(jiǎng)后,機(jī)器之心聯(lián)系上了她并對(duì)她進(jìn)行了專(zhuān)訪,我們談到了余博士求學(xué)的心路歷程、在卡內(nèi)基梅隆大學(xué)攻讀博士學(xué)位期間對(duì)多模態(tài)對(duì)話系統(tǒng)的研究,以及她對(duì)未來(lái)職業(yè)的展望。
機(jī)器之心:恭喜您入選《福布斯》雜志 30 位 30 歲以下科學(xué)界杰出人士。這次入選對(duì)您近期的工作和生活有什么影響嗎?
于宙:因?yàn)槲覄倧目▋?nèi)基梅隆大學(xué)(CMU)畢業(yè),1月份加入了UC Davis,從某種意義上來(lái)說(shuō),這給我?guī)?lái)了很多合作的機(jī)會(huì)。比如其他公司的人認(rèn)識(shí)我之后,會(huì)邀請(qǐng)我去講課,進(jìn)一步合作。其他院系的老師認(rèn)識(shí)我之后,比如媒體系的老師,也會(huì)對(duì)這些計(jì)算模型很感興趣,跟我交流。另外,這對(duì)我招收學(xué)生也帶來(lái)了一些好處,其實(shí)也增加了一些宣傳,讓大家知道我的一些工作。
機(jī)器之心:入選這個(gè)榜單的概率應(yīng)該不到 5%,整個(gè)評(píng)選過(guò)程是怎樣的?
于宙:其他人可以提名你,然后通過(guò)電子郵件向你發(fā)送一份調(diào)查問(wèn)卷,讓你填寫(xiě)你的成就和背景。收集信息后,內(nèi)部委員會(huì)將進(jìn)行評(píng)估并做出最終決定。
機(jī)器之心:您目前擔(dān)任加州大學(xué)戴維斯分校語(yǔ)言、多模態(tài)和交互實(shí)驗(yàn)室主任,能和我們分享一下您最近的研究項(xiàng)目嗎?
余舟:我一直在研究多模態(tài)對(duì)話系統(tǒng)。對(duì)話系統(tǒng)中有不同的模式,從不同的輸入模型來(lái)看,系統(tǒng)可以是簡(jiǎn)單的基于文本的聊天機(jī)器人,也可以是像 Amazon Alexa 這樣的基于語(yǔ)音的系統(tǒng),也可以是具有更多模式(比如視覺(jué))的系統(tǒng),比如機(jī)器人。輸出模型可以只是文本,語(yǔ)音,也可以是多模態(tài)。比如虛擬人,游戲中也會(huì)有這種由計(jì)算模型驅(qū)動(dòng)的交互,虛擬角色可以做各種各樣的事情,比如教小朋友英語(yǔ)。輸出模式也可以是物理交互,也就是機(jī)器人。人與機(jī)器人如果進(jìn)行交流,也可以通過(guò)自然語(yǔ)言完成更多的任務(wù)。物理協(xié)作可以帶來(lái)更多的實(shí)用性,比如人可以指揮機(jī)器人去哪里,通過(guò)交流,機(jī)器人可以更好地完成任務(wù),比如抓東西,搬運(yùn)等。
我的主要工作是做交互,但是這個(gè)交互是多模態(tài)的,可以是自然語(yǔ)言,語(yǔ)音,或者基于視覺(jué)。比如我們之前做過(guò)面試的場(chǎng)景,我們很看重對(duì)話技巧。其中,engagement 非常重要。我們通過(guò)多模態(tài)效應(yīng)來(lái)預(yù)測(cè)這個(gè) engagement,比如他是否經(jīng)??茨?;他的聲音有沒(méi)有起伏(prosidy,比如音調(diào)變化)。根據(jù) engagement 的高低或者他是否 intention,我們的系統(tǒng)可以不斷實(shí)時(shí)調(diào)整目標(biāo)的行動(dòng)規(guī)劃。比如你在某一部分 intention 不夠,我們會(huì)給你一些鼓勵(lì),每個(gè)人的對(duì)話都會(huì)不一樣。所以我的很多工作是針對(duì)不同的用戶(hù),每個(gè)人會(huì)有獨(dú)特的交互方案。我的很多對(duì)話模型也用到了強(qiáng)化學(xué)習(xí)。
機(jī)器之心:據(jù)我了解,您在浙江大學(xué)本科期間修的是計(jì)算機(jī)科學(xué)和語(yǔ)言學(xué)雙學(xué)位。為什么會(huì)做出這樣的選擇?
于舟:其實(shí)是這樣的,2007年我本科就讀于浙江大學(xué)竺可楨學(xué)院,當(dāng)時(shí)我選修了外國(guó)語(yǔ)學(xué)院的一些課程,對(duì)語(yǔ)言也很感興趣,而竺可楨學(xué)院正好有英語(yǔ)雙學(xué)位班,我是全班唯一一個(gè)選修計(jì)算機(jī)和英語(yǔ)雙學(xué)位的(我選的是語(yǔ)言學(xué),浙江大學(xué)沒(méi)有單獨(dú)的語(yǔ)言學(xué)專(zhuān)業(yè),是英語(yǔ)專(zhuān)業(yè)的一個(gè)分支)。
機(jī)器之心:您什么時(shí)候開(kāi)始對(duì)計(jì)算機(jī)科學(xué)產(chǎn)生興趣的?
于宙:我從小學(xué)開(kāi)始就喜歡這個(gè),所以很早就有了編程的經(jīng)驗(yàn)。
機(jī)器之心:您來(lái)到卡內(nèi)基梅隆大學(xué)攻讀博士學(xué)位后,是什么啟發(fā)您開(kāi)始研究多模式對(duì)話系統(tǒng)呢?
于舟:我本科大三進(jìn)實(shí)驗(yàn)室的時(shí)候,跟著何曉飛教授和蔡登教授做,他們一直在做機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、數(shù)據(jù)挖掘的工作,所以很早就接觸到了 ML 和 CV。后來(lái)讀雙學(xué)位英語(yǔ)系的時(shí)候,我選擇做機(jī)器翻譯,和外語(yǔ)系的曲云華教授一起做中英翻譯,這個(gè)也是我非常感興趣的。
我申請(qǐng) PhD 的時(shí)候,CMU 有個(gè)專(zhuān)門(mén)的學(xué)院叫語(yǔ)言技術(shù)學(xué)院,屬于計(jì)算機(jī)科學(xué)的范疇,主要研究計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理。應(yīng)該是做 NLP 的最大的最好的一個(gè)團(tuán)體,有 20 多位教授。我當(dāng)時(shí)申請(qǐng)了,但是當(dāng)時(shí)并沒(méi)有抱太大的希望,因?yàn)槲矣X(jué)得我當(dāng)時(shí)只是個(gè)本科生,雖然我有一篇發(fā)表過(guò)的論文。不過(guò) CMU 最終錄取了我,我的本科導(dǎo)師何曉飛教授也很驚訝我被錄取了。
來(lái)到 CMU 之后,我意識(shí)到自己的背景非常獨(dú)特。除了計(jì)算機(jī)科學(xué)之外,沒(méi)有多少人會(huì)選擇學(xué)習(xí)語(yǔ)言學(xué),而且這兩個(gè)學(xué)科也有很大不同。后來(lái)我發(fā)現(xiàn)這個(gè)背景對(duì) NLP 非常有用,因?yàn)槲壹榷Z(yǔ)言學(xué)又懂計(jì)算機(jī)科學(xué),而且可以把語(yǔ)言學(xué)應(yīng)用到各種計(jì)算模型中。因?yàn)槲抑白鲞^(guò) CV,也有 NLP 經(jīng)驗(yàn),所以我想把這些結(jié)合起來(lái)。
你到了CMU之后才能找到導(dǎo)師。我找導(dǎo)師的時(shí)候,找到了Alan W Black教授和Alexander I. Rudnicky教授。他們之前沒(méi)有做過(guò)CV,但是做了很多口語(yǔ)對(duì)話系統(tǒng)。我去了之后,我們開(kāi)始做多模態(tài)對(duì)話系統(tǒng),慢慢的就成了我論文的題目。這也是當(dāng)時(shí)的一個(gè)機(jī)會(huì)。我去CMU的時(shí)候,蘋(píng)果的Siri還沒(méi)有發(fā)布,大眾還不明白這個(gè)對(duì)話系統(tǒng)是什么。然后慢慢到現(xiàn)在,大家才開(kāi)始明白。那時(shí)候深度學(xué)習(xí)還沒(méi)有起飛(Pre-Deep Learning),我們很多自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition)還不準(zhǔn)確。所以,這是一個(gè)非常好的機(jī)會(huì)。隨著底層技術(shù)的成熟,這種更高級(jí)的東西就有更大的空間。
在隨后接受 Alan W Black 采訪時(shí),這位著名的 CMU 教授告訴《機(jī)器之心》:周宇最初從事基于視覺(jué)和語(yǔ)音的對(duì)話研究,但后來(lái)她專(zhuān)注于“非任務(wù)導(dǎo)向?qū)υ挕保ㄋ追Q(chēng)聊天機(jī)器人)中的用戶(hù)參與。在過(guò)去,“非任務(wù)導(dǎo)向?qū)υ挕辈⒉皇且粋€(gè)真正的研究領(lǐng)域,只是一個(gè)有趣的方面,但她對(duì)這個(gè)領(lǐng)域很感興趣,我們幫助她找到資金來(lái)完成這項(xiàng)研究?,F(xiàn)在,這項(xiàng)研究慢慢成為主流,也有很多人投身其中,但她是最早定義這個(gè)研究領(lǐng)域的人之一,發(fā)表了許多論文。
機(jī)器之心:所以正如你所說(shuō),2013 年,每個(gè)人都意識(shí)到深度學(xué)習(xí)非常有效。這種變化會(huì)對(duì)你自己的研究產(chǎn)生什么影響嗎?
余舟:不能說(shuō)是正面還是負(fù)面,對(duì)于我們來(lái)說(shuō),深度學(xué)習(xí)只是一個(gè)模型,并沒(méi)有什么特別的。神經(jīng)網(wǎng)絡(luò)現(xiàn)在應(yīng)用到不同的領(lǐng)域,但從機(jī)器學(xué)習(xí)的角度看,沒(méi)有本質(zhì)的區(qū)別。現(xiàn)在深度學(xué)習(xí)的工具更好了,門(mén)檻也變低了。當(dāng)然在這個(gè)轉(zhuǎn)型過(guò)程中,有的人接受深度學(xué)習(xí)比較早,有的人接受得比較晚。在CMU,我們接受深度學(xué)習(xí)比較早,也沒(méi)有什么大的(轉(zhuǎn)型)障礙。
機(jī)器之心:那么在多模態(tài)對(duì)話系統(tǒng)領(lǐng)域有沒(méi)有比較主流、成熟的前沿系統(tǒng)呢?
于舟:其實(shí)對(duì)話系統(tǒng)本身沒(méi)有這樣的體系,因?yàn)檫€有很多問(wèn)題。在我們的對(duì)話系統(tǒng)中,對(duì)話本身是有內(nèi)容的,每個(gè)事件都是不同的。比如訂機(jī)票和找酒店不一樣,教孩子英語(yǔ)和教孩子數(shù)學(xué)也不一樣。我們也有自己不同的工具和傳遞渠道?;旧厦總€(gè)做對(duì)話系統(tǒng)的研究組都會(huì)宣揚(yáng)自己的體系。你如果要我遵循你的體系,會(huì)有很大壁壘。你得給我一個(gè)很大的理由讓我相信你為什么比我好,不然我們互相都說(shuō)服不了。
世界上在多模態(tài)對(duì)話系統(tǒng)方面做得好的人不多,就五六個(gè)研究組,每個(gè)系統(tǒng)都有不同的約束,比如之前有一個(gè)遺留系統(tǒng),組里不愿意更新或者遷移到其他系統(tǒng)。我們的受眾比較小,做的人也不多。系統(tǒng)本身的工程壁壘就很大。不像深度學(xué)習(xí),現(xiàn)在很多公司都有這些工具,比如亞馬遜 Alexa,也有技能套件。這完全不符合學(xué)術(shù)界要求的靈活性,甚至連 ASR 都不提供給你,有各種各樣的問(wèn)題。所以現(xiàn)在有很多人創(chuàng)業(yè)就是為了做這些工具包,但這其實(shí)有很大的問(wèn)題。我們這個(gè)領(lǐng)域有很多東西,就是任務(wù)之間變化很大,各個(gè)部分的技術(shù)更新比較快,所以要達(dá)到很好的可維護(hù)性是相當(dāng)困難的。我們要做很多多模態(tài)感知和分析,這些東西要結(jié)合起來(lái),最終才能完成一個(gè)策略。雖然我們現(xiàn)在可以做端到端的訓(xùn)練,但是很多時(shí)候,很多系統(tǒng)需要根據(jù)不同的數(shù)據(jù)重新進(jìn)行調(diào)整。
機(jī)器之心:總體來(lái)說(shuō),和基于語(yǔ)音或者文本的對(duì)話系統(tǒng)相比,這個(gè)多模態(tài)對(duì)話系統(tǒng)最大的結(jié)構(gòu)性區(qū)別是什么?
余舟:比如語(yǔ)音就只有一個(gè)模態(tài),所以就用一個(gè)頻率采樣。當(dāng)你有視覺(jué)圖像、視頻的時(shí)候,采樣頻率和語(yǔ)音不一樣,而且視頻計(jì)算量比較大。你如何實(shí)時(shí)地把這些不同模態(tài)的信息融合起來(lái)?你需要做很多融合的工作,這在技術(shù)上是比較難的。比如你的系統(tǒng)必須實(shí)現(xiàn)很好的消息傳遞,否則根本做不到。
同時(shí),多模態(tài)對(duì)話系統(tǒng)可以根據(jù)情境提供更多的信息,比如可以獲取更多的用戶(hù)信息,比如用戶(hù)是否在笑,多加一個(gè)模態(tài)的效果會(huì)好很多,包括了解情境,比如一個(gè)人、兩個(gè)人、三個(gè)人的關(guān)系,這些都可以用。
機(jī)器之心:您認(rèn)為目前多模態(tài)對(duì)話面臨的最大研究挑戰(zhàn)是什么?
余舟:三點(diǎn),因?yàn)槲覀兊膶?duì)話是一個(gè)動(dòng)態(tài)的交互,需要和人交互,但是這種交互是無(wú)法重復(fù)的,因?yàn)槊總€(gè)人的交互方式都不一樣。所以從某種意義上來(lái)說(shuō),我們的實(shí)驗(yàn)是不可重復(fù)的,而且你也不能在現(xiàn)有的數(shù)據(jù)集上進(jìn)行訓(xùn)練,否則就變成了簡(jiǎn)單的模擬。所以很多情況下,我們要做真實(shí)的用戶(hù)研究,也就是我們建好系統(tǒng)之后,要有真實(shí)的人和我們交互。但是招人的時(shí)候會(huì)有一個(gè)很大的問(wèn)題,比如我們做深度學(xué)習(xí)的話,有一千個(gè)數(shù)據(jù)點(diǎn),是不是要雇一千個(gè)人來(lái)做?這個(gè)效率很低,所以我們用強(qiáng)化學(xué)習(xí)來(lái)做很多的模擬,來(lái)降低這個(gè)數(shù)據(jù)的成本。
還有一點(diǎn)就是如何盡量降低多模態(tài)對(duì)話系統(tǒng)的數(shù)據(jù)收集和模型評(píng)估難度。我們的一個(gè)系統(tǒng)加入了視頻會(huì)議,比如 Skype。我們的系統(tǒng)可以實(shí)時(shí)錄制對(duì)話,關(guān)注視頻和音頻兩端,我們?cè)谠贫藢?shí)時(shí)處理。這樣在收集數(shù)據(jù)的時(shí)候可以減少一些人力成本(目前是在亞馬遜旗下的在線眾包平臺(tái) Amazon Mechanical Turk 上收集的)。這些是我們最近對(duì)系統(tǒng)做的一些改進(jìn)。
最后一個(gè)問(wèn)題是隱私。人臉是可以識(shí)別的,你必須獲得用戶(hù)的許可。另一個(gè)問(wèn)題是用戶(hù)的意圖。例如,當(dāng)我們做教育時(shí),我們測(cè)試的人真的愿意學(xué)習(xí)這個(gè)領(lǐng)域。但我在 AMT 上找到的人可能并不是真的想學(xué)習(xí),所以這里仍然存在不匹配的情況。
機(jī)器之心:那么強(qiáng)化學(xué)習(xí)具體能做什么呢?
余舟:強(qiáng)化學(xué)習(xí)就是優(yōu)化這種交互的一個(gè)范例。從某種意義上來(lái)說(shuō),我和你的系統(tǒng)對(duì)話是一個(gè)連續(xù)的決策,我每一步的下一步?jīng)Q策都是基于你們之前的對(duì)話歷史。這樣我才能達(dá)到最好的效果,這也是為什么強(qiáng)化學(xué)習(xí)在交互中如此重要。
另外,如果我此時(shí)做出決策A,原本計(jì)劃做出決策B,那么我后續(xù)的數(shù)據(jù)就沒(méi)法用了,因?yàn)橐坏┪以诤罄m(xù)的事件中選擇了另一個(gè)決策,情況就完全不一樣了。但我們可以做一些用戶(hù)模擬,假設(shè)他如果做出決策B,很可能也會(huì)這樣,這在某種意義上也降低了數(shù)據(jù)的成本。很多時(shí)候,兩方面都達(dá)到了。
機(jī)器之心:在您的研究中,您是如何將技術(shù)研究和應(yīng)用場(chǎng)景結(jié)合起來(lái)的?未來(lái)多模態(tài)對(duì)話系統(tǒng)會(huì)廣泛應(yīng)用于哪些應(yīng)用場(chǎng)景?
余舟:我覺(jué)得這個(gè)多模態(tài)對(duì)話系統(tǒng)有很多應(yīng)用,包括現(xiàn)在的亞馬遜 Alexa,它現(xiàn)在能做的事情很多都是單輪的,比如播放音樂(lè)。如果它能做多輪的事情,比如推薦電影或者商品,那它就取代銷(xiāo)售人員、客服了。我們現(xiàn)在做的是把你的用戶(hù)情緒納入到這個(gè)對(duì)話系統(tǒng)中,重新規(guī)劃。比如我知道你不開(kāi)心,我會(huì)選擇安慰你或者馬上切換到人工,用多模態(tài)對(duì)話系統(tǒng)來(lái)更好地完善系統(tǒng)。
例如在教育領(lǐng)域,當(dāng)你觀看在線教育課程時(shí),它可以實(shí)時(shí)向你提問(wèn)。培訓(xùn)選項(xiàng)也更多,例如培訓(xùn)銷(xiāo)售技能和駕駛技能。我們之前的求職面試培訓(xùn)系統(tǒng)甚至可以幫助對(duì)面試者進(jìn)行初步篩選,收集更多信息,并為您的面試評(píng)分。
在醫(yī)療領(lǐng)域,我們創(chuàng)造了虛擬角色到目前為止英語(yǔ)的英文,可以和用戶(hù)進(jìn)行半建設(shè)性的對(duì)話計(jì)劃,了解用戶(hù)是否有心理問(wèn)題,比如抑郁癥、創(chuàng)傷后應(yīng)激障礙(PTSD)等;也可以讓虛擬人與自閉癥兒童互動(dòng),讓他們通過(guò)與這些虛擬角色的交流,提高社交能力;對(duì)于老人的護(hù)理,我們可以讓虛擬人監(jiān)測(cè)老人的健康狀況,詢(xún)問(wèn)老人是否吃藥,與他們聊天,了解老人的精神狀態(tài)如何。
另一件事是路徑規(guī)劃。我最近和卡內(nèi)基梅隆大學(xué)的一位教授合作,讓操作員和機(jī)器人在搜救中合作。人們可以有一些先驗(yàn)知識(shí),機(jī)器人可以提出問(wèn)題,然后他們可以合作完成不同的任務(wù)。
我們之前也做過(guò)一個(gè)指路機(jī)器人,為什么做這個(gè)機(jī)器人呢?因?yàn)橹暗慕换ソ缑婧芑靵y,如果有手勢(shì)就很清楚了,左就是左。
機(jī)器之心:您在研究多模態(tài)對(duì)話系統(tǒng),在用戶(hù)參與度方面也做了很多研究,我想知道您是如何研究和量化這個(gè)問(wèn)題的?
于宙:我們之所以關(guān)注這個(gè)問(wèn)題,是因?yàn)槲覀兊亩x是,你愿不愿意繼續(xù)這個(gè)對(duì)話,所有的對(duì)話都是需要參與的。
具體來(lái)說(shuō),我們會(huì)請(qǐng)專(zhuān)家做標(biāo)注貝語(yǔ)網(wǎng)校,我們會(huì)設(shè)置各種調(diào)查和標(biāo)注方案,我們也會(huì)請(qǐng)人們自己寫(xiě)報(bào)告。在完成互動(dòng)之后,他們會(huì)看視頻,并說(shuō)出當(dāng)時(shí)是否非常投入。我們會(huì)根據(jù)這些標(biāo)注來(lái)訓(xùn)練計(jì)算模型。
機(jī)器之心:據(jù)我了解,您在研究這個(gè)多式聯(lián)運(yùn)對(duì)話系統(tǒng)時(shí),創(chuàng)造了 TickTock、指路機(jī)器人和 HALEF,這些都是您在攻讀博士期間的主要成果。能一一介紹一下這些系統(tǒng)嗎?
余舟:第一個(gè)系統(tǒng)是社交聊天機(jī)器人,我們把它部署在 Amazon Alexa 上。在任務(wù)方面,我們現(xiàn)在對(duì)其進(jìn)行了擴(kuò)展,將它與任務(wù)導(dǎo)向系統(tǒng)結(jié)合起來(lái),做一些前沿的任務(wù),比如電影推薦(見(jiàn) Yu et al.,IJCAI 2017)。
第二是人機(jī)交互,這里面用到了很多注意力機(jī)制,這取決于用戶(hù)是否在注意。因?yàn)樵谶@種引導(dǎo)任務(wù)中,沒(méi)有注意力就不會(huì)有認(rèn)知上的變化。比如我們用一些畫(huà)圖策略來(lái)獲得注意力,比如說(shuō)“不好意思”、“重啟”、“你能告訴我嗎”,效果比較好。
第三個(gè)就是前面提到的面試系統(tǒng),可以幫助人們提高會(huì)話能力。比如說(shuō),如果這個(gè)人是非母語(yǔ)人士,他就需要通過(guò)機(jī)器人互動(dòng)來(lái)訓(xùn)練他的會(huì)話能力。比如說(shuō),如果我發(fā)現(xiàn)他在不投入的時(shí)候缺乏自信,我可以給他一些鼓勵(lì),“我覺(jué)得你做得很好?!?,這樣他就能更好地訓(xùn)練他的會(huì)話能力。
機(jī)器之心:目前為止您最滿意的研究論文是什么?
于宙:這個(gè)很難說(shuō)(笑),應(yīng)該是我最近的一個(gè)研究,我最滿意的永遠(yuǎn)是最新的一個(gè)。
機(jī)器之心:多模態(tài)對(duì)話系統(tǒng)會(huì)成為您終生的研究目標(biāo)嗎?
于宙:那肯定是終身的,其實(shí)就是解決用不同的方式去利用信息,去更好的互動(dòng)的問(wèn)題,這是我們要解決的問(wèn)題。
機(jī)器之心:基于文本和語(yǔ)音的對(duì)話系統(tǒng)已經(jīng)在工業(yè)領(lǐng)域得到廣泛應(yīng)用,您認(rèn)為多模態(tài)對(duì)話系統(tǒng)什么時(shí)候會(huì)在工業(yè)領(lǐng)域得到廣泛應(yīng)用?
于舟:大概五到十年吧。比如說(shuō)亞馬遜Alexa出現(xiàn)的時(shí)機(jī),因?yàn)樗€是一個(gè)音箱,比如說(shuō),大家花那么多錢(qián)買(mǎi)一個(gè)音箱,還不如買(mǎi)一個(gè)亞馬遜Alexa。市場(chǎng)和調(diào)研是兩碼事,你需要找到一個(gè)非常好的切入點(diǎn)。
機(jī)器之心:據(jù)我了解,亞馬遜最近給你 10 萬(wàn)美元,用于為 Echo 平臺(tái)開(kāi)發(fā)一款社交聊天機(jī)器人。能和我們講講這個(gè)項(xiàng)目背后的故事嗎?
于宙:我是去年11月拿到這個(gè)項(xiàng)目的,是我在CMU的時(shí)候就在做的一個(gè)項(xiàng)目,今年我在戴維斯,每年都可以續(xù)簽研究合同。
機(jī)器之心:那么你會(huì)開(kāi)發(fā)什么類(lèi)型的社交聊天機(jī)器人?
余舟:其實(shí)它是一個(gè)非常全面的系統(tǒng),可以跟你聊任何事情,它唯一的目標(biāo)就是讓對(duì)話者參與到對(duì)話中。我的論文很大一部分是開(kāi)放域社交聊天,更偏向 NLP,比如如何利用知識(shí)庫(kù)來(lái)做更好的自然語(yǔ)言理解,如何利用計(jì)算語(yǔ)言學(xué)來(lái)實(shí)現(xiàn)對(duì)話,如何提升對(duì)話的效果。
我們最近在 IJCAI 2017 上發(fā)表的一項(xiàng)研究將社交聊天與任務(wù)結(jié)合起來(lái),幫助人們更好地完成任務(wù)。這是因?yàn)榫哂猩缃粚傩缘娜蝿?wù)具有很大的靈活性,可以幫助人們更好地理解和適應(yīng)對(duì)話。同時(shí),加入社交成分可以更容易地影響對(duì)話者,增加更多的技能。
機(jī)器之心:語(yǔ)音識(shí)別的錯(cuò)誤率實(shí)際上已經(jīng)下降到 5% 左右,但仍然存在很多挑戰(zhàn),例如如何區(qū)分噪音和語(yǔ)音,如何區(qū)分多個(gè)聲音,比如在雞尾酒會(huì)上。多模態(tài)對(duì)話系統(tǒng)中的語(yǔ)音識(shí)別有什么獨(dú)特的挑戰(zhàn)嗎?
余舟:語(yǔ)音識(shí)別在交互上是非常難的,人不是一句話就說(shuō)完的,說(shuō)話中有很多不流暢的部分,比如說(shuō)錯(cuò)了,要重復(fù),很多句子都是不符合語(yǔ)法的。這給語(yǔ)音識(shí)別帶來(lái)很多挑戰(zhàn)。我也做一些語(yǔ)音的工作,但我主要做增量語(yǔ)音識(shí)別。為什么這個(gè)很重要?因?yàn)樵趯?duì)話系統(tǒng)中,人跟機(jī)器交互的時(shí)候,你希望機(jī)器盡快給你回答。語(yǔ)音識(shí)別是需要時(shí)間的,我們希望盡快解碼,你說(shuō)幾句話,我們就解碼幾句話。
對(duì)于我們來(lái)說(shuō),我們也想研究聲音事件,了解你的環(huán)境,比如學(xué)校、聚會(huì)、火車(chē)等的聲音,在語(yǔ)音識(shí)別之前把這些東西的噪音降低掉。包括說(shuō)話人識(shí)別,這也是我們的研究方向。
Synced:自然語(yǔ)言理解中的非語(yǔ)法問(wèn)題又如何呢?
余舟:我們做了很多語(yǔ)法分析。NLU在對(duì)話中非常重要。比如在意圖識(shí)別中,你只需要知道幾個(gè)詞就可以知道用戶(hù)的意圖。如果你在開(kāi)放領(lǐng)域工作,這也是非常必要的。這也是我未來(lái)的研究方向:如何實(shí)現(xiàn)語(yǔ)義分析和意圖分析。比如“我有一只貓,我很喜歡它?!边@是貓,對(duì)吧?再比如“我有一只貓,我很喜歡它。”我不知道賓語(yǔ)是什么,但是從上下文中我能理解我指的是貓。第一是共指,第二是省略的問(wèn)題。這個(gè)語(yǔ)法分析非常難。
機(jī)器之心:增加對(duì)話系統(tǒng)的輪數(shù),讓機(jī)器與人類(lèi)進(jìn)行多輪長(zhǎng)期交流是非常困難的。這一研究領(lǐng)域面臨哪些挑戰(zhàn)?
余舟:回合長(zhǎng)度和對(duì)話系統(tǒng)的質(zhì)量是兩回事,這取決于設(shè)計(jì)過(guò)程的目標(biāo)。比如我們通常所說(shuō)的獎(jiǎng)勵(lì)函數(shù),我的目標(biāo)是讓你跟機(jī)器人對(duì)話的時(shí)間越來(lái)越長(zhǎng),所以我建議優(yōu)化目標(biāo)是回合數(shù)盡量多一些;如果我想完成一個(gè)簡(jiǎn)單的任務(wù),其實(shí)你的目標(biāo)是盡可能有效。
機(jī)器之心:多模態(tài)對(duì)話系統(tǒng)是一個(gè)非??鐚W(xué)科的領(lǐng)域。對(duì)于想要學(xué)習(xí)多模態(tài)對(duì)話系統(tǒng)的學(xué)生,您有什么好的建議嗎?
余舟:我的建議是先學(xué)對(duì)話,從單模開(kāi)始學(xué)。我們這個(gè)專(zhuān)業(yè)是理工并重,有非常好的落地場(chǎng)景。而且你要做好準(zhǔn)備。這個(gè)專(zhuān)業(yè)的內(nèi)容很多,你不僅要設(shè)計(jì)和開(kāi)發(fā)算法,還要在和人進(jìn)行真實(shí)對(duì)話的時(shí)候測(cè)試算法是否有效。
機(jī)器之心:您有什么參考資料或者書(shū)籍想要推薦給讀者嗎?
余舟:這個(gè)是挺讓人郁悶的一件事,就是這個(gè)領(lǐng)域一直沒(méi)有好的教材,因?yàn)榘l(fā)展得太快了。我其實(shí)很想寫(xiě)一本書(shū),但是沒(méi)時(shí)間,可能要兩年才能寫(xiě)完。不過(guò)你可以從最基礎(chǔ)的學(xué)習(xí)開(kāi)始,可以從 NLP 開(kāi)始。比如 Daniel Jurafsky 和 ??James H. Martin 合著的《語(yǔ)音和語(yǔ)言處理》這本書(shū),第三版草稿已經(jīng)在網(wǎng)上可以找到。
機(jī)器之心:哪些機(jī)構(gòu)和大學(xué)在該領(lǐng)域處于領(lǐng)先地位?
于宙:比如我曾經(jīng)實(shí)習(xí)過(guò)的微軟研究院,南加州大學(xué)創(chuàng)意技術(shù)研究院到目前為止英語(yǔ)的英文,KTH,歐洲的比勒費(fèi)爾德等。
機(jī)器之心:在學(xué)術(shù)界工作了這么多年,有沒(méi)有想過(guò)將來(lái)加入工業(yè)界?
于宙:現(xiàn)在機(jī)會(huì)很多,但是最重要的是做自己感興趣的事。
機(jī)器之心:就您個(gè)人而言,由于從事多模態(tài)對(duì)話系統(tǒng)的工作可能需要您非常注重社交、交流和與他人打交道,那么您是一個(gè)善于社交的人嗎?
于宙:(笑)應(yīng)該還行吧,哈哈。我不是一個(gè)很外向的人,但是我覺(jué)得跟人交流能讓我得到很多信息,而且能從中感受到快樂(lè)。
機(jī)器之心:在學(xué)術(shù)界做研究項(xiàng)目時(shí),尋求資金支持是一個(gè)非常重要的話題。您覺(jué)得這個(gè)任務(wù)相對(duì)容易還是困難?
余舟:其他人我不太清楚,但我覺(jué)得是有可能的。并不是說(shuō)我做的事情超出了這個(gè)范圍。業(yè)界非常支持,包括 NSF 和 DARPA。他們也看到這是未來(lái),這種互動(dòng)對(duì)未來(lái)會(huì)有很大的影響。
機(jī)器之心:除了學(xué)術(shù)之外,您還有什么興趣和愛(ài)好?
于宙:我會(huì)看Youtube視頻,很喜歡看小動(dòng)物的視頻(笑)。因?yàn)槲矣X(jué)得看小動(dòng)物的視頻很解壓,而且很可愛(ài)。我很想養(yǎng)一只小動(dòng)物,但是我經(jīng)常出差,沒(méi)辦法。我也會(huì)看書(shū)。
機(jī)器之心:你希望招收什么樣的學(xué)生?
首先我先說(shuō)一下為什么想來(lái)我組讀Postdoc或者PhD。我們這個(gè)領(lǐng)域很有前景,我也花了很多時(shí)間指導(dǎo)學(xué)生做項(xiàng)目。我的組還在發(fā)展,現(xiàn)在有兩位博士生,四位碩士生。業(yè)界也很支持多模態(tài)對(duì)話系統(tǒng)的推進(jìn),所以我很希望有能力的學(xué)生能進(jìn)入這個(gè)領(lǐng)域。我希望有博士后能來(lái)我的組里呆一兩年,現(xiàn)在組里有個(gè)空缺,在這個(gè)過(guò)程中,你總能接觸到前沿的研究,而且未來(lái)兩年會(huì)有很好的學(xué)術(shù)或者創(chuàng)業(yè)機(jī)會(huì)。至于學(xué)生的背景,我希望他有機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、語(yǔ)音識(shí)別等相關(guān)專(zhuān)業(yè)的基礎(chǔ),也有很好的工程能力。
機(jī)器之心:最后一個(gè)問(wèn)題,您如何評(píng)價(jià)自己的作品?
我覺(jué)得我們的工作,包括我和我的博士,就是把這個(gè)方向往前推一點(diǎn)點(diǎn),希望能夠做出更有意義的研究。因?yàn)槲覀兊墓ぷ魇欠浅?鐚W(xué)科的,所以我們也在慢慢的推進(jìn)我們的研究。我也經(jīng)常開(kāi)學(xué)術(shù)會(huì)議,把不同領(lǐng)域的人聚集在一起工作,希望通過(guò)我們的努力,能夠把這個(gè)領(lǐng)域往前推一點(diǎn)點(diǎn)。
2024-08-09 08:36
2024-08-08 21:16