您當(dāng)前的位置 :首頁(yè) > 人物專(zhuān)訪
投稿

獨(dú)家對(duì)話百度副總裁王海峰:NLP 還有很長(zhǎng)的路要走

2017-03-06 23:49:51 來(lái)源:機(jī)器之心 作者: 點(diǎn)擊圖片瀏覽下一頁(yè)

     近日,機(jī)器之心獨(dú)家對(duì)話百度副總裁王海峰博士,針對(duì)時(shí)下的 NLP 熱點(diǎn)、百度相關(guān)的技術(shù)情況及其個(gè)人經(jīng)歷展開(kāi)討論。

同時(shí),機(jī)器之心與百度聯(lián)合推出技術(shù)專(zhuān)欄,探討百度在自然語(yǔ)言處理領(lǐng)域的研究成果、實(shí)踐經(jīng)驗(yàn)與心得。王海峰博士也表示,「理解語(yǔ)言、擁有智能、改變世界,希望我們的專(zhuān)欄能一起朝這個(gè)方向努力」。此篇專(zhuān)訪作為合作專(zhuān)欄的開(kāi)篇,希望讀者能從中有所獲益。專(zhuān)欄后續(xù)內(nèi)容,請(qǐng)持續(xù)關(guān)注機(jī)器之心。

王海峰博士現(xiàn)任百度副總裁,負(fù)責(zé)百度搜索引擎、手機(jī)百度、百度信息流、百度新聞、百度手機(jī)瀏覽器、百度翻譯、自然語(yǔ)言處理、語(yǔ)音搜索、圖像搜索、互聯(lián)網(wǎng)數(shù)據(jù)挖掘、知識(shí)圖譜、小度機(jī)器人等業(yè)務(wù)。

學(xué)術(shù)方面,王海峰博士是 ACL(Association for Computational Linguistics)50 多年歷史上唯一出任過(guò)主席(President)的華人,也是迄今為止最年輕的 ACL 會(huì)士(Fellow)。同時(shí),王海峰博士還在多個(gè)國(guó)際學(xué)術(shù)組織、國(guó)際會(huì)議、國(guó)際期刊兼任各類(lèi)職務(wù)。

此前,我們?cè)鴮?zhuān)訪過(guò)百度自然語(yǔ)言處理部技術(shù)負(fù)責(zé)人吳華、高級(jí)總監(jiān)吳甜,就百度機(jī)器翻譯技術(shù)展開(kāi)過(guò)詳細(xì)討論。想要進(jìn)一步了解百度機(jī)器翻譯,可移步《獨(dú)家對(duì)話百度 NLP:先解決語(yǔ)義理解,再談機(jī)器翻譯取代人類(lèi)》(可點(diǎn)擊文末閱讀原文查看)。

因涉及方面較多、篇幅較長(zhǎng),根據(jù)專(zhuān)訪情況將內(nèi)容分為上、下兩篇。《上篇:產(chǎn)品與技術(shù)》,談百度翻譯系統(tǒng)、信息流、知識(shí)圖譜的特點(diǎn)與技術(shù),以及對(duì)數(shù)據(jù)、知識(shí)、記憶等解決 NLP 問(wèn)題關(guān)鍵點(diǎn)的看法;《下篇:過(guò)去與現(xiàn)在》,談王海峰博士自 1993 年來(lái)專(zhuān)注研究機(jī)器翻譯與自然語(yǔ)言處理的過(guò)程,以及發(fā)展百度自然語(yǔ)言處理相關(guān)技術(shù)過(guò)程中的經(jīng)歷與思考。

上篇:產(chǎn)品與技術(shù)

機(jī)器之心:首先請(qǐng)您介紹一下,目前所負(fù)責(zé)的研究和關(guān)注的重點(diǎn)有哪些?

王海峰:從整體上,我在百度負(fù)責(zé)搜索、信息流、手機(jī)百度,百度新聞、百度翻譯、手機(jī)瀏覽器、自然語(yǔ)言處理、知識(shí)圖譜等業(yè)務(wù),既包括技術(shù)和產(chǎn)品,也包括運(yùn)營(yíng)等。我們的很多產(chǎn)品如搜索、信息流等,都是技術(shù)驅(qū)動(dòng)的,既有工程上的架構(gòu)、策略,也有很多人工智能技術(shù),如機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、知識(shí)圖譜、自然語(yǔ)言處理和語(yǔ)音圖像技術(shù)等等。

自然語(yǔ)言處理一直是這些業(yè)務(wù)中非常重要的基礎(chǔ)技術(shù)。從做搜索引擎誕生的第一天開(kāi)始,最基本的 query 分析,網(wǎng)頁(yè)內(nèi)容分析,文本匹配等,都需要自然語(yǔ)言處理。近些年來(lái)大家都很關(guān)注人工智能,隨著深度學(xué)習(xí)的應(yīng)用,語(yǔ)音圖像很多問(wèn)題已解決得比較好,但自然語(yǔ)言處理仍然面臨很多難題,也是現(xiàn)在人工智能的重點(diǎn)和熱點(diǎn)。

十幾年來(lái),自然語(yǔ)言處理工作在百度一直很重要,并已有很多積累。2010 年初我加入百度后,建立了獨(dú)立的自然語(yǔ)言處理部門(mén)。既致力于支持百度最核心的搜索和廣告等業(yè)務(wù),也對(duì)自然語(yǔ)言處理技術(shù)進(jìn)行了完整布局。不管是偏基礎(chǔ)的分析理解、生成,還是各種應(yīng)用系統(tǒng),像機(jī)器翻譯、問(wèn)答系統(tǒng)、對(duì)話系統(tǒng)都在開(kāi)展。

百度自然語(yǔ)言處理技術(shù)的開(kāi)展,一方面依托百度強(qiáng)大的數(shù)據(jù)和計(jì)算能力,另一方面將自然語(yǔ)言處理技術(shù)實(shí)際應(yīng)用于產(chǎn)品也產(chǎn)生了更多數(shù)據(jù)。每天有非常多的用戶使用搜索,而背后又有萬(wàn)億量級(jí)的網(wǎng)頁(yè)數(shù)據(jù),絕大多數(shù)都用語(yǔ)言文字表示,蘊(yùn)含了非常多可以挖掘的、有價(jià)值的信息和知識(shí)。這些既為自然語(yǔ)言處理的研究提供了非常好的基礎(chǔ),同時(shí)提供了非常重要的應(yīng)用場(chǎng)景。

機(jī)器之心:您在 AAAI 上的演講中提到百度會(huì)在 query 中用到 BOW、CNN、RNN 等技術(shù),這些不同的技術(shù)在語(yǔ)義理解上有什么樣的作用?怎么去應(yīng)用這些技術(shù)?

王海峰:Query 理解是一個(gè)研究了很多年的方向。Query 理解分很多層,比如最基礎(chǔ)的中文 query 理解,要做分詞、命名實(shí)體識(shí)別、短語(yǔ)結(jié)構(gòu)分析等等。在應(yīng)用深度學(xué)習(xí)之前百度就達(dá)到了很好的效果,在這過(guò)程中也積累了非常豐富的用戶數(shù)據(jù)。這些數(shù)據(jù)的積累又為后來(lái)應(yīng)用深度學(xué)習(xí)提供了基礎(chǔ)。

百度是世界上最早將深度學(xué)習(xí)技術(shù)應(yīng)用在搜索引擎中的公司。深度學(xué)習(xí)本身具有很強(qiáng)的表示能力及大數(shù)據(jù)學(xué)習(xí)能力,基于百度積累的海量數(shù)據(jù)以及強(qiáng)大的計(jì)算資源,我們?cè)O(shè)計(jì)研發(fā)的針對(duì)性的新模型,展現(xiàn)出非常好的學(xué)習(xí)效果。

學(xué)習(xí)出來(lái)的是什么?更多是語(yǔ)義層面的匹配。用戶在 query 中用的是一種表達(dá)方式,網(wǎng)頁(yè)中對(duì)應(yīng)的可能是另外一種。在用戶的使用過(guò)程中,他的點(diǎn)擊數(shù)據(jù)、行為數(shù)據(jù)隱藏著不同表達(dá)方式之間的關(guān)聯(lián),機(jī)器學(xué)習(xí)、深度學(xué)習(xí)就能學(xué)到這種關(guān)聯(lián)。本質(zhì)上,還是更好地利用更多的數(shù)據(jù)學(xué)到了更多東西。BOW(Bag-of-Words,詞袋)就是對(duì)這些詞的語(yǔ)義表示做簡(jiǎn)單的組合,我們用了更復(fù)雜的網(wǎng)絡(luò)如 CNN、RNN,CNN 能更好自動(dòng)捕捉一些局部結(jié)構(gòu)信息,RNN及其變體在序列建模中更能體現(xiàn)句篇的長(zhǎng)距離依賴(lài)特性,它們的表示能力、學(xué)習(xí)能力就會(huì)進(jìn)一步增強(qiáng)。

神經(jīng)網(wǎng)絡(luò)不是近幾年才出現(xiàn)的。20 多年前我讀博士的時(shí)候,博士論文也用了 RNN,但那時(shí)候的數(shù)據(jù)量要小很多,計(jì)算機(jī)的計(jì)算能力甚至跟現(xiàn)在的手機(jī)都沒(méi)法比。那時(shí)只能用很小的數(shù)據(jù)去跑模型,能跑出來(lái)、也有效果,但遠(yuǎn)遠(yuǎn)達(dá)不到今天的效果。深度學(xué)習(xí)很多基礎(chǔ)理論也并不是近幾年才產(chǎn)生的,但是近幾年爆發(fā)式的在應(yīng)用中取得了非常多的成果,大數(shù)據(jù)和強(qiáng)大的計(jì)算能力起到了至關(guān)重要的支撐作用。

機(jī)器之心:百度在前幾年就上線了機(jī)器翻譯系統(tǒng),我們知道機(jī)器翻譯系統(tǒng)可能用到神經(jīng)網(wǎng)絡(luò)、基于規(guī)則方法、基于實(shí)例的方法,還有基于統(tǒng)計(jì)的。這些不同的方法,如何在一個(gè)翻譯系統(tǒng)中結(jié)合?

王海峰:我們?cè)谑澜缟献钤绨焉疃葘W(xué)習(xí)應(yīng)用到大規(guī)模線上翻譯系統(tǒng),2015 年 5 月系統(tǒng)正式上線。但上線的同時(shí),并沒(méi)有把原來(lái)的方法直接替換掉。我們發(fā)現(xiàn)多個(gè)模型融合使用的效果是最好的,因?yàn)樯疃葘W(xué)習(xí)有些問(wèn)題解決的并不好,每一種方法都有它擅長(zhǎng)的地方。

在應(yīng)用深度學(xué)習(xí)之前,基于統(tǒng)計(jì)的、規(guī)則的、實(shí)例的方法我們都用了。比如規(guī)則方法,擅長(zhǎng)抽象語(yǔ)言知識(shí)并顯式地表示出來(lái),比如語(yǔ)法知識(shí)、局部的規(guī)則等。

從一種語(yǔ)言到另一種語(yǔ)言并不是完全依靠規(guī)則的,如果有限的語(yǔ)法能覆蓋所有語(yǔ)言現(xiàn)象,翻譯這件事就會(huì)變得非常簡(jiǎn)單,F(xiàn)實(shí)中語(yǔ)言是非常復(fù)雜的,表示很靈活,很多時(shí)候并不是從語(yǔ)法演繹出來(lái),而是約定俗成就這么說(shuō),這時(shí)候基于實(shí)例的方法就會(huì)效果更好、效率更高。就像我們學(xué)英語(yǔ)時(shí),很多時(shí)候不需要去分析,一聽(tīng)到中文,相應(yīng)的英文就會(huì)脫口而出。

統(tǒng)計(jì)機(jī)器翻譯方法和神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯有一些相似的優(yōu)點(diǎn),同樣可以從非常龐大的語(yǔ)料庫(kù)中學(xué)習(xí)。因?yàn)樗趨?shù)和模型,魯棒性也更好。統(tǒng)計(jì)方法需要從詞,到短語(yǔ),到句子一層一層去做對(duì)齊、抽取、重排序等等;而神經(jīng)網(wǎng)絡(luò)翻譯模型則可以是端到端的系統(tǒng),用足夠的語(yǔ)料去訓(xùn)練,就可以得到不錯(cuò)的結(jié)果。從這個(gè)角度看,機(jī)器翻譯入門(mén)的門(mén)檻變低了,但想做到特別好仍然非常難。

這幾種方法,我們現(xiàn)在更多是在結(jié)果級(jí)進(jìn)行融合。

機(jī)器之心:我們現(xiàn)在的知識(shí)圖譜包含 3 種:實(shí)體圖譜、意圖圖譜、關(guān)注點(diǎn)圖譜,我們?yōu)槭裁匆鲞@些不同的知識(shí)圖譜,它們的情況和應(yīng)用是怎么樣的?

王海峰:做不同的圖譜,其實(shí)是應(yīng)用驅(qū)動(dòng)的;趯(shí)體的知識(shí)圖譜,就是通常意義上的知識(shí)圖譜。基本節(jié)點(diǎn)是實(shí)體,實(shí)體的屬性、實(shí)體和實(shí)體之間的關(guān)系,一個(gè)基本的實(shí)體知識(shí)圖譜就是這樣。

為什么做關(guān)注點(diǎn)圖譜?因?yàn)槲覀儸F(xiàn)在在做信息流,用戶關(guān)注的不一定是實(shí)體。它可以是一個(gè)實(shí)體或者概念,比如關(guān)注人工智能、機(jī)器翻譯;但也可以是一個(gè)事件,比如 AAAI 會(huì)議在舊金山召開(kāi),這不是實(shí)體或概念,而是一個(gè)事件,在實(shí)體圖譜里是沒(méi)有表示這樣的事件的節(jié)點(diǎn)的。這時(shí)就需要關(guān)注點(diǎn)圖譜。

意圖圖譜我們?cè)趦?nèi)部也稱(chēng)為需求圖譜,用戶對(duì)話的過(guò)程中提出了一個(gè)需求,下一個(gè)需求會(huì)是什么?比如「阿拉斯加」,用戶關(guān)注的是城市還是寵物?如果關(guān)注寵物那么接下來(lái)關(guān)注的是喂養(yǎng)、習(xí)性還是其它?這既不是一個(gè)實(shí)體,也不是一個(gè)事件關(guān)注點(diǎn)。所以每一種知識(shí)圖譜都是由不同的應(yīng)用驅(qū)動(dòng)的。

機(jī)器之心:包括 UC、今日頭條等等大家都在做信息流,百度在技術(shù)上有哪些不同之處?

王海峰:信息流從基本原理上講,一端是對(duì)用戶的理解,一端是對(duì)內(nèi)容的理解,然后對(duì)它們進(jìn)行匹配。從這個(gè)最基本點(diǎn)看,大家都在做類(lèi)似的事,但我們可以對(duì)內(nèi)容、對(duì)用戶理解得更好、更充分。這背后既有數(shù)據(jù)的優(yōu)勢(shì),也有技術(shù)的優(yōu)勢(shì)。

數(shù)據(jù)方面,通過(guò)信息流中的用戶行為可以分析用戶的一些興趣點(diǎn),但不限于此,比如用戶搜索的 query,明確表達(dá)了用戶的需求,而這些需求與用戶興趣愛(ài)好或者個(gè)體屬性等是相關(guān)的。再比如用戶關(guān)注了某個(gè)貼吧,這是一個(gè)非常強(qiáng)的信號(hào),意味著他對(duì)這個(gè)東西很感興趣。

所以我們做信息流不是孤立的,而是基于百度整體的各種產(chǎn)品,綜合起來(lái)會(huì)對(duì)用戶有更好的理解。

另一方面是技術(shù)。百度在人工智能的方方面面都有著非常深厚的技術(shù)積累,我們會(huì)綜合利用各種技術(shù)。剛才談到不少深度學(xué)習(xí)技術(shù)模型在百度產(chǎn)品中已得到很多應(yīng)用,而在真正的產(chǎn)品應(yīng)用中,其它各種機(jī)器學(xué)習(xí)方法,比如 SVM 、CRF、GBDT 等也都會(huì)用。技術(shù)的選型,是基于對(duì)應(yīng)用需求的充分理解及對(duì)數(shù)據(jù)的深入分析進(jìn)行的。

對(duì)內(nèi)容理解這部分,則更多依賴(lài)自然語(yǔ)言理解。在搜索中,雖然也用到大量的自然語(yǔ)言處理技術(shù),例如 query 的理解、改寫(xiě)等,但搜索系統(tǒng)的基礎(chǔ)是關(guān)鍵詞與文本的匹配,使用的理解技術(shù)相對(duì)簡(jiǎn)單。而對(duì)于信息流推薦系統(tǒng),則需要先對(duì)一篇完整的文章有深度的分析理解,比如打上合適且豐富的標(biāo)簽,需要的分析理解程度會(huì)更深。

機(jī)器之心:目前我們的信息流里也有機(jī)器生成的文章,沒(méi)有語(yǔ)病、讀起來(lái)非常通順,但會(huì)缺少所謂的「意圖」。對(duì)于自動(dòng)寫(xiě)作的意圖和創(chuàng)造這件事,您是怎么看的?

王海峰:目前有相對(duì)做得比較好的一面,也有局限性。

寫(xiě)稿子、甚至寫(xiě)詩(shī)時(shí),機(jī)器是在做什么?一方面是基于系統(tǒng)里的結(jié)構(gòu)化數(shù)據(jù),把數(shù)據(jù)組織成語(yǔ)句或者文章。比如我們做籃球解說(shuō),首先是拿到比賽賽況的實(shí)時(shí)數(shù)據(jù),基于這些數(shù)據(jù)模擬解說(shuō),學(xué)習(xí)解說(shuō)員的常用語(yǔ)言,也做一些簡(jiǎn)單的推理。再比如寫(xiě)詩(shī)也是首先明確詩(shī)的主題,比如「桃花」還是「月亮」?然后去規(guī)劃詩(shī)的內(nèi)容。其背后是基于一個(gè)大規(guī)模詩(shī)集訓(xùn)練得到的生成模型,基于確定好的主題和規(guī)劃的內(nèi)容,最后生成的很多詩(shī)歌的確看上去讓人覺(jué)得很驚艷。

機(jī)器能做到上面這些,也并不意味著機(jī)器具備了真正的深層次的理解。比如桃花開(kāi)了,每個(gè)人的感受不一樣,聯(lián)想的東西也不一樣。機(jī)器并沒(méi)有像人一樣真正去具備這些情感,更多的是模仿已有數(shù)據(jù)。

機(jī)器相對(duì)人來(lái)說(shuō)有很多更擅長(zhǎng)的能力,但也有一些遠(yuǎn)不如人的方面。例如,讓搜索匹配到合適的網(wǎng)頁(yè),但深層的基于背景知識(shí)進(jìn)行深層次的理解及聯(lián)想則比較困難。還有,比較個(gè)大小長(zhǎng)短的,對(duì)機(jī)器來(lái)說(shuō)易如反掌,但要真正去推理則很困難。再比如,機(jī)器可以模仿人來(lái)寫(xiě)詩(shī),但讓機(jī)器真正有感而發(fā)去搞藝術(shù)創(chuàng)作則很難?偨Y(jié)一下,機(jī)器很善于匹配、比較、模仿,但要具備像人一樣的理解、推理、創(chuàng)造能力,則還有很長(zhǎng)的路要走。

機(jī)器之心:對(duì)于這個(gè)問(wèn)題,常識(shí)和記憶是解決的方法嗎?

王海峰:知識(shí)很重要,所以我們現(xiàn)在很重視建設(shè)知識(shí)圖譜。知識(shí)圖譜的建設(shè)已經(jīng)是非常浩大的工作,而如何利用這些知識(shí)進(jìn)行理解、推理,是更復(fù)雜的事。

簡(jiǎn)單的推理相對(duì)容易,比如在搜索里詢(xún)問(wèn)名人的年齡,這不是匹配可以得到的,因?yàn)榇鸢负彤?dāng)下的時(shí)間有關(guān)。靜態(tài)的知識(shí)是這個(gè)名人的生日,有了生日和當(dāng)前時(shí)間,做個(gè)減法就能得到年齡。這是一個(gè)簡(jiǎn)單的推理過(guò)程。

再說(shuō)記憶,首先是記什么,然后是怎么用。機(jī)器可以記住網(wǎng)頁(yè),可以記用戶日志,也可以把經(jīng)過(guò)分析提取后結(jié)構(gòu)化的數(shù)據(jù)和知識(shí)記住。記住了這么多,接下來(lái)就是利用這些數(shù)據(jù)和知識(shí),去分析、去推理、去解決實(shí)際問(wèn)題。

機(jī)器之心:大家都在研究用無(wú)監(jiān)督學(xué)習(xí)或少量數(shù)據(jù)代替大量的標(biāo)注數(shù)據(jù),來(lái)達(dá)到同樣的訓(xùn)練效果,在 NLP 領(lǐng)域我們有相關(guān)的研究或者進(jìn)程嗎?

王海峰:具體還是要看問(wèn)題的目標(biāo)是什么。如果目標(biāo)是最終的結(jié)果,比如在機(jī)器翻譯中使用雙語(yǔ)語(yǔ)料達(dá)到源語(yǔ)言輸入、經(jīng)過(guò)翻譯之后目標(biāo)語(yǔ)言輸出的目的,就可以用端到端深度學(xué)習(xí),訓(xùn)練一個(gè)模型找到結(jié)果。怎么標(biāo)注數(shù)據(jù),甚至是不是真正有對(duì)詞、對(duì)短語(yǔ)的理解就不那么重要。如果目標(biāo)是做一個(gè) Parser,得到一棵符合人的認(rèn)知、人對(duì)語(yǔ)法理解的句法樹(shù),那就一定需要標(biāo)注數(shù)據(jù),在此基礎(chǔ)上加入某些特定的無(wú)標(biāo)注數(shù)據(jù)也可以進(jìn)一步提升效果。

關(guān)于少還是多的問(wèn)題,可以首先用較少的數(shù)據(jù)作為原始標(biāo)注數(shù)據(jù)訓(xùn)練一個(gè)模型,然后設(shè)法全自動(dòng)或半自動(dòng)的得到更多數(shù)據(jù)。

再舉一個(gè)更基本的例子,分詞。有些任務(wù)涉及到理解就需要分成符合語(yǔ)言學(xué)定義的詞,有些任務(wù)就不太關(guān)心片段是不是真正的詞。有時(shí)候做信息檢索是一些片段放在一起,分析 query、分析網(wǎng)頁(yè)時(shí)是同樣的片段,兩個(gè)片段只要能匹配上就可以了。這時(shí)候分詞的粒度是什么、分出的詞是不是符合語(yǔ)言學(xué)定義就不那么重要了。

機(jī)器之心:現(xiàn)在生成對(duì)抗網(wǎng)絡(luò)比較熱門(mén),在計(jì)算機(jī)視覺(jué)領(lǐng)域得到很多應(yīng)用。那么生成對(duì)抗網(wǎng)絡(luò)可以在 NLP 中應(yīng)用嗎?

王海峰:現(xiàn)在在 NLP 領(lǐng)域是有人在研究,但是還沒(méi)有特別顯著的突破。

不止是生成對(duì)抗網(wǎng)絡(luò),近年來(lái)深度學(xué)習(xí)在語(yǔ)音圖像等領(lǐng)域的應(yīng)用很成功,在 NLP 領(lǐng)域也出現(xiàn)大量研究成果,但是這些研究成果真正對(duì)應(yīng)用帶來(lái)質(zhì)的飛躍還不多。語(yǔ)言的復(fù)雜性在于,語(yǔ)言不僅僅是表面的字符串,語(yǔ)言的內(nèi)涵太豐富了,語(yǔ)言實(shí)際上是人對(duì)整個(gè)客觀及主觀世界的認(rèn)知、描述和表達(dá)。

機(jī)器之心:那 NLP 領(lǐng)域,接下來(lái)需要著重解決的是哪些問(wèn)題?

王海峰:根本問(wèn)題還是語(yǔ)言的分析理解,語(yǔ)言的生成,以及知識(shí)的掌握和運(yùn)用。

真正要讓先進(jìn)的 NLP 技術(shù)實(shí)現(xiàn)大規(guī)模應(yīng)用,我認(rèn)為更重要的是更好地利用大數(shù)據(jù),尤其是實(shí)際產(chǎn)品應(yīng)用中產(chǎn)生的數(shù)據(jù)。數(shù)據(jù)是動(dòng)態(tài)增長(zhǎng)的,用戶會(huì)不斷產(chǎn)生和反饋新數(shù)據(jù)。在這個(gè)動(dòng)態(tài)過(guò)程中,技術(shù)會(huì)越來(lái)越完善。積累到一定程度我相信會(huì)帶來(lái)質(zhì)變。

下篇:過(guò)去與現(xiàn)在

機(jī)器之心:您 1993 年讀大四的時(shí)候,為什么選擇智能翻譯作為本科畢業(yè)設(shè)計(jì)題目?

王海峰:這其中有我個(gè)人興趣的因素,當(dāng)時(shí)我覺(jué)得能讓計(jì)算機(jī)來(lái)做翻譯很神奇,特別有興趣。另一方面也有機(jī)緣的因素,學(xué)校把我分配到了李生老師的課題組做畢業(yè)設(shè)計(jì)。

(注:李生,哈爾濱工業(yè)大學(xué)教授,自然語(yǔ)言處理領(lǐng)域?qū)<,ACL 終身成就獎(jiǎng)得主)

機(jī)器之心:當(dāng)時(shí)所謂的「智能翻譯」是怎樣的狀況?

王海峰:那時(shí)統(tǒng)計(jì)機(jī)器翻譯方法剛剛出現(xiàn),Peter Brown 那篇最經(jīng)典的文章就是在 1993 年發(fā)表的(注 1)。1993 年初我做畢業(yè)設(shè)計(jì)時(shí),還不知道那篇文章,當(dāng)時(shí)最主流的還是基于規(guī)則的方法。我做畢業(yè)設(shè)計(jì)用的是基于規(guī)則的方法,這些規(guī)則都是人工寫(xiě)的。因?yàn)槲冶究剖怯?jì)算機(jī)學(xué)科,比較擅長(zhǎng)把它們用程序、代碼實(shí)現(xiàn)出來(lái),當(dāng)時(shí)還有外語(yǔ)系同學(xué)和我一起工作,專(zhuān)門(mén)負(fù)責(zé)寫(xiě)語(yǔ)言規(guī)則。

(注 1:Peter Brown et al. The Mathematics of Machine Translation: Parameter Estimation, In Computational Linguistics, 1993.)

機(jī)器之心:您碩士期間,僅用了一年就開(kāi)發(fā)出了當(dāng)時(shí) 863 測(cè)評(píng)第一的機(jī)器翻譯系統(tǒng),能和我們分享一下這段經(jīng)歷嗎?

王海峰:剛上碩士時(shí),我用的還是基于規(guī)則的方法。當(dāng)時(shí)我寫(xiě)了一個(gè)很復(fù)雜的規(guī)則系統(tǒng),也有小伙伴一起寫(xiě)語(yǔ)言規(guī)則、詞典。那時(shí)候和現(xiàn)在的互聯(lián)網(wǎng)方法相似,也是不斷快速的迭代。我們會(huì)不斷進(jìn)行大量測(cè)試,發(fā)現(xiàn)翻譯得不好的地方,就迅速分析解決。需要改代碼,我就馬上改代碼;需要調(diào)規(guī)則,外語(yǔ)系的小伙伴就立刻調(diào)規(guī)則。有時(shí)候午飯前發(fā)現(xiàn)了一個(gè)修改的地方,我就直接不去吃午飯。趁小伙伴們?nèi)ノ顼埖臅r(shí)間,我的代碼就改好了。等他們回來(lái),就可以繼續(xù)寫(xiě)規(guī)則了。

那時(shí)非常有干勁兒,幾乎每天都是實(shí)驗(yàn)樓一開(kāi)門(mén)我就進(jìn)實(shí)驗(yàn)室了,一直到晚上熄燈。當(dāng)然,現(xiàn)在我也仍然每天很早就到辦公室(笑)。

機(jī)器之心:您當(dāng)年的同學(xué)們可能已經(jīng)轉(zhuǎn)到其他的方向,您為什么 20 多年來(lái)一直在堅(jiān)持機(jī)器翻譯、NLP 的研究?

王海峰:可以說(shuō)很幸運(yùn),這些年一直有需要我的專(zhuān)業(yè)能力的工作。但也和個(gè)人性格有關(guān),我做事比較堅(jiān)持,選擇了做一件事,就要負(fù)責(zé)到底,持之以恒不斷地做得更好。我已經(jīng)堅(jiān)持了 20 多年,相信還會(huì)堅(jiān)持下去,因?yàn)樽匀徽Z(yǔ)言處理的路還很長(zhǎng)。

機(jī)器之心:從您開(kāi)始研究機(jī)器翻譯,到現(xiàn)在機(jī)器翻譯都有哪些比較重要的變化?

王海峰:之前說(shuō)過(guò)的四種方法,基于規(guī)則的、實(shí)例的、統(tǒng)計(jì)的、神經(jīng)網(wǎng)絡(luò)的,每種方法我都經(jīng)歷過(guò),每個(gè)方法都是一個(gè)很大的變化。

從根本上,我認(rèn)為還是我們所擁有的基礎(chǔ)在變。比如數(shù)據(jù)的基礎(chǔ),我記得剛來(lái)百度的時(shí)候,那時(shí)候特別開(kāi)心,因?yàn)樵瓉?lái)我們用統(tǒng)計(jì)方法找一些語(yǔ)料非常困難,幾十萬(wàn)句對(duì)語(yǔ)料就覺(jué)得很好了。然而在百度,通過(guò)互聯(lián)網(wǎng)挖掘到的語(yǔ)料要遠(yuǎn)遠(yuǎn)比這個(gè)數(shù)字大,所以百度翻譯效果迅速地就上去了。

不只是機(jī)器翻譯,人工智能這些年很多突破都跟數(shù)據(jù)有關(guān),語(yǔ)音也是,相比早些年,語(yǔ)音數(shù)據(jù)獲取速度在變快,成本則在降低。

機(jī)器之心:2010 年時(shí)您為什么加入百度?

王海峰:這個(gè)因素就比較多了。

首先根本的來(lái)說(shuō)是整體的發(fā)展趨勢(shì)。我畢業(yè)時(shí)是在外企,那時(shí)中國(guó)的 IT 公司還比較弱小,也不需要那么多特別深入的技術(shù)。隨著近些年的發(fā)展,像百度這樣的公司越來(lái)越強(qiáng)大,對(duì) NLP 等技術(shù)的需求越來(lái)越強(qiáng)。到了 2010 年前后,更多的人都開(kāi)始選擇中國(guó)自己的企業(yè)。

比較直接的契機(jī)是 2009 年 8 月,Robin 在百度世界大會(huì)上發(fā)布框計(jì)算。我對(duì)此很關(guān)注,在我看來(lái)如果要做框計(jì)算,背后需要大量的自然語(yǔ)言處理的技術(shù)。所以當(dāng)時(shí)就感覺(jué)到,百度要做框計(jì)算,那就該有我的用武之地了。

通過(guò)與百度人的接觸,發(fā)現(xiàn)除了業(yè)務(wù)本身以外,大家的價(jià)值觀、做事的方式等也特別匹配,所以聊過(guò)之后我很快就決定過(guò)來(lái)了。

機(jī)器之心:NLP 在百度是從您開(kāi)始建設(shè)的,這個(gè)過(guò)程是怎樣的?

王海峰:確切地說(shuō),自然語(yǔ)言處理部這個(gè)部門(mén)是我建設(shè)的,而百度自然語(yǔ)言處理技術(shù)的研發(fā)則在我加入百度之前就有了,當(dāng)時(shí)大搜索有一個(gè)小組在做這個(gè)。我來(lái)了以后,從十幾個(gè)人開(kāi)始,正式成立了自然語(yǔ)言處理部,致力于直接滿足搜索等業(yè)務(wù)需求的同時(shí),也規(guī)劃了更完整的布局及長(zhǎng)期發(fā)展路線圖。這個(gè)路線圖中,既包括技術(shù)發(fā)展路線,也包括團(tuán)隊(duì)成員的個(gè)人成長(zhǎng)路線。團(tuán)隊(duì)和業(yè)務(wù)都增長(zhǎng)得很快,第一年團(tuán)隊(duì)規(guī)模就翻了好幾倍,做的事情也多了很多。

機(jī)器之心:您現(xiàn)在主管包括搜索、手機(jī)百度、信息流等業(yè)務(wù),在這些業(yè)務(wù)之間您如何平衡自己的精力?在學(xué)者和管理者之間又該怎樣平衡?

王海峰:團(tuán)隊(duì)不是只有我一個(gè)人,很多人都很優(yōu)秀,大家會(huì)各自有分工。這些業(yè)務(wù)在一起也有非常多的協(xié)同。

對(duì)于我來(lái)說(shuō),更重要的是把整體的目標(biāo)和方向定好,并組建最適合達(dá)成這些目標(biāo)的團(tuán)隊(duì),然后就是帶領(lǐng)大家高效執(zhí)行及協(xié)同。因?yàn)槲冶救耸羌夹g(shù)背景,在全面帶業(yè)務(wù)的同時(shí),我的確也會(huì)在技術(shù)角度投入較多,會(huì)看技術(shù)發(fā)展方向和趨勢(shì),也會(huì)和大家一起去分析解決具體技術(shù)問(wèn)題。

對(duì)于一個(gè)大型團(tuán)隊(duì),大到你已經(jīng)不可能認(rèn)識(shí)每一個(gè)人,這時(shí)候更重要的是建立機(jī)制和形成文化。百度的大搜團(tuán)隊(duì),有著原汁原味的簡(jiǎn)單可依賴(lài)的工程師文化。

機(jī)器之心:您最近比較關(guān)注的技術(shù)點(diǎn)是哪些?

王海峰:更多是希望能把人工智能的能力在各種業(yè)務(wù)充分發(fā)揮出來(lái),比如搜索、信息流、手機(jī)百度等等。

如果人工智能再向前走,真正做到像人一樣思考,除了對(duì)語(yǔ)言的理解還要有對(duì)知識(shí)的掌握和對(duì)人的理解。這些都要有一定的應(yīng)用場(chǎng)景支撐,搜索就是可以支撐這件事的最大平臺(tái)。到目前為止,搜索引擎擁有最多的數(shù)據(jù)和知識(shí),它的背后是整個(gè)互聯(lián)網(wǎng),人類(lèi)的大量知識(shí)都蘊(yùn)含其中。搜索引擎有條件更快地積累需要的數(shù)據(jù)。

機(jī)器之心:在此前的采訪中您提到過(guò),「希望 NLP 的技術(shù)能更好地觸及每一個(gè)人」。那接下來(lái) NLP 觸及每個(gè)人的方式,應(yīng)用也好、呈現(xiàn)方式也好,具體會(huì)是怎樣的?

王海峰:事實(shí)上 NLP 已經(jīng)在觸達(dá)幾乎每一個(gè)人,因?yàn)樗迷诟鞣N產(chǎn)品里。

百度絕大多數(shù)產(chǎn)品背后都有 NLP,2013 年我們做平臺(tái)化時(shí),NLP 的平臺(tái)化也是其中一部分。當(dāng)時(shí) NLP 做了兩個(gè)平臺(tái),一個(gè)是 NLPC(NLP Cloud),另一個(gè)是機(jī)器學(xué)習(xí)平臺(tái) Malloc。這兩個(gè)平臺(tái)當(dāng)時(shí)的應(yīng)用量都排在前幾名,NLPC 平臺(tái)現(xiàn)在每天調(diào)用量已經(jīng)有上千億,F(xiàn)在不只是百度,很多公司都很重視 NLP,應(yīng)該說(shuō) NLP 已經(jīng)在觸達(dá)每一個(gè)人。

說(shuō)到具體產(chǎn)品,獲取信息是人的基本需求之一,在沒(méi)有計(jì)算機(jī)的時(shí)代,甚至人類(lèi)還沒(méi)有文字的時(shí)代,始終都需要信息。獲取信息最重要方式:一種是有明確需求,輸入 query 去找信息;另一種是用戶沒(méi)有主動(dòng)表達(dá)需求,但系統(tǒng)能個(gè)性化地猜到用戶所需并推薦給用戶。這就分別對(duì)應(yīng)著搜索和信息流,一個(gè)是人找信息,一個(gè)是信息找人。這兩種都應(yīng)用了大量的自然語(yǔ)言處理技術(shù)。

人們每天通過(guò)搜索或信息流獲取知識(shí)的同時(shí),機(jī)器也可以不斷沉淀數(shù)據(jù)和知識(shí),不斷變得更強(qiáng)。

面向未來(lái)看,自然語(yǔ)言對(duì)話會(huì)成為未來(lái)最自然的人機(jī)交互方式,這將會(huì)改變每個(gè)人使用手機(jī)及其它設(shè)備的方式,會(huì)更加直接地觸達(dá)每個(gè)人。

責(zé)任編輯:今日?qǐng)?bào)道網(wǎng)
版權(quán)聲明:
·凡注明來(lái)源為“今日?qǐng)?bào)道網(wǎng)”的所有文字、圖片、音視頻、美術(shù)設(shè)計(jì)和程序等作品,版權(quán)均屬今日?qǐng)?bào)道網(wǎng)所有。未經(jīng)本網(wǎng)書(shū)面授權(quán),不得進(jìn)行一切形式的下載、轉(zhuǎn)載或建立鏡像。
·凡注明為其它來(lái)源的信息,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
舊聞 / 身邊
不良信息舉報(bào)信箱 網(wǎng)上投稿
關(guān)于本站 | 廣告服務(wù) | 免責(zé)申明 | 招聘信息 | 聯(lián)系我們
今日?qǐng)?bào)道網(wǎng) 版權(quán)所有 Copyright(C)2005-2016 魯ICP備16043527號(hào)-1

魯公網(wǎng)安備 37010402000660號(hào)