靠這個“譜”讓機器會思考

2018-01-23 14:47:00|

來源：科技日報

如果說波士頓動力的翻跟頭是在幫機器人鍛煉筋骨，那么知識圖譜的繪制則是在試圖創(chuàng)造一個能運轉(zhuǎn)的機器人大腦。目前，還不能做到讓機器理解人

如果說波士頓動力的翻跟頭是在幫機器人鍛煉筋骨，那么知識圖譜的“繪制”則是在試圖“創(chuàng)造”一個能運轉(zhuǎn)的機器人大腦。

“目前，還不能做到讓機器理解人的語言。”中國科學院軟件所研究員、中國中文信息學會副理事長孫樂說。無論是能逗你一樂的Siri，還是會做詩的小冰，亦或是會“懸絲診脈”的沃森，它們并不真正明白自己在做什么、為什么這么做。

讓機器學會思考，要靠“譜”。這個“譜”被稱為知識圖譜，意在將人類世界中產(chǎn)生的知識，構(gòu)建在機器世界中，進而形成能夠支撐類腦推理的知識庫。

為了在國內(nèi)構(gòu)建一個關(guān)于知識圖譜的全新產(chǎn)學合作模式，知識圖譜研討會日前召開，來自高校院所的研究人員與產(chǎn)業(yè)團隊共商打造全球化的知識圖譜體系，建立世界領(lǐng)先的人工智能基礎(chǔ)設(shè)施的開拓性工作。

技術(shù)原理：把文本轉(zhuǎn)化成知識

“對于‘姚明是上海人’這樣一個句子,存儲在機器里只是一串字符。而這串字符在人腦中卻是‘活’起來的。”孫樂舉例說。比如說到“姚明”，人會想到他是前美職籃球員、“小巨人”、中鋒等，而“上海”會讓人想到東方明珠、繁華都市等含義。但對于機器來說，僅僅說“姚明是上海人”，它不能和人類一樣明白其背后的含義。機器理解文本，首先就需要了解背景知識。

那如何將文本轉(zhuǎn)化成知識呢?

“借助信息抽取技術(shù)，人們可以從文本中抽取知識，這也正是知識圖譜構(gòu)建的核心技術(shù)。”孫樂說，目前比較流行的是使用“三元組”的存儲方式。三元組由兩個點、一條邊構(gòu)成，點代表實體或者概念，邊代表實體與概念之間的各種語義關(guān)系。一個點可以延伸出多個邊，構(gòu)成很多關(guān)系。例如姚明這個點，可以和上海構(gòu)成出生地的關(guān)系，可以和美職籃構(gòu)成效力關(guān)系，還可以和2.26米構(gòu)成身高關(guān)系。

“如果這些關(guān)系足夠完善，機器就具備了理解語言的基礎(chǔ)。”孫樂說。那么如何讓機器擁有這樣的“理解力”呢?

“上世紀六十年代，人工智能先驅(qū)麻省理工學院的馬文·明斯基在一個問答系統(tǒng)項目SIR中，使用了實體間語義關(guān)系來表示問句和答案的語義，劍橋語言研究部門的瑪格麗特·瑪斯特曼在1961年使用Semantic Network來建模世界知識，這些都可被看作是知識圖譜的前身。”孫樂說。

隨后的Wordnet、中國的知網(wǎng)(Hownet)也進行了人工構(gòu)建知識庫的工作。

“這里包括主觀知識，比如社交網(wǎng)站上人們對某個產(chǎn)品的態(tài)度是喜歡還是不喜歡;場景知識，比如在某個特定場景中應(yīng)該怎么做;語言知識，例如各種語言語法;常識知識，例如水、貓、狗，教人認的時候可以直接指著教，卻很難讓計算機明白。”孫樂解釋，從這些初步的分類中就能感受到知識的海量，更別說那些高層次的科學知識了。

構(gòu)建方式：從手工勞動到自動抽取

“2010年之后，維基百科開始嘗試‘眾包’的方式，每個人都能夠貢獻知識。”孫樂說，這讓知識圖譜的積累速度大大增加，后續(xù)百度百科、互動百科等也采取了類似的知識搜集方式，發(fā)動公眾使得“積沙”這個環(huán)節(jié)的時間大大縮短、效率大大增加，無數(shù)的知識從四面八方趕來，迅速集聚，只待“成塔”。

面對如此大量的數(shù)據(jù)，或者說“文本”，知識圖譜的構(gòu)建工作自然不能再手工勞動，“讓機器自動抽取結(jié)構(gòu)化的知識，自動生成‘三元組’。”孫樂說，學術(shù)界和產(chǎn)業(yè)界開發(fā)出了不同的構(gòu)架、體系，能夠自動或半自動地從文本中生成機器可識別的知識。

孫樂的演示課件中，有一張生動的圖畫，一大摞文件紙吃進去，電腦馬上轉(zhuǎn)化為“知識”，但事實遠沒有那么簡單。自動抽取結(jié)構(gòu)化數(shù)據(jù)在不同行業(yè)還沒有統(tǒng)一的方案。在“百度知識圖譜”的介紹中這樣寫道：對提交至知識圖譜的數(shù)據(jù)轉(zhuǎn)換為遵循Schema的實體對象，并進行統(tǒng)一的數(shù)據(jù)清洗、對齊、融合、關(guān)聯(lián)等知識計算，完成圖譜的構(gòu)建。“但是大家發(fā)現(xiàn)，基于維基百科，結(jié)構(gòu)化半結(jié)構(gòu)化數(shù)據(jù)挖掘出來的知識圖譜還是不夠，因此目前所有的工作都集中在研究如何從海量文本中抽取知識。”孫樂說，例如谷歌的Knowledge Vault，以及美國國家標準與技術(shù)研究院主辦的TAC-KBP評測，也都在推進從文本中抽取知識的技術(shù)。

在權(quán)威的“知識庫自動構(gòu)建國際評測”中，從文本中抽取知識被分解為實體發(fā)現(xiàn)、關(guān)系抽取、事件抽取、情感抽取等4部分。在美國NIST組織的TAC-KBP中文評測中，中科院軟件所—搜狗聯(lián)合團隊獲得綜合性能指標第3名，事件抽取單項指標第1名的好成績。

“我國在這一領(lǐng)域可以和國際水平比肩。”孫樂介紹，中科院軟件所提出了基于Co-Bootstrapping的實體獲取算法，基于多源知識監(jiān)督的關(guān)系抽取算法等，大幅度降低了文本知識抽取工具構(gòu)建模型的成本，并提升了性能。

終極目標：將人類知識全部結(jié)構(gòu)化

《圣經(jīng)·舊約》記載，人類聯(lián)合起來興建希望能通往天堂的高塔——“巴別塔”，而今，創(chuàng)造AI的人類正在建造這樣一座“巴別塔”，幫助人工智能企及人類智能。

自動的做法讓知識量開始形成規(guī)模，達到了能夠支持實際應(yīng)用的量級。“但是這種轉(zhuǎn)化，還遠遠未達到人類的知識水平。”孫樂說，何況人類的知識一直在增加、更新，一直在動態(tài)變化，理解也應(yīng)該與時俱進地體現(xiàn)在機器“腦”中。

“因此知識圖譜不會是一個靜止的狀態(tài)，而是要形成一個循環(huán)，這也是美國卡耐基梅隆大學等地方提出來的Never Ending Learning(學無止境)的概念。”孫樂說。

資料顯示，目前谷歌知識圖譜中記載了超過35億事實;Freebase中記載了4000多萬實體，上萬個屬性關(guān)系，24億多個事實;百度百科記錄詞條數(shù)1000萬個，百度搜索中應(yīng)用了聯(lián)想搜索功能。

“在醫(yī)學領(lǐng)域、人物關(guān)系等特定領(lǐng)域，也有專門的知識圖譜。”孫樂介紹，Kinships描述人物之間的親屬關(guān)系，104個實體，26種關(guān)系，10800個事實;UMLS在醫(yī)學領(lǐng)域描述了醫(yī)學概念之間的聯(lián)系，135個實體，49種關(guān)系，6800個事實。

“這是一幅充滿美好前景的宏偉藍圖。”孫樂說，知識圖譜的最終目標是將人類的知識全部形式化、結(jié)構(gòu)化，并用于構(gòu)建基于知識的自然語言理解系統(tǒng)。

盡管令業(yè)內(nèi)滿意的“真正理解語言的系統(tǒng)”還遠未出現(xiàn)，目前的“巴別塔”還只是在基礎(chǔ)層面，但相關(guān)的應(yīng)用已經(jīng)顯示出廣闊的前景。例如，在百度百科輸入“冷凍電鏡”，右豎條的關(guān)聯(lián)將出現(xiàn)“施一公”，輸入“撒幣”，將直接在搜索項中出現(xiàn)“王思聰”等相關(guān)項。其中蘊含著機器對人類意圖的理解。

“知識圖譜的應(yīng)用涉及到眾多行業(yè)，尤其是知識密集型行業(yè)，目前關(guān)注度比較高的領(lǐng)域：醫(yī)療、金融、法律、電商、智能家電等。”孫樂介紹，基于信息、知識和智能形成的閉環(huán)，從信息中獲取知識，基于知識開發(fā)智能應(yīng)用，智能應(yīng)用產(chǎn)生新的信息，從新的信息中再獲取新的知識，不斷迭代，就可以不斷產(chǎn)生更加豐富的知識圖譜，更加智能的應(yīng)用。

關(guān)鍵詞：機器

責任編輯：hn1007