當(dāng)知識圖譜“遇見”深度學(xué)習(xí)
大數(shù)據(jù)時代的到來,為人工智能的飛速發(fā)展帶來前所未有的數(shù)據(jù)紅利。在大數(shù)據(jù)的“喂養(yǎng)”下,人工智能技術(shù)獲得了前所未有的長足進(jìn)步。其進(jìn)展突出體現(xiàn)在以知識圖譜為代表的知識工程以及深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)等相關(guān)領(lǐng)域。隨著深度學(xué)習(xí)對于大數(shù)據(jù)的紅利消耗殆盡,深度學(xué)習(xí)模型效果的天花板日益迫近。另一方面大量知識圖譜不斷涌現(xiàn),這些蘊(yùn)含人類大量先驗(yàn)知識的寶庫卻尚未被深度學(xué)習(xí)有效利用。融合知識圖譜與深度學(xué)習(xí),已然成為進(jìn)一步提升深度學(xué)習(xí)模型效果的重要思路之一。以知識圖譜為代表的符號主義、以深度學(xué)習(xí)為代表的聯(lián)結(jié)主義,日益脫離原先各自獨(dú)立發(fā)展的軌道,走上協(xié)同并進(jìn)的新道路。
知識圖譜與深度學(xué)習(xí)融合的歷史背景
大數(shù)據(jù)為機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)帶來前所未有的數(shù)據(jù)紅利。得益于大規(guī)模標(biāo)注數(shù)據(jù),深度神經(jīng)網(wǎng)絡(luò)能夠習(xí)得有效的層次化特征表示,從而在圖像識別等領(lǐng)域取得優(yōu)異效果。但是隨著數(shù)據(jù)紅利消失殆盡,深度學(xué)習(xí)也日益體現(xiàn)出其局限性,尤其體現(xiàn)在依賴大規(guī)模標(biāo)注數(shù)據(jù)和難以有效利用先驗(yàn)知識等方面。這些局限性阻礙了深度學(xué)習(xí)的進(jìn)一步發(fā)展。另一方面在深度學(xué)習(xí)的大量實(shí)踐中,人們越來越多地發(fā)現(xiàn)深度學(xué)習(xí)模型的結(jié)果往往與人的先驗(yàn)知識或者專家知識相沖突。如何讓深度學(xué)習(xí)擺脫對于大規(guī)模樣本的依賴?如何讓深度學(xué)習(xí)模型有效利用大量存在的先驗(yàn)知識?如何讓深度學(xué)習(xí)模型的結(jié)果與先驗(yàn)知識一致已成為了當(dāng)前深度學(xué)習(xí)領(lǐng)域的重要問題。
當(dāng)前,人類社會業(yè)已積累大量知識。特別是,近幾年在知識圖譜技術(shù)的推動下,對于機(jī)器友好的各類在線知識圖譜大量涌現(xiàn)。知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò),表達(dá)了各類實(shí)體、概念及其之間的語義關(guān)系。相對于傳統(tǒng)知識表示形式(諸如本體、傳統(tǒng)語義網(wǎng)絡(luò)),知識圖譜具有實(shí)體/概念覆蓋率高、語義關(guān)系多樣、結(jié)構(gòu)友好(通常表示為RDF格式)以及質(zhì)量較高等優(yōu)勢,從而使得知識圖譜日益成為大數(shù)據(jù)時代和人工智能時代最為主要的知識表示方式。能否利用蘊(yùn)含于知識圖譜中的知識指導(dǎo)深度神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)從而提升模型的性能,成為了深度學(xué)習(xí)模型研究的重要問題之一。
現(xiàn)階段將深度學(xué)習(xí)技術(shù)應(yīng)用于知識圖譜的方法較為直接。大量的深度學(xué)習(xí)模型可以有效完成端到端的實(shí)體識別、關(guān)系抽取和關(guān)系補(bǔ)全等任務(wù),進(jìn)而可以用來構(gòu)建或豐富知識圖譜。本文主要探討知識圖譜在深度學(xué)習(xí)模型中的應(yīng)用。從當(dāng)前的文獻(xiàn)來看,主要有兩種方式。一是將知識圖譜中的語義信息輸入到深度學(xué)習(xí)模型中;將離散化知識圖譜表達(dá)為連續(xù)化的向量,從而使得知識圖譜的先驗(yàn)知識能夠成為深度學(xué)習(xí)的輸入。二是利用知識作為優(yōu)化目標(biāo)的約束,指導(dǎo)深度學(xué)習(xí)模型的學(xué)習(xí);通常是將知識圖譜中知識表達(dá)為優(yōu)化目標(biāo)的后驗(yàn)正則項(xiàng)。前者的研究工作已有不少文獻(xiàn),并成為當(dāng)前研究熱點(diǎn)。知識圖譜向量表示作為重要的特征在問答以及推薦等實(shí)際任務(wù)中得到有效應(yīng)用。后者的研究才剛剛起步,本文將重點(diǎn)介紹以一階謂詞邏輯作為約束的深度學(xué)習(xí)模型。
知識圖譜作為深度學(xué)習(xí)的輸入
知識圖譜是人工智能符號主義近期進(jìn)展的典型代表。知識圖譜中的實(shí)體、概念以及關(guān)系均采用了離散的、顯式的符號化表示。而這些離散的符號化表示難以直接應(yīng)用于基于連續(xù)數(shù)值表示的神經(jīng)網(wǎng)絡(luò)。為了讓神經(jīng)網(wǎng)絡(luò)有效利用知識圖譜中的符號化知識,研究人員提出了大量的知識圖譜的表示學(xué)習(xí)方法。知識圖譜的表示學(xué)習(xí)旨在習(xí)得知識圖譜的組成元素(節(jié)點(diǎn)與邊)的實(shí)值向量化表示。這些連續(xù)的向量化表示可以作為神經(jīng)網(wǎng)絡(luò)的輸入,從而使得神經(jīng)網(wǎng)絡(luò)模型能夠充分利用知識圖譜中大量存在的先驗(yàn)知識。這一趨勢催生了對于知識圖譜的表示學(xué)習(xí)的大量研究。本章首先簡要回顧知識圖譜的表示學(xué)習(xí),再進(jìn)一步介紹這些向量表示如何應(yīng)用到基于深度學(xué)習(xí)模型的各類實(shí)際任務(wù)中,特別是問答與推薦等實(shí)際應(yīng)用。
1.知識圖譜的表示學(xué)習(xí)
知識圖譜的表示學(xué)習(xí)旨在學(xué)習(xí)實(shí)體和關(guān)系的向量化表示,其關(guān)鍵是合理定義知識圖譜中關(guān)于事實(shí)(三元組< h,r,t >)的損失函數(shù) ƒr(h,t),其中和是三元組的兩個實(shí)體h和t的向量化表示。通常情況下,當(dāng)事實(shí) < h,r,t > 成立時,期望最小化 ƒr(h,t)。考慮整個知識圖譜的事實(shí),則可通過最小化
圖片描述
來學(xué)習(xí)實(shí)體以及關(guān)系的向量化表示,其中 O 表示知識圖譜中所有事實(shí)的集合。不同的表示學(xué)習(xí)可以使用不同的原則和方法定義相應(yīng)的損失函數(shù)。這里以基于距離和翻譯的模型介紹知識圖譜表示的基本思路[1]。
基于距離的模型。其代表性工作是 SE 模型[2]?;舅枷胧钱?dāng)兩個實(shí)體屬于同一個三元組 < h,r,t > 時,它們的向量表示在投影后的空間中也應(yīng)該彼此靠近。因此,損失函數(shù)定義為向量投影后的距離
圖片描述
其中矩陣 Wr,1 和 Wr,2 用于三元組中頭實(shí)體 h 和尾實(shí)體 t 的投影操作。但由于 SE 引入了兩個單獨(dú)的投影矩陣,導(dǎo)致很難捕獲實(shí)體和關(guān)系之間的語義相關(guān)性。Socher 等人針對這一問題采用三階張量替代傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的線性變換層來刻畫評分函數(shù)。Bordes 等人提出能量匹配模型,通過引入多個矩陣的 Hadamard 乘積來捕獲實(shí)體向量和關(guān)系向量的交互關(guān)系。
基于翻譯的表示學(xué)習(xí)。其代表性工作 TransE 模型通過向量空間的向量翻譯來刻畫實(shí)體與關(guān)系之間的相關(guān)性[3]。該模型假定,若 < h,r,t > 成立則尾部實(shí)體 t 的嵌入表示應(yīng)該接近頭部實(shí)體 h 加上關(guān)系向量 r 的嵌入表示,即 h+r≈t。因此,TransE 采用
圖片描述
作為評分函數(shù)。當(dāng)三元組成立時,得分較低,反之得分較高。TransE 在處理簡單的 1-1 關(guān)系(即關(guān)系兩端連接的實(shí)體數(shù)比率為 1:1)時是非常有效的,但在處理 N-1、1-N 以及 N-N 的復(fù)雜關(guān)系時性能則顯著降低。針對這些復(fù)雜關(guān)系,Wang 提出了 TransH 模型通過將實(shí)體投影到關(guān)系所在超平面,從而習(xí)得實(shí)體在不同關(guān)系下的不同表示。Lin 提出了 TransR 模型通過投影矩陣將實(shí)體投影到關(guān)系子空間,從而習(xí)得不同關(guān)系下的不同實(shí)體表示。
除了上述兩類典型知識圖譜表示學(xué)習(xí)模型之外,還有大量的其他表示學(xué)習(xí)模型。比如,Sutskever 等人使用張量因式分解和貝葉斯聚類來學(xué)習(xí)關(guān)系結(jié)構(gòu)。Ranzato 等人引入了一個三路的限制玻爾茲曼機(jī)來學(xué)習(xí)知識圖譜的向量化表示,并通過一個張量加以參數(shù)化。
當(dāng)前主流的知識圖譜表示學(xué)習(xí)方法仍存在各種各樣的問題,比如不能較好刻畫實(shí)體與關(guān)系之間的語義相關(guān)性、無法較好處理復(fù)雜關(guān)系的表示學(xué)習(xí)、模型由于引入大量參數(shù)導(dǎo)致過于復(fù)雜,以及計(jì)算效率較低難以擴(kuò)展到大規(guī)模知識圖譜上等等。為了更好地為機(jī)器學(xué)習(xí)或深度學(xué)習(xí)提供先驗(yàn)知識,知識圖譜的表示學(xué)習(xí)仍是一項(xiàng)任重道遠(yuǎn)的研究課題。
知識圖譜向量化表示的應(yīng)用
應(yīng)用 1 問答系統(tǒng)。自然語言問答是人機(jī)交互的重要形式。深度學(xué)習(xí)使得基于問答語料的生成式問答成為可能。然而目前大多數(shù)深度問答模型仍然難以利用大量的知識實(shí)現(xiàn)準(zhǔn)確回答。Yin 等人針對簡單事實(shí)類問題,提出了一種基于 encoder-decoder 框架,能夠充分利用知識圖譜中知識的深度學(xué)習(xí)問答模型[4]。在深度神經(jīng)網(wǎng)絡(luò)中,一個問題的語義往往被表示為一個向量。具有相似向量的問題被認(rèn)為是具有相似語義。這是聯(lián)結(jié)主義的典型方式。另一方面,知識圖譜的知識表示是離散的,即知識與知識之間并沒有一個漸變的關(guān)系。這是符號主義的典型方式。通過將知識圖譜向量化,可以將問題與三元組進(jìn)行匹配(也即計(jì)算其向量相似度),從而為某個特定問題找到來自知識庫的最佳三元組匹配。匹配過程如圖 1 所示。對于問題 Q:“How tallis Yao Ming?”,首先將問題中的單詞表示為向量數(shù)組 HQ。進(jìn)一步尋找能與之匹配的知識圖譜中的候選三元組。最后為這些候選三元組,分別計(jì)算問題與不同屬性的語義相似度。
中國· 上海

關(guān)鍵詞
辦公室:上海市浦東新區(qū)郭守敬路351號
CopyRight?2009-2019 上海谷谷網(wǎng)絡(luò)科技有限公司 All Rights Reserved. 滬ICP備11022482號-8
- top
- 在線咨詢
-
添加微信咨詢