知識(shí)庫與知識(shí)圖譜關(guān)系(知識(shí)庫 知識(shí)圖譜區(qū)別)
推薦文章
知識(shí)圖譜概念是什么?
知識(shí)圖譜的概念是:知識(shí)圖譜是自頂向下(top-down)的構(gòu)建方式。自頂向下指的是先為知識(shí)圖譜定義好本體與數(shù)據(jù)模式,再將實(shí)體加入到知識(shí)庫。
該構(gòu)建方式需要利用一些現(xiàn)有的結(jié)構(gòu)化知識(shí)庫作為其基礎(chǔ)知識(shí)庫,例如 Freebase 項(xiàng)目就是采用這種方式,它的絕大部分?jǐn)?shù)據(jù)是從維基百科中得到的。
然而目前,大多數(shù)知識(shí)圖譜都采用自底向上(bottom-up)的構(gòu)建方式。自底向上指的是從一些開放連接數(shù)據(jù)(也就是 “信息”)中提取出實(shí)體,選擇其中置信度較高的加入到知識(shí)庫,再構(gòu)建實(shí)體與實(shí)體之間的聯(lián)系。
知識(shí)圖譜的體系架構(gòu)是:
知識(shí)圖譜的架構(gòu)主要包括自身的邏輯結(jié)構(gòu)以及體系架構(gòu)。
知識(shí)圖譜在邏輯結(jié)構(gòu)上可分為模式層與數(shù)據(jù)層兩個(gè)層次,數(shù)據(jù)層主要是由一系列的事實(shí)組成,而知識(shí)將以事實(shí)為單位進(jìn)行存儲(chǔ)。
如果用(實(shí)體1,關(guān)系,實(shí)體2)、(實(shí)體、屬性,屬性值)這樣的三元組來表達(dá)事實(shí),可選擇圖數(shù)據(jù)庫作為存儲(chǔ)介質(zhì),例如開源的 Neo4j、Twitter 的 FlockDB、JanusGraph 等。
模式層構(gòu)建在數(shù)據(jù)層之上,主要是通過本體庫來規(guī)范數(shù)據(jù)層的一系列事實(shí)表達(dá)。本體是結(jié)構(gòu)化知識(shí)庫的概念模板,通過本體庫而形成的知識(shí)庫不僅層次結(jié)構(gòu)較強(qiáng),并且冗余程度較小。
大規(guī)模知識(shí)庫的構(gòu)建與應(yīng)用需要多種智能信息處理技術(shù)的支持。通過知識(shí)抽取技術(shù),可以從一些公開的半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)中提取出實(shí)體、關(guān)系、屬性等知識(shí)要素。通過知識(shí)融合,可消除實(shí)體、關(guān)系、屬性等指稱項(xiàng)與事實(shí)對(duì)象之間的歧義,形成高質(zhì)量的知識(shí)庫。
知識(shí)推理則是在已有的知識(shí)庫基礎(chǔ)上進(jìn)一步挖掘隱含的知識(shí),從而豐富、擴(kuò)展知識(shí)庫。分布式的知識(shí)表示形成的綜合向量對(duì)知識(shí)庫的構(gòu)建、推理、融合以及應(yīng)用均具有重要的意義。
知識(shí)圖譜,供應(yīng)鏈知識(shí)庫,知識(shí)自動(dòng)化是什么?
在知識(shí)表示和推理中,知識(shí)圖譜是使用圖結(jié)構(gòu)的數(shù)據(jù)模型或拓?fù)鋪碚蠑?shù)據(jù)的知識(shí)庫。 知識(shí)圖通常用于存儲(chǔ)具有自由形式語義的實(shí)體(對(duì)象、事件、情況或抽象概念)的相互關(guān)聯(lián)描述。
知識(shí)圖譜(一)
知識(shí)圖譜技術(shù)是人工智能的重要組成部分,其研究的是對(duì)人類知識(shí)的獲取、表示、推理、應(yīng)用等技術(shù)。知識(shí)圖譜于2012年5月17日被Google正式提出,其初衷是為了提高搜索引擎的能力,增強(qiáng)用戶的搜索質(zhì)量以及搜索體驗(yàn)。目前,隨著智能信息服務(wù)應(yīng)用的不斷發(fā)展,知識(shí)圖譜已被廣泛應(yīng)用于智能搜索、智能問答、個(gè)性化推薦等領(lǐng)域。知識(shí)圖譜代表的是人工智能認(rèn)知層面的問題,而深度學(xué)習(xí)很大程度上處理感知層面的問題,未來的技術(shù)大趨勢(shì)是深度學(xué)習(xí)與知識(shí)圖譜的結(jié)合,實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計(jì)與知識(shí)驅(qū)動(dòng)的結(jié)合,推動(dòng)人工智能的發(fā)展。
1.1 知識(shí)圖譜的定義
在維基百科的官方詞條中:知識(shí)圖譜是Google用于增強(qiáng)其搜索引擎功能的知識(shí)庫 。本質(zhì)上,知識(shí)圖譜是一種揭示實(shí)體之間關(guān)系的語義網(wǎng)絡(luò),可以對(duì)現(xiàn)實(shí)世界的事物及其相互關(guān)系進(jìn)行形式化地描述。現(xiàn)在的知識(shí)圖譜已被用來泛指各種大規(guī)模的知識(shí)庫。
三元組是知識(shí)圖譜的一種通用表示方式,即 G=(E,R,S),其中E={e1,e2,……,e|E|}是知識(shí)庫中的
實(shí)體集合,共包含|E|種不同實(shí)體;R={r,r,……,r } 12 |E|是知識(shí)庫中的關(guān)系集合,共包含 | R | 種不同關(guān)系; S ? E × R × E 代表知識(shí)庫中的三元組集合。三元組 的基本形式主要包括實(shí)體1、關(guān)系、實(shí)體2和概念、屬性、屬性值等,實(shí)體是知識(shí)圖譜中的最基本元素, 不同的實(shí)體間存在不同的關(guān)系。概念主要指集合、 類別、對(duì)象類型、事物的種類,例如人物、地理等; 屬性主要指對(duì)象可能具有的屬性、特征、特性、特 點(diǎn)以及參數(shù),例如國籍、生日等;屬性值主要指對(duì) 象指定屬性的值,例如中國、1988-09-08等
知識(shí)圖譜基礎(chǔ)(一)-什么是知識(shí)圖譜
筆者是一只已經(jīng)離職的AI產(chǎn)品經(jīng)理,主要擅長的方向是知識(shí)圖譜與自然語言處理,寫這些文章是為了總結(jié)歸納目前已經(jīng)搭建的知識(shí)體系,也在于科普。如有不對(duì),請(qǐng)指正。
知識(shí)圖譜在國內(nèi)屬于一個(gè)比較新興的概念,國內(nèi)目前paper都比較少,應(yīng)用方主要集中在BAT這類手握海量數(shù)據(jù)的企業(yè),這個(gè)概念是google在2012年提出的,當(dāng)時(shí)主要是為了將傳統(tǒng)的keyword-base搜索模型向基于語義的搜索升級(jí)。知識(shí)圖譜可以用來更好的查詢復(fù)雜的關(guān)聯(lián)信息,從語義層面理解用戶意圖,改進(jìn)搜索質(zhì)量。
個(gè)人認(rèn)為,知識(shí)圖譜最大的優(yōu)勢(shì)是在于對(duì)數(shù)據(jù)的描述能力非常強(qiáng)大,各種機(jī)器學(xué)習(xí)算法雖然在預(yù)測(cè)能力上很不錯(cuò),但是在描述能力上非常弱,知識(shí)圖譜剛好填補(bǔ)了這部分空缺。
知識(shí)圖譜的定義非常多,我這里提供一部分我自己的理解:
1.知識(shí)圖譜主要目標(biāo)是用來描述真實(shí)世界中存在的各種實(shí)體和概念,以及他們之間的強(qiáng)關(guān)系,我們用關(guān)系去描述兩個(gè)實(shí)體之間的關(guān)聯(lián),例如姚明和火箭隊(duì)之間的關(guān)系,他們的屬性,我們就用“屬性--值對(duì)“來刻畫它的內(nèi)在特性,比如說我們的人物,他有年齡、身高、體重屬性。
2.知識(shí)圖譜可以通過人為構(gòu)建與定義,去描述各種概念之間的弱關(guān)系,例如:“忘了訂單號(hào)”和“找回訂單號(hào)”之間的關(guān)系
知識(shí)庫目前可以分為兩種類型:Curated KBs 和 Extracted KBs
Curated KBs :以yago2和freebase為代表,他們從維基百科和WordNet等知識(shí)庫抽取了大量的實(shí)體及實(shí)體關(guān)系,可以把它理解城一種結(jié)構(gòu)化的維基百科。
Extracted KBs :主要是以O(shè)pen Information Extraction (Open IE),? Never-Ending Language Learning (NELL)為代表,他們直接從上億個(gè)網(wǎng)頁中抽取實(shí)體關(guān)系三元組。與freebase相比,這樣得到的實(shí)體知識(shí)更具有多樣性,而它們的實(shí)體關(guān)系和實(shí)體更多的則是自然語言的形式,如“姚明出生于上海?!?可以被表示為(“Yao Ming”, “was also born in”, “Shanghai”)。直接從網(wǎng)頁中抽取出來的知識(shí),也會(huì)存在一定的噪聲,其精確度低于Curated KBs。
a)“姚明出生于上?!?/p>
b)“姚明是籃球運(yùn)動(dòng)員”
c)“姚明是現(xiàn)任中國籃協(xié)主席”
以上就是一條條知識(shí),把大量的知識(shí)匯聚起來就成為了知識(shí)庫(Knowledge Base)。我們可以從wikipedia,百度百科等百科全書獲取到大量的知識(shí)。但是,這些百科全書的知識(shí)是由非結(jié)構(gòu)化的自然語言組建而成的,這樣的組織方式很適合人們閱讀但并不適合計(jì)算機(jī)處理。
為了方便計(jì)算機(jī)的處理和理解,我們需要更加形式化、簡(jiǎn)潔化的方式去表示知識(shí),那就是三元組(triple)。
“姚明出生于中國上?!?可以用三元組表示為(Yao Ming, PlaceOfBirth, Shanghai)[1]。這里我們可以簡(jiǎn)單的把三元組理解為(實(shí)體entity,實(shí)體關(guān)系relation,實(shí)體entity)。如果我們把實(shí)體看作是結(jié)點(diǎn),把實(shí)體關(guān)系(包括屬性,類別等等)看作是一條邊,那么包含了大量三元組的知識(shí)庫就成為了一個(gè)龐大的知識(shí)圖。
有些時(shí)候會(huì)將實(shí)體稱為topic,如Justin Bieber。實(shí)體關(guān)系也可分為兩種,一種是屬性property,一種是關(guān)系relation。如下圖所示,屬性和關(guān)系的最大區(qū)別在于,屬性所在的三元組對(duì)應(yīng)的兩個(gè)實(shí)體,常常是一個(gè)topic和一個(gè)字符串,如屬性Type/Gender,對(duì)應(yīng)的三元組(Justin Bieber, Type, Person),而關(guān)系所在的三元組所對(duì)應(yīng)的兩個(gè)實(shí)體,常常是兩個(gè)topic。如關(guān)系PlaceOfBrith,對(duì)應(yīng)的三元組(Justin Bieber, PlaceOfBrith, London)。
(圖中藍(lán)色方塊表示topic,橙色橢圓包括屬性值,它們都屬于知識(shí)庫的實(shí)體;藍(lán)色直線表示關(guān)系,橙色直線表示屬性,它們都統(tǒng)稱為知識(shí)庫的實(shí)體關(guān)系,都可以用三元組刻畫實(shí)體和實(shí)體關(guān)系)
這里只是簡(jiǎn)單介紹一下數(shù)據(jù)結(jié)構(gòu),知識(shí)表達(dá)這一塊會(huì)在《知識(shí)圖譜基礎(chǔ)(二)-知識(shí)圖譜的知識(shí)表達(dá)系統(tǒng)》中詳細(xì)講解。
讀者只要記住,freebase的基礎(chǔ)知識(shí)表達(dá)形式:(實(shí)體)-[關(guān)系]-(實(shí)體),(實(shí)體)-[關(guān)系]-(值)即可,參考圖3,姚明和葉莉的關(guān)系。
通過知識(shí)圖譜,不僅可以將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式,而且提供了一種更好的組織、管理和利用海量信息的方式。下圖是筆者整理的知識(shí)圖譜有關(guān)的應(yīng)用,接下來的一些文章筆者會(huì)對(duì)下面的應(yīng)用進(jìn)行剖析。
從圖4上看,知識(shí)圖譜的應(yīng)用主要集中在搜索與推薦領(lǐng)域,robot(客服機(jī)器人,私人助理)是問答系統(tǒng),本質(zhì)上也是搜索與推薦的延伸??赡苁且?yàn)橹R(shí)圖譜這項(xiàng)技術(shù)(特指freebase)誕生之初就是為了解決搜索問題的。知識(shí)存儲(chǔ)這一塊可能是企查查和啟信寶這些企業(yè)發(fā)現(xiàn)使用圖結(jié)構(gòu)的數(shù)據(jù)比較好清洗加工。
在語義搜索這一塊,知識(shí)圖譜的搜索不同于常規(guī)的搜索,常規(guī)的搜索是根據(jù)keyword找到對(duì)應(yīng)的網(wǎng)頁集合,然后通過page rank等算法去給網(wǎng)頁集合內(nèi)的網(wǎng)頁進(jìn)行排名,然后展示給用戶;基于知識(shí)圖譜的搜索是在已有的圖譜知識(shí)庫中遍歷知識(shí),然后將查詢到的知識(shí)返回給用戶,通常如果路徑正確,查詢出來的知識(shí)只有1個(gè)或幾個(gè),相當(dāng)精準(zhǔn)。
問答系統(tǒng)這一塊,系統(tǒng)同樣會(huì)首先在知識(shí)圖譜的幫助下對(duì)用戶使用自然語言提出的問題進(jìn)行語義分析和語法分析,進(jìn)而將其轉(zhuǎn)化成結(jié)構(gòu)化形式的查詢語句,然后在知識(shí)圖譜中查詢答案。
圖立方和知識(shí)圖譜的區(qū)別和聯(lián)系與區(qū)別
圖網(wǎng)絡(luò),即Natural Graph,是基于世界各實(shí)體之間的自然關(guān)系表示而得到的圖,他們的節(jié)點(diǎn)一般是某個(gè)特定網(wǎng)絡(luò)中的實(shí)體(人、物理機(jī)、分子)。例如:社交網(wǎng)絡(luò)、通信網(wǎng)絡(luò)、蛋白質(zhì)網(wǎng)絡(luò)。
知識(shí)圖譜,即Knowledge Graph,它一般是由知識(shí)或信息組織而成的圖,它是專門被用來構(gòu)建知識(shí)庫并支持決策的。因此知識(shí)圖譜中的節(jié)點(diǎn)可以直接是抽象名詞,或者是世界知識(shí)或語言知識(shí)。
二、異同點(diǎn)
① 二者都是由節(jié)點(diǎn)和邊組成的圖。但是圖網(wǎng)絡(luò)中的實(shí)體都是客觀存在的,是對(duì)真實(shí)世界關(guān)系的一種呈現(xiàn);知識(shí)圖譜主要是把客觀世界潛在的知識(shí)結(jié)構(gòu)呈現(xiàn)出來,實(shí)體可以是抽象的名詞。
② 二者都是異質(zhì)信息網(wǎng)絡(luò),但是任務(wù)不同。KG是一種知識(shí)量豐富的異質(zhì)信息網(wǎng)絡(luò)(Heterogeneous Information Network, HIN),它更關(guān)注建模實(shí)現(xiàn)對(duì)關(guān)系、節(jié)點(diǎn)的表示,模型學(xué)習(xí)的重點(diǎn)是節(jié)點(diǎn)之間的關(guān)系,以更好地存儲(chǔ)、抽取、推理知識(shí)。NG建模任務(wù)更關(guān)注節(jié)點(diǎn)的表示,模型學(xué)習(xí)的重點(diǎn)是圖網(wǎng)絡(luò)的結(jié)構(gòu),以達(dá)到對(duì)節(jié)點(diǎn)分類、聚類、鏈接預(yù)測(cè)的目的。
三、圖網(wǎng)絡(luò)表示學(xué)習(xí)(Graph Embedding) VS 知識(shí)圖譜表示學(xué)習(xí)(Knowledge Graph Embedding)
也可以稱圖嵌入學(xué)習(xí),分為圖網(wǎng)絡(luò)嵌入graph embedding以及知識(shí)圖譜嵌入knowledge graph embedding。從起源看,這兩個(gè)任務(wù)中最火的方法DeepWalk和TransE,都是受到了word2vec啟發(fā)提出來的,只是前者是受到了word2vec處理文本序列、由中心詞預(yù)測(cè)上下文的啟發(fā);而后者受到了word2vec能自動(dòng)發(fā)現(xiàn)implicit relation (也就是大家常說的 king - man = queen - woman)的啟發(fā)。
兩者的相同之處是目標(biāo)一致,都旨在對(duì)研究對(duì)象建立分布式表示。不同之處在于,知識(shí)表示重在如何處理實(shí)體間的顯式關(guān)系上;而網(wǎng)絡(luò)表示重在如何充分考慮節(jié)點(diǎn)在網(wǎng)絡(luò)中的復(fù)雜結(jié)構(gòu)信息(如community等)。
1)學(xué)習(xí)目標(biāo)不同
網(wǎng)絡(luò)表示比較注重在嵌入式空間中保留網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息,知識(shí)圖譜的表示在保留結(jié)構(gòu)信息的基礎(chǔ)上,也同樣注重于關(guān)系的重要性,以及它們的頭尾關(guān)系。知識(shí)圖譜表示學(xué)習(xí)更偏向關(guān)系建模,在保留結(jié)構(gòu)信息的基礎(chǔ)上強(qiáng)調(diào)關(guān)系和頭尾關(guān)系,強(qiáng)調(diào)的是節(jié)點(diǎn)和關(guān)系的表示,節(jié)點(diǎn)和關(guān)系同樣重要,因此,知識(shí)圖譜表示學(xué)習(xí)中往往指明了關(guān)系,比如水果和獼猴桃之間是所屬關(guān)系。
2)學(xué)習(xí)方法不同
網(wǎng)絡(luò)表示學(xué)習(xí)通常包括三種:基于矩陣分解的模型,比如SVD;基于隨機(jī)游走的模型,比如DeepWalk;基于深度神經(jīng)網(wǎng)絡(luò)的模型,包括CNN、RNN等;此外還有同質(zhì)網(wǎng)絡(luò)、異質(zhì)網(wǎng)絡(luò)的區(qū)分,還有屬性網(wǎng)絡(luò)、融合伴隨信息的網(wǎng)絡(luò)等。
與此不同的是,典型的知識(shí)圖譜表示算法包括trans系列的算法,如TransE、TransR、TransH等,通過這個(gè)三元組去刻畫實(shí)體和關(guān)系的向量表示。