知識庫與知識圖譜關(guān)系(知識庫 知識圖譜區(qū)別)
推薦文章
知識圖譜概念是什么?
知識圖譜的概念是:知識圖譜是自頂向下(top-down)的構(gòu)建方式。自頂向下指的是先為知識圖譜定義好本體與數(shù)據(jù)模式,再將實體加入到知識庫。
該構(gòu)建方式需要利用一些現(xiàn)有的結(jié)構(gòu)化知識庫作為其基礎(chǔ)知識庫,例如 Freebase 項目就是采用這種方式,它的絕大部分數(shù)據(jù)是從維基百科中得到的。
然而目前,大多數(shù)知識圖譜都采用自底向上(bottom-up)的構(gòu)建方式。自底向上指的是從一些開放連接數(shù)據(jù)(也就是 “信息”)中提取出實體,選擇其中置信度較高的加入到知識庫,再構(gòu)建實體與實體之間的聯(lián)系。
知識圖譜的體系架構(gòu)是:
知識圖譜的架構(gòu)主要包括自身的邏輯結(jié)構(gòu)以及體系架構(gòu)。
知識圖譜在邏輯結(jié)構(gòu)上可分為模式層與數(shù)據(jù)層兩個層次,數(shù)據(jù)層主要是由一系列的事實組成,而知識將以事實為單位進行存儲。
如果用(實體1,關(guān)系,實體2)、(實體、屬性,屬性值)這樣的三元組來表達事實,可選擇圖數(shù)據(jù)庫作為存儲介質(zhì),例如開源的 Neo4j、Twitter 的 FlockDB、JanusGraph 等。
模式層構(gòu)建在數(shù)據(jù)層之上,主要是通過本體庫來規(guī)范數(shù)據(jù)層的一系列事實表達。本體是結(jié)構(gòu)化知識庫的概念模板,通過本體庫而形成的知識庫不僅層次結(jié)構(gòu)較強,并且冗余程度較小。
大規(guī)模知識庫的構(gòu)建與應(yīng)用需要多種智能信息處理技術(shù)的支持。通過知識抽取技術(shù),可以從一些公開的半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)中提取出實體、關(guān)系、屬性等知識要素。通過知識融合,可消除實體、關(guān)系、屬性等指稱項與事實對象之間的歧義,形成高質(zhì)量的知識庫。
知識推理則是在已有的知識庫基礎(chǔ)上進一步挖掘隱含的知識,從而豐富、擴展知識庫。分布式的知識表示形成的綜合向量對知識庫的構(gòu)建、推理、融合以及應(yīng)用均具有重要的意義。
知識圖譜,供應(yīng)鏈知識庫,知識自動化是什么?
在知識表示和推理中,知識圖譜是使用圖結(jié)構(gòu)的數(shù)據(jù)模型或拓撲來整合數(shù)據(jù)的知識庫。 知識圖通常用于存儲具有自由形式語義的實體(對象、事件、情況或抽象概念)的相互關(guān)聯(lián)描述。
知識圖譜(一)
知識圖譜技術(shù)是人工智能的重要組成部分,其研究的是對人類知識的獲取、表示、推理、應(yīng)用等技術(shù)。知識圖譜于2012年5月17日被Google正式提出,其初衷是為了提高搜索引擎的能力,增強用戶的搜索質(zhì)量以及搜索體驗。目前,隨著智能信息服務(wù)應(yīng)用的不斷發(fā)展,知識圖譜已被廣泛應(yīng)用于智能搜索、智能問答、個性化推薦等領(lǐng)域。知識圖譜代表的是人工智能認知層面的問題,而深度學(xué)習(xí)很大程度上處理感知層面的問題,未來的技術(shù)大趨勢是深度學(xué)習(xí)與知識圖譜的結(jié)合,實現(xiàn)數(shù)據(jù)統(tǒng)計與知識驅(qū)動的結(jié)合,推動人工智能的發(fā)展。
1.1 知識圖譜的定義
在維基百科的官方詞條中:知識圖譜是Google用于增強其搜索引擎功能的知識庫 。本質(zhì)上,知識圖譜是一種揭示實體之間關(guān)系的語義網(wǎng)絡(luò),可以對現(xiàn)實世界的事物及其相互關(guān)系進行形式化地描述。現(xiàn)在的知識圖譜已被用來泛指各種大規(guī)模的知識庫。
三元組是知識圖譜的一種通用表示方式,即 G=(E,R,S),其中E={e1,e2,……,e|E|}是知識庫中的
實體集合,共包含|E|種不同實體;R={r,r,……,r } 12 |E|是知識庫中的關(guān)系集合,共包含 | R | 種不同關(guān)系; S ? E × R × E 代表知識庫中的三元組集合。三元組 的基本形式主要包括實體1、關(guān)系、實體2和概念、屬性、屬性值等,實體是知識圖譜中的最基本元素, 不同的實體間存在不同的關(guān)系。概念主要指集合、 類別、對象類型、事物的種類,例如人物、地理等; 屬性主要指對象可能具有的屬性、特征、特性、特 點以及參數(shù),例如國籍、生日等;屬性值主要指對 象指定屬性的值,例如中國、1988-09-08等
知識圖譜基礎(chǔ)(一)-什么是知識圖譜
筆者是一只已經(jīng)離職的AI產(chǎn)品經(jīng)理,主要擅長的方向是知識圖譜與自然語言處理,寫這些文章是為了總結(jié)歸納目前已經(jīng)搭建的知識體系,也在于科普。如有不對,請指正。
知識圖譜在國內(nèi)屬于一個比較新興的概念,國內(nèi)目前paper都比較少,應(yīng)用方主要集中在BAT這類手握海量數(shù)據(jù)的企業(yè),這個概念是google在2012年提出的,當時主要是為了將傳統(tǒng)的keyword-base搜索模型向基于語義的搜索升級。知識圖譜可以用來更好的查詢復(fù)雜的關(guān)聯(lián)信息,從語義層面理解用戶意圖,改進搜索質(zhì)量。
個人認為,知識圖譜最大的優(yōu)勢是在于對數(shù)據(jù)的描述能力非常強大,各種機器學(xué)習(xí)算法雖然在預(yù)測能力上很不錯,但是在描述能力上非常弱,知識圖譜剛好填補了這部分空缺。
知識圖譜的定義非常多,我這里提供一部分我自己的理解:
1.知識圖譜主要目標是用來描述真實世界中存在的各種實體和概念,以及他們之間的強關(guān)系,我們用關(guān)系去描述兩個實體之間的關(guān)聯(lián),例如姚明和火箭隊之間的關(guān)系,他們的屬性,我們就用“屬性--值對“來刻畫它的內(nèi)在特性,比如說我們的人物,他有年齡、身高、體重屬性。
2.知識圖譜可以通過人為構(gòu)建與定義,去描述各種概念之間的弱關(guān)系,例如:“忘了訂單號”和“找回訂單號”之間的關(guān)系
知識庫目前可以分為兩種類型:Curated KBs 和 Extracted KBs
Curated KBs :以yago2和freebase為代表,他們從維基百科和WordNet等知識庫抽取了大量的實體及實體關(guān)系,可以把它理解城一種結(jié)構(gòu)化的維基百科。
Extracted KBs :主要是以O(shè)pen Information Extraction (Open IE),? Never-Ending Language Learning (NELL)為代表,他們直接從上億個網(wǎng)頁中抽取實體關(guān)系三元組。與freebase相比,這樣得到的實體知識更具有多樣性,而它們的實體關(guān)系和實體更多的則是自然語言的形式,如“姚明出生于上海?!?可以被表示為(“Yao Ming”, “was also born in”, “Shanghai”)。直接從網(wǎng)頁中抽取出來的知識,也會存在一定的噪聲,其精確度低于Curated KBs。
a)“姚明出生于上?!?/p>
b)“姚明是籃球運動員”
c)“姚明是現(xiàn)任中國籃協(xié)主席”
以上就是一條條知識,把大量的知識匯聚起來就成為了知識庫(Knowledge Base)。我們可以從wikipedia,百度百科等百科全書獲取到大量的知識。但是,這些百科全書的知識是由非結(jié)構(gòu)化的自然語言組建而成的,這樣的組織方式很適合人們閱讀但并不適合計算機處理。
為了方便計算機的處理和理解,我們需要更加形式化、簡潔化的方式去表示知識,那就是三元組(triple)。
“姚明出生于中國上?!?可以用三元組表示為(Yao Ming, PlaceOfBirth, Shanghai)[1]。這里我們可以簡單的把三元組理解為(實體entity,實體關(guān)系relation,實體entity)。如果我們把實體看作是結(jié)點,把實體關(guān)系(包括屬性,類別等等)看作是一條邊,那么包含了大量三元組的知識庫就成為了一個龐大的知識圖。
有些時候會將實體稱為topic,如Justin Bieber。實體關(guān)系也可分為兩種,一種是屬性property,一種是關(guān)系relation。如下圖所示,屬性和關(guān)系的最大區(qū)別在于,屬性所在的三元組對應(yīng)的兩個實體,常常是一個topic和一個字符串,如屬性Type/Gender,對應(yīng)的三元組(Justin Bieber, Type, Person),而關(guān)系所在的三元組所對應(yīng)的兩個實體,常常是兩個topic。如關(guān)系PlaceOfBrith,對應(yīng)的三元組(Justin Bieber, PlaceOfBrith, London)。
(圖中藍色方塊表示topic,橙色橢圓包括屬性值,它們都屬于知識庫的實體;藍色直線表示關(guān)系,橙色直線表示屬性,它們都統(tǒng)稱為知識庫的實體關(guān)系,都可以用三元組刻畫實體和實體關(guān)系)
這里只是簡單介紹一下數(shù)據(jù)結(jié)構(gòu),知識表達這一塊會在《知識圖譜基礎(chǔ)(二)-知識圖譜的知識表達系統(tǒng)》中詳細講解。
讀者只要記住,freebase的基礎(chǔ)知識表達形式:(實體)-[關(guān)系]-(實體),(實體)-[關(guān)系]-(值)即可,參考圖3,姚明和葉莉的關(guān)系。
通過知識圖譜,不僅可以將互聯(lián)網(wǎng)的信息表達成更接近人類認知世界的形式,而且提供了一種更好的組織、管理和利用海量信息的方式。下圖是筆者整理的知識圖譜有關(guān)的應(yīng)用,接下來的一些文章筆者會對下面的應(yīng)用進行剖析。
從圖4上看,知識圖譜的應(yīng)用主要集中在搜索與推薦領(lǐng)域,robot(客服機器人,私人助理)是問答系統(tǒng),本質(zhì)上也是搜索與推薦的延伸??赡苁且驗橹R圖譜這項技術(shù)(特指freebase)誕生之初就是為了解決搜索問題的。知識存儲這一塊可能是企查查和啟信寶這些企業(yè)發(fā)現(xiàn)使用圖結(jié)構(gòu)的數(shù)據(jù)比較好清洗加工。
在語義搜索這一塊,知識圖譜的搜索不同于常規(guī)的搜索,常規(guī)的搜索是根據(jù)keyword找到對應(yīng)的網(wǎng)頁集合,然后通過page rank等算法去給網(wǎng)頁集合內(nèi)的網(wǎng)頁進行排名,然后展示給用戶;基于知識圖譜的搜索是在已有的圖譜知識庫中遍歷知識,然后將查詢到的知識返回給用戶,通常如果路徑正確,查詢出來的知識只有1個或幾個,相當精準。
問答系統(tǒng)這一塊,系統(tǒng)同樣會首先在知識圖譜的幫助下對用戶使用自然語言提出的問題進行語義分析和語法分析,進而將其轉(zhuǎn)化成結(jié)構(gòu)化形式的查詢語句,然后在知識圖譜中查詢答案。
圖立方和知識圖譜的區(qū)別和聯(lián)系與區(qū)別
圖網(wǎng)絡(luò),即Natural Graph,是基于世界各實體之間的自然關(guān)系表示而得到的圖,他們的節(jié)點一般是某個特定網(wǎng)絡(luò)中的實體(人、物理機、分子)。例如:社交網(wǎng)絡(luò)、通信網(wǎng)絡(luò)、蛋白質(zhì)網(wǎng)絡(luò)。
知識圖譜,即Knowledge Graph,它一般是由知識或信息組織而成的圖,它是專門被用來構(gòu)建知識庫并支持決策的。因此知識圖譜中的節(jié)點可以直接是抽象名詞,或者是世界知識或語言知識。
二、異同點
① 二者都是由節(jié)點和邊組成的圖。但是圖網(wǎng)絡(luò)中的實體都是客觀存在的,是對真實世界關(guān)系的一種呈現(xiàn);知識圖譜主要是把客觀世界潛在的知識結(jié)構(gòu)呈現(xiàn)出來,實體可以是抽象的名詞。
② 二者都是異質(zhì)信息網(wǎng)絡(luò),但是任務(wù)不同。KG是一種知識量豐富的異質(zhì)信息網(wǎng)絡(luò)(Heterogeneous Information Network, HIN),它更關(guān)注建模實現(xiàn)對關(guān)系、節(jié)點的表示,模型學(xué)習(xí)的重點是節(jié)點之間的關(guān)系,以更好地存儲、抽取、推理知識。NG建模任務(wù)更關(guān)注節(jié)點的表示,模型學(xué)習(xí)的重點是圖網(wǎng)絡(luò)的結(jié)構(gòu),以達到對節(jié)點分類、聚類、鏈接預(yù)測的目的。
三、圖網(wǎng)絡(luò)表示學(xué)習(xí)(Graph Embedding) VS 知識圖譜表示學(xué)習(xí)(Knowledge Graph Embedding)
也可以稱圖嵌入學(xué)習(xí),分為圖網(wǎng)絡(luò)嵌入graph embedding以及知識圖譜嵌入knowledge graph embedding。從起源看,這兩個任務(wù)中最火的方法DeepWalk和TransE,都是受到了word2vec啟發(fā)提出來的,只是前者是受到了word2vec處理文本序列、由中心詞預(yù)測上下文的啟發(fā);而后者受到了word2vec能自動發(fā)現(xiàn)implicit relation (也就是大家常說的 king - man = queen - woman)的啟發(fā)。
兩者的相同之處是目標一致,都旨在對研究對象建立分布式表示。不同之處在于,知識表示重在如何處理實體間的顯式關(guān)系上;而網(wǎng)絡(luò)表示重在如何充分考慮節(jié)點在網(wǎng)絡(luò)中的復(fù)雜結(jié)構(gòu)信息(如community等)。
1)學(xué)習(xí)目標不同
網(wǎng)絡(luò)表示比較注重在嵌入式空間中保留網(wǎng)絡(luò)的拓撲結(jié)構(gòu)信息,知識圖譜的表示在保留結(jié)構(gòu)信息的基礎(chǔ)上,也同樣注重于關(guān)系的重要性,以及它們的頭尾關(guān)系。知識圖譜表示學(xué)習(xí)更偏向關(guān)系建模,在保留結(jié)構(gòu)信息的基礎(chǔ)上強調(diào)關(guān)系和頭尾關(guān)系,強調(diào)的是節(jié)點和關(guān)系的表示,節(jié)點和關(guān)系同樣重要,因此,知識圖譜表示學(xué)習(xí)中往往指明了關(guān)系,比如水果和獼猴桃之間是所屬關(guān)系。
2)學(xué)習(xí)方法不同
網(wǎng)絡(luò)表示學(xué)習(xí)通常包括三種:基于矩陣分解的模型,比如SVD;基于隨機游走的模型,比如DeepWalk;基于深度神經(jīng)網(wǎng)絡(luò)的模型,包括CNN、RNN等;此外還有同質(zhì)網(wǎng)絡(luò)、異質(zhì)網(wǎng)絡(luò)的區(qū)分,還有屬性網(wǎng)絡(luò)、融合伴隨信息的網(wǎng)絡(luò)等。
與此不同的是,典型的知識圖譜表示算法包括trans系列的算法,如TransE、TransR、TransH等,通過這個三元組去刻畫實體和關(guān)系的向量表示。