知識庫和知識圖譜存在的問題,知識圖譜知識存儲
推薦文章
淺談知識圖譜技術及其應用補全
前言及背景:在構建知識圖譜的過程中,大量知識信息來源于文檔和網(wǎng)頁信息,在從文檔提取知識的過程中往往會有偏差,這些偏差來自于看兩方面:
(1)文檔中會有很多噪聲信息,即無用信息,它的產(chǎn)生可能來自于知識抽取算法本身,也可能和語言文字本身的有效性有關;
(2)文檔信息量有限,不會把所有知識都涵蓋進去,尤其是很多常識性知識。
以上都會導致知識圖譜是不完整的,所以 知識圖譜補全 在構建知識圖譜中日益重要。
通過 已獲取的知識 來對實體間進行關系預測,以達到對實體間關系的補全,也可以是實體類型信息的補全。該過程可以利用本知識庫內(nèi)部的知識,也可以引入第三方知識庫的知識來幫助完成。
整理了一份200G的AI資料包:
①人工智能課程及項目【含課件源碼】
②超詳解人工智能學習路線圖
③人工智能必看優(yōu)質(zhì)書籍電子書匯總
④國內(nèi)外知名精華資源
⑤優(yōu)質(zhì)人工智能資源網(wǎng)站整理(找前輩、找代碼、找論文都有)
⑥人工智能行業(yè)報告
⑦人工智能論文合集
/p3.toutiaoimg.com/origin/tos-cn-i-qvj2lq49k0/36ae8d96bccf490bb4d877abda852f7d","uri":"","width":31,"height":27,"darkImgUrl":"","darkImgUri":"","formulaImgStatus":"succeed"}" class="syl-plugin-formula"
資料在網(wǎng)盤里排列的非常整齊干凈!希望對大家的學習有所幫助, 私信備注【05】添加領取
知識圖譜補全分為兩個層次: 概念層次的知識補全 和 實例層次的知識補全 。
往往提到知識圖譜構建過程中只是提及了實體和關系的抽取,然后就可以生成實體和關系組成的RDF了。
但是,僅僅獲取三元組是不夠的,還要考慮這些,因為三元組中的實體除了具有屬性和關系之外,還可以 映射關聯(lián)到知識概念層次的類型(type),而且一個實體的類型可以有很多 。
例如:實體奧巴馬的類型在不同關系中是有變化的。
在出生信息描述中,類型為人;在創(chuàng)作回憶錄的描述中其類型還可以是作家;在任職描述中還可以是政治家。
實體類型的概念層次模型
在這里:人、作家、政治家這些概念之間是有層次的,也就是所說的概念的層次模型。
1、概念層次的知識補全——主要是要解決實體的類型信息缺失問題
正如前面的例子所描述,一旦一個實體被判別為人這個類型,那么在以構建好的知識模式中,該實體除了人的類型外仍需要向下層概念搜索,以發(fā)現(xiàn)更多的類別描述信息。
(1)基于描述邏輯的規(guī)則推理機制。
本體論和模式 :實體都可以歸結為一種本體,而這種本體會具有一組模式來保證其獨特性,這組模式可以用規(guī)則來描述,因此,對于本體而言,其可以由這組規(guī)則來描述。
例如,奧巴馬是個實體,他的本體可以歸為人,而人的模式就是可以使用語言和工具、可以改造其他事務等等,這些模式可以通過規(guī)則來描述,于是基于描述邏輯的規(guī)則推理方法就出現(xiàn)了。
描述邏輯 是一種常見的知識表示方式,它建立在概念和關系之上。
比如,可以將關于人的實體實例(可以是文本)收集起來,從中提取出其中模式并以規(guī)則的形式記錄下來,這樣一來,只要遇到一個新的實體實例 ,只需將其代入到之前記錄下的規(guī)則中進行比較即可做出判斷,如果符合規(guī)則,就說明該實例可以歸類為人的概念類型,否則就判定為非此概念類型。
(2)基于機器學習類型推理機制
經(jīng)過基于描述邏輯的規(guī)則推理的發(fā)展階段后,機器學習相關研究開始占據(jù)主流,此時 不是單純地利用實例產(chǎn)生的規(guī)則等內(nèi)部線索來進行判斷,同時也要利用外部的特征和線索來學習類型的預測 。
對一個未知類型實體e1而言,如果能找到一個與其類似的且已知類型的實體e2的話,那么就可以據(jù)此推知實體e1的類型應該與e2的類型一致或至少相似。
此類方法主要可以分為:基于內(nèi)容的類型推理、基于鏈接的類型推理和基于統(tǒng)計關系學習的類型推理(如,Markov邏輯網(wǎng))幾個方向。
(3)基于表示學習類型推理機制
將嵌入式學習和深度學習引入到類型推理,基于機器學習的類型推理方法大多假設數(shù)據(jù)中沒有噪聲,且其特征仍然需要認為選擇和設計,引入深度學習可以避免特征工程。而類型推理要依據(jù)文本內(nèi)容,也需要鏈接結構等其他特征的支持,此時嵌入式方法可以發(fā)揮其自身優(yōu)勢。
2、實例層次的知識補全
可以理解為:對于一個實例三元組(SPO,主謂賓),其中可能缺失情況為(?,P,O),(S,?,O)或者(S,P,?),這就如同知識庫中不存在這個三元組,此時需要預測缺失的實體或者關系是什么。
事實上, 很多缺失的知識是可以通過已經(jīng)獲得的知識來推知的 ,有時這個過程也被稱為 鏈接預測 。
注意 :有時知識不是缺失的,而是 新出現(xiàn) 的,即出現(xiàn)了新的三元組,且這個三元組不是原知識庫所已知的知識,此時需要將其作為新知識補充道知識庫中,但此種情形 不是傳統(tǒng)意義的補全 。
(1)基于隨機游走的概率補全方法
(2)基于表示學習的補全方法
知識圖譜嵌入流程:
①結構嵌入表示法
②張量神經(jīng)網(wǎng)絡法
③矩陣分解法
④翻譯法
(3)其他補全方法
跨知識庫補全方法、基于信息檢索技術的知識庫補全方法、知識庫中的常識知識補全
面臨的挑戰(zhàn)和主要發(fā)展方向:
(1)解決長尾實體及關系的稀疏性。
知名的明星的關系實例會很多,而對于普通民眾的實例就很少,但是他們數(shù)量卻眾多,導致其相關的關系實例也是十分稀疏,而且在數(shù)量不斷增加的情況下,這種情況會更加明顯。
(2)實體的一對多、多對一和多對多問題。
對于大規(guī)模數(shù)據(jù),不是一對十幾或者幾十數(shù)量級那么簡單,而是成百上千的數(shù)量級,傳統(tǒng)的解決方案無法有效深圳根本無法解決此種數(shù)量級別的關系學習問題。
(3)三元組的動態(tài)增加和變化導致KG的動態(tài)變化加劇。
新知識源源不斷的產(chǎn)生,而之前的知識可能被后面證明是錯誤的,或者需要修正的。這些都會使得知識補全的過程也需修正改變,如何使得知識圖譜補全技術適應KG的動態(tài)變化變得越來越重要,而這方面的技術還未引起足夠的重視。
(4)KG中關系預測路徑長度會不斷增長。
關系預測能推理的長度是有限的,但在大規(guī)模知識圖譜閃光,實體間的關系路徑序列會變得越來越長,這就需要更高效的模型來描述更復雜的關系預測模型。
知識圖譜應用解決哪些行業(yè)痛點?
這個要看哪方面的知識圖譜了。我比較了解的是知識圖譜在知識管理這方面的應用。像藍凌就有基于知識圖譜的知識管理平臺,藍凌基于知識圖譜的智能知識管理平臺采用輕量級圖譜引擎,支持自上而下、自下而上兩種建模方式,通過知識智能采集、加工、搜索、推薦、推送、問答等知識應用場景,幫助組織搭建智能知識庫,減省人工繁瑣操作,賦能組織提效降本,提升知識效益。國電大渡河、江蘇電力都有用,可以了解一下。
基礎知識-知識圖譜
知識圖譜的構建形式:
自頂向下:先為知識圖譜定義好本體與數(shù)據(jù)模式,再將實體加入到知識庫。
自底向上(常用) :從一些開放鏈接數(shù)據(jù)中提取出實體,選擇其中置信度較高的加入到知識庫,再構建頂層的本體模式。
(1)語義信息抽??; (2)多元數(shù)據(jù)集成與驗證(知識融合); (3)知識圖譜補全
知識庫分類:
開放鏈接知識庫:Freebase、Wikidata、DBpedia、YAGO。包含大量半結構化、非結構化數(shù)據(jù)。
垂直行業(yè)知識庫(特定領域):IMDB(影視)、MusicBrainz(音樂)、ConceptNet(概念)等。
基于規(guī)則與詞典的方法(為目標實體編寫模板,然后進行匹配):編寫大量規(guī)則或模板,覆蓋領域有限,難以適應新需求
基于統(tǒng)計機器學習的方法(機器學習,訓練模型,識別實體):監(jiān)督學習算法受訓練集限制,準確率和召回率不夠理想
( 召回率:真陽性 / 真陽性 + 假陽性;準確率:真陽性 + 真陰性 / 真陽性 + 假陽性 + 真陰性 + 假陰性 )
面向開放域的抽取方法(面向海量的Web語料):通過少量實體實例建立特征模型,再通過它應用于新的數(shù)據(jù)集,給新實體做分類與聚類。(迭代擴展)
早期:人工構造語義規(guī)則以及模板的方式;
實體間的關系模型代替了早期的人工構造;
面向開放域的信息抽取框架(OIE):對隱含關系抽取性能低下。
( 隱含關系抽?。夯隈R爾科夫邏輯網(wǎng)、基于本體推理的深層隱含關系抽取方法 )
可以將實體屬性的抽取問題轉(zhuǎn)換為關系抽取問題
分布式表示 目的在于用 一個綜合的向量來表示實體對象的語義信息 ,這種形式在知識圖譜的計算、 補全 、推理等方面起到重要的作用:
1、語義相似度計算:實體間的語義關聯(lián)程度,為自然語言處理(NLP)等提供了極大的便利
2、
消除異構數(shù)據(jù)中實體沖突、指向不明等不一致性問題。
(1)待對齊數(shù)據(jù)分區(qū)索引;
(2)利用相似度函數(shù)或相似性算法查找匹配實例;
(3)對齊算法(成對實體對齊、全局(局部)集合實體對齊)進行實例融合。
經(jīng)過實體對齊后得到一系列的基本事實表達,然后事實并不等于知識,它只是知識的基本單位。
本體相當于知識庫的模具,使其具有較強的層次結構和較小的冗余程度。
可分為人工構建和數(shù)據(jù)驅(qū)動自動構建。
數(shù)據(jù)驅(qū)動的本體自動構建:
①縱向概念間的并列關系計算:計算兩個實體間并列關系的相似度,辨析他們在語義層面是否屬于同一個概念。
②實體上下位關系抽取。
③本體生成:對各層次得到的概念進行聚類,并為每一類的實體指定1個或多個公共上位詞。
通常是與實體對齊任務一起進行:對知識可信度進行量化,保留置信度較高的,舍棄置信度較低的。
主要包括模式層的更新與數(shù)據(jù)層的更新。
一階謂詞邏輯、描述邏輯以及規(guī)則等
(1)一階謂詞邏輯:以命題為基本,命題包含個體(實體)和謂詞(屬性或關系)。
(2)基于描述邏輯的規(guī)則推理:在(1)的基礎上發(fā)展而來,目的是在知識表示能力與推理復雜度之間追求一種平衡。
(3)通過本體的概念層次推理。
一些算法主要是 利用了關系路徑 中的蘊涵信息:
通過圖中兩個實體間的多步路徑來預測它們之間的語義關系,即從源節(jié)點開始,在圖上根據(jù)路徑建模算法進行游走,如果能夠到達目標節(jié)點,則推測源節(jié)點和目標節(jié)點間存在聯(lián)系。
( 關系路徑的建模研究仍處于初期階段,需要進一步探索完成 )
參考文獻:
[1]徐增林,盛泳潘,賀麗榮,王雅芳.知識圖譜技術綜述[J].電子科技大學學報,2016,45(04):589-606.