知識(shí)庫(kù)和知識(shí)圖譜存在的問(wèn)題,知識(shí)圖譜知識(shí)存儲(chǔ)
推薦文章
淺談知識(shí)圖譜技術(shù)及其應(yīng)用補(bǔ)全
前言及背景:在構(gòu)建知識(shí)圖譜的過(guò)程中,大量知識(shí)信息來(lái)源于文檔和網(wǎng)頁(yè)信息,在從文檔提取知識(shí)的過(guò)程中往往會(huì)有偏差,這些偏差來(lái)自于看兩方面:
(1)文檔中會(huì)有很多噪聲信息,即無(wú)用信息,它的產(chǎn)生可能來(lái)自于知識(shí)抽取算法本身,也可能和語(yǔ)言文字本身的有效性有關(guān);
(2)文檔信息量有限,不會(huì)把所有知識(shí)都涵蓋進(jìn)去,尤其是很多常識(shí)性知識(shí)。
以上都會(huì)導(dǎo)致知識(shí)圖譜是不完整的,所以 知識(shí)圖譜補(bǔ)全 在構(gòu)建知識(shí)圖譜中日益重要。
通過(guò) 已獲取的知識(shí) 來(lái)對(duì)實(shí)體間進(jìn)行關(guān)系預(yù)測(cè),以達(dá)到對(duì)實(shí)體間關(guān)系的補(bǔ)全,也可以是實(shí)體類型信息的補(bǔ)全。該過(guò)程可以利用本知識(shí)庫(kù)內(nèi)部的知識(shí),也可以引入第三方知識(shí)庫(kù)的知識(shí)來(lái)幫助完成。
整理了一份200G的AI資料包:
①人工智能課程及項(xiàng)目【含課件源碼】
②超詳解人工智能學(xué)習(xí)路線圖
③人工智能必看優(yōu)質(zhì)書(shū)籍電子書(shū)匯總
④國(guó)內(nèi)外知名精華資源
⑤優(yōu)質(zhì)人工智能資源網(wǎng)站整理(找前輩、找代碼、找論文都有)
⑥人工智能行業(yè)報(bào)告
⑦人工智能論文合集
/p3.toutiaoimg.com/origin/tos-cn-i-qvj2lq49k0/36ae8d96bccf490bb4d877abda852f7d","uri":"","width":31,"height":27,"darkImgUrl":"","darkImgUri":"","formulaImgStatus":"succeed"}" class="syl-plugin-formula"
資料在網(wǎng)盤里排列的非常整齊干凈!希望對(duì)大家的學(xué)習(xí)有所幫助, 私信備注【05】添加領(lǐng)取
知識(shí)圖譜補(bǔ)全分為兩個(gè)層次: 概念層次的知識(shí)補(bǔ)全 和 實(shí)例層次的知識(shí)補(bǔ)全 。
往往提到知識(shí)圖譜構(gòu)建過(guò)程中只是提及了實(shí)體和關(guān)系的抽取,然后就可以生成實(shí)體和關(guān)系組成的RDF了。
但是,僅僅獲取三元組是不夠的,還要考慮這些,因?yàn)槿M中的實(shí)體除了具有屬性和關(guān)系之外,還可以 映射關(guān)聯(lián)到知識(shí)概念層次的類型(type),而且一個(gè)實(shí)體的類型可以有很多 。
例如:實(shí)體奧巴馬的類型在不同關(guān)系中是有變化的。
在出生信息描述中,類型為人;在創(chuàng)作回憶錄的描述中其類型還可以是作家;在任職描述中還可以是政治家。
實(shí)體類型的概念層次模型
在這里:人、作家、政治家這些概念之間是有層次的,也就是所說(shuō)的概念的層次模型。
1、概念層次的知識(shí)補(bǔ)全——主要是要解決實(shí)體的類型信息缺失問(wèn)題
正如前面的例子所描述,一旦一個(gè)實(shí)體被判別為人這個(gè)類型,那么在以構(gòu)建好的知識(shí)模式中,該實(shí)體除了人的類型外仍需要向下層概念搜索,以發(fā)現(xiàn)更多的類別描述信息。
(1)基于描述邏輯的規(guī)則推理機(jī)制。
本體論和模式 :實(shí)體都可以歸結(jié)為一種本體,而這種本體會(huì)具有一組模式來(lái)保證其獨(dú)特性,這組模式可以用規(guī)則來(lái)描述,因此,對(duì)于本體而言,其可以由這組規(guī)則來(lái)描述。
例如,奧巴馬是個(gè)實(shí)體,他的本體可以歸為人,而人的模式就是可以使用語(yǔ)言和工具、可以改造其他事務(wù)等等,這些模式可以通過(guò)規(guī)則來(lái)描述,于是基于描述邏輯的規(guī)則推理方法就出現(xiàn)了。
描述邏輯 是一種常見(jiàn)的知識(shí)表示方式,它建立在概念和關(guān)系之上。
比如,可以將關(guān)于人的實(shí)體實(shí)例(可以是文本)收集起來(lái),從中提取出其中模式并以規(guī)則的形式記錄下來(lái),這樣一來(lái),只要遇到一個(gè)新的實(shí)體實(shí)例 ,只需將其代入到之前記錄下的規(guī)則中進(jìn)行比較即可做出判斷,如果符合規(guī)則,就說(shuō)明該實(shí)例可以歸類為人的概念類型,否則就判定為非此概念類型。
(2)基于機(jī)器學(xué)習(xí)類型推理機(jī)制
經(jīng)過(guò)基于描述邏輯的規(guī)則推理的發(fā)展階段后,機(jī)器學(xué)習(xí)相關(guān)研究開(kāi)始占據(jù)主流,此時(shí) 不是單純地利用實(shí)例產(chǎn)生的規(guī)則等內(nèi)部線索來(lái)進(jìn)行判斷,同時(shí)也要利用外部的特征和線索來(lái)學(xué)習(xí)類型的預(yù)測(cè) 。
對(duì)一個(gè)未知類型實(shí)體e1而言,如果能找到一個(gè)與其類似的且已知類型的實(shí)體e2的話,那么就可以據(jù)此推知實(shí)體e1的類型應(yīng)該與e2的類型一致或至少相似。
此類方法主要可以分為:基于內(nèi)容的類型推理、基于鏈接的類型推理和基于統(tǒng)計(jì)關(guān)系學(xué)習(xí)的類型推理(如,Markov邏輯網(wǎng))幾個(gè)方向。
(3)基于表示學(xué)習(xí)類型推理機(jī)制
將嵌入式學(xué)習(xí)和深度學(xué)習(xí)引入到類型推理,基于機(jī)器學(xué)習(xí)的類型推理方法大多假設(shè)數(shù)據(jù)中沒(méi)有噪聲,且其特征仍然需要認(rèn)為選擇和設(shè)計(jì),引入深度學(xué)習(xí)可以避免特征工程。而類型推理要依據(jù)文本內(nèi)容,也需要鏈接結(jié)構(gòu)等其他特征的支持,此時(shí)嵌入式方法可以發(fā)揮其自身優(yōu)勢(shì)。
2、實(shí)例層次的知識(shí)補(bǔ)全
可以理解為:對(duì)于一個(gè)實(shí)例三元組(SPO,主謂賓),其中可能缺失情況為(?,P,O),(S,?,O)或者(S,P,?),這就如同知識(shí)庫(kù)中不存在這個(gè)三元組,此時(shí)需要預(yù)測(cè)缺失的實(shí)體或者關(guān)系是什么。
事實(shí)上, 很多缺失的知識(shí)是可以通過(guò)已經(jīng)獲得的知識(shí)來(lái)推知的 ,有時(shí)這個(gè)過(guò)程也被稱為 鏈接預(yù)測(cè) 。
注意 :有時(shí)知識(shí)不是缺失的,而是 新出現(xiàn) 的,即出現(xiàn)了新的三元組,且這個(gè)三元組不是原知識(shí)庫(kù)所已知的知識(shí),此時(shí)需要將其作為新知識(shí)補(bǔ)充道知識(shí)庫(kù)中,但此種情形 不是傳統(tǒng)意義的補(bǔ)全 。
(1)基于隨機(jī)游走的概率補(bǔ)全方法
(2)基于表示學(xué)習(xí)的補(bǔ)全方法
知識(shí)圖譜嵌入流程:
①結(jié)構(gòu)嵌入表示法
②張量神經(jīng)網(wǎng)絡(luò)法
③矩陣分解法
④翻譯法
(3)其他補(bǔ)全方法
跨知識(shí)庫(kù)補(bǔ)全方法、基于信息檢索技術(shù)的知識(shí)庫(kù)補(bǔ)全方法、知識(shí)庫(kù)中的常識(shí)知識(shí)補(bǔ)全
面臨的挑戰(zhàn)和主要發(fā)展方向:
(1)解決長(zhǎng)尾實(shí)體及關(guān)系的稀疏性。
知名的明星的關(guān)系實(shí)例會(huì)很多,而對(duì)于普通民眾的實(shí)例就很少,但是他們數(shù)量卻眾多,導(dǎo)致其相關(guān)的關(guān)系實(shí)例也是十分稀疏,而且在數(shù)量不斷增加的情況下,這種情況會(huì)更加明顯。
(2)實(shí)體的一對(duì)多、多對(duì)一和多對(duì)多問(wèn)題。
對(duì)于大規(guī)模數(shù)據(jù),不是一對(duì)十幾或者幾十?dāng)?shù)量級(jí)那么簡(jiǎn)單,而是成百上千的數(shù)量級(jí),傳統(tǒng)的解決方案無(wú)法有效深圳根本無(wú)法解決此種數(shù)量級(jí)別的關(guān)系學(xué)習(xí)問(wèn)題。
(3)三元組的動(dòng)態(tài)增加和變化導(dǎo)致KG的動(dòng)態(tài)變化加劇。
新知識(shí)源源不斷的產(chǎn)生,而之前的知識(shí)可能被后面證明是錯(cuò)誤的,或者需要修正的。這些都會(huì)使得知識(shí)補(bǔ)全的過(guò)程也需修正改變,如何使得知識(shí)圖譜補(bǔ)全技術(shù)適應(yīng)KG的動(dòng)態(tài)變化變得越來(lái)越重要,而這方面的技術(shù)還未引起足夠的重視。
(4)KG中關(guān)系預(yù)測(cè)路徑長(zhǎng)度會(huì)不斷增長(zhǎng)。
關(guān)系預(yù)測(cè)能推理的長(zhǎng)度是有限的,但在大規(guī)模知識(shí)圖譜閃光,實(shí)體間的關(guān)系路徑序列會(huì)變得越來(lái)越長(zhǎng),這就需要更高效的模型來(lái)描述更復(fù)雜的關(guān)系預(yù)測(cè)模型。
知識(shí)圖譜應(yīng)用解決哪些行業(yè)痛點(diǎn)?
這個(gè)要看哪方面的知識(shí)圖譜了。我比較了解的是知識(shí)圖譜在知識(shí)管理這方面的應(yīng)用。像藍(lán)凌就有基于知識(shí)圖譜的知識(shí)管理平臺(tái),藍(lán)凌基于知識(shí)圖譜的智能知識(shí)管理平臺(tái)采用輕量級(jí)圖譜引擎,支持自上而下、自下而上兩種建模方式,通過(guò)知識(shí)智能采集、加工、搜索、推薦、推送、問(wèn)答等知識(shí)應(yīng)用場(chǎng)景,幫助組織搭建智能知識(shí)庫(kù),減省人工繁瑣操作,賦能組織提效降本,提升知識(shí)效益。國(guó)電大渡河、江蘇電力都有用,可以了解一下。
基礎(chǔ)知識(shí)-知識(shí)圖譜
知識(shí)圖譜的構(gòu)建形式:
自頂向下:先為知識(shí)圖譜定義好本體與數(shù)據(jù)模式,再將實(shí)體加入到知識(shí)庫(kù)。
自底向上(常用) :從一些開(kāi)放鏈接數(shù)據(jù)中提取出實(shí)體,選擇其中置信度較高的加入到知識(shí)庫(kù),再構(gòu)建頂層的本體模式。
(1)語(yǔ)義信息抽取; (2)多元數(shù)據(jù)集成與驗(yàn)證(知識(shí)融合); (3)知識(shí)圖譜補(bǔ)全
知識(shí)庫(kù)分類:
開(kāi)放鏈接知識(shí)庫(kù):Freebase、Wikidata、DBpedia、YAGO。包含大量半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。
垂直行業(yè)知識(shí)庫(kù)(特定領(lǐng)域):IMDB(影視)、MusicBrainz(音樂(lè))、ConceptNet(概念)等。
基于規(guī)則與詞典的方法(為目標(biāo)實(shí)體編寫模板,然后進(jìn)行匹配):編寫大量規(guī)則或模板,覆蓋領(lǐng)域有限,難以適應(yīng)新需求
基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法(機(jī)器學(xué)習(xí),訓(xùn)練模型,識(shí)別實(shí)體):監(jiān)督學(xué)習(xí)算法受訓(xùn)練集限制,準(zhǔn)確率和召回率不夠理想
( 召回率:真陽(yáng)性 / 真陽(yáng)性 + 假陽(yáng)性;準(zhǔn)確率:真陽(yáng)性 + 真陰性 / 真陽(yáng)性 + 假陽(yáng)性 + 真陰性 + 假陰性 )
面向開(kāi)放域的抽取方法(面向海量的Web語(yǔ)料):通過(guò)少量實(shí)體實(shí)例建立特征模型,再通過(guò)它應(yīng)用于新的數(shù)據(jù)集,給新實(shí)體做分類與聚類。(迭代擴(kuò)展)
早期:人工構(gòu)造語(yǔ)義規(guī)則以及模板的方式;
實(shí)體間的關(guān)系模型代替了早期的人工構(gòu)造;
面向開(kāi)放域的信息抽取框架(OIE):對(duì)隱含關(guān)系抽取性能低下。
( 隱含關(guān)系抽?。夯隈R爾科夫邏輯網(wǎng)、基于本體推理的深層隱含關(guān)系抽取方法 )
可以將實(shí)體屬性的抽取問(wèn)題轉(zhuǎn)換為關(guān)系抽取問(wèn)題
分布式表示 目的在于用 一個(gè)綜合的向量來(lái)表示實(shí)體對(duì)象的語(yǔ)義信息 ,這種形式在知識(shí)圖譜的計(jì)算、 補(bǔ)全 、推理等方面起到重要的作用:
1、語(yǔ)義相似度計(jì)算:實(shí)體間的語(yǔ)義關(guān)聯(lián)程度,為自然語(yǔ)言處理(NLP)等提供了極大的便利
2、
消除異構(gòu)數(shù)據(jù)中實(shí)體沖突、指向不明等不一致性問(wèn)題。
(1)待對(duì)齊數(shù)據(jù)分區(qū)索引;
(2)利用相似度函數(shù)或相似性算法查找匹配實(shí)例;
(3)對(duì)齊算法(成對(duì)實(shí)體對(duì)齊、全局(局部)集合實(shí)體對(duì)齊)進(jìn)行實(shí)例融合。
經(jīng)過(guò)實(shí)體對(duì)齊后得到一系列的基本事實(shí)表達(dá),然后事實(shí)并不等于知識(shí),它只是知識(shí)的基本單位。
本體相當(dāng)于知識(shí)庫(kù)的模具,使其具有較強(qiáng)的層次結(jié)構(gòu)和較小的冗余程度。
可分為人工構(gòu)建和數(shù)據(jù)驅(qū)動(dòng)自動(dòng)構(gòu)建。
數(shù)據(jù)驅(qū)動(dòng)的本體自動(dòng)構(gòu)建:
①縱向概念間的并列關(guān)系計(jì)算:計(jì)算兩個(gè)實(shí)體間并列關(guān)系的相似度,辨析他們?cè)谡Z(yǔ)義層面是否屬于同一個(gè)概念。
②實(shí)體上下位關(guān)系抽取。
③本體生成:對(duì)各層次得到的概念進(jìn)行聚類,并為每一類的實(shí)體指定1個(gè)或多個(gè)公共上位詞。
通常是與實(shí)體對(duì)齊任務(wù)一起進(jìn)行:對(duì)知識(shí)可信度進(jìn)行量化,保留置信度較高的,舍棄置信度較低的。
主要包括模式層的更新與數(shù)據(jù)層的更新。
一階謂詞邏輯、描述邏輯以及規(guī)則等
(1)一階謂詞邏輯:以命題為基本,命題包含個(gè)體(實(shí)體)和謂詞(屬性或關(guān)系)。
(2)基于描述邏輯的規(guī)則推理:在(1)的基礎(chǔ)上發(fā)展而來(lái),目的是在知識(shí)表示能力與推理復(fù)雜度之間追求一種平衡。
(3)通過(guò)本體的概念層次推理。
一些算法主要是 利用了關(guān)系路徑 中的蘊(yùn)涵信息:
通過(guò)圖中兩個(gè)實(shí)體間的多步路徑來(lái)預(yù)測(cè)它們之間的語(yǔ)義關(guān)系,即從源節(jié)點(diǎn)開(kāi)始,在圖上根據(jù)路徑建模算法進(jìn)行游走,如果能夠到達(dá)目標(biāo)節(jié)點(diǎn),則推測(cè)源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)間存在聯(lián)系。
( 關(guān)系路徑的建模研究仍處于初期階段,需要進(jìn)一步探索完成 )
參考文獻(xiàn):
[1]徐增林,盛泳潘,賀麗榮,王雅芳.知識(shí)圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報(bào),2016,45(04):589-606.