亚洲欧美中文在线观看,永久939w78w78w乳液,色5月婷婷 亚洲,2021精品国产自在观看

  • <small id="wqkfw"></small>

    <address id="wqkfw"></address>
  • 讀后感

    5U文學(xué)網(wǎng) > 作文 > 讀后感 > 知識(shí)庫(kù)和知識(shí)圖譜存在的問(wèn)題,知識(shí)圖譜知識(shí)存儲(chǔ)

    知識(shí)庫(kù)和知識(shí)圖譜存在的問(wèn)題,知識(shí)圖譜知識(shí)存儲(chǔ)

    | admin

    淺談知識(shí)圖譜技術(shù)及其應(yīng)用補(bǔ)全

    前言及背景:在構(gòu)建知識(shí)圖譜的過(guò)程中,大量知識(shí)信息來(lái)源于文檔和網(wǎng)頁(yè)信息,在從文檔提取知識(shí)的過(guò)程中往往會(huì)有偏差,這些偏差來(lái)自于看兩方面:

    (1)文檔中會(huì)有很多噪聲信息,即無(wú)用信息,它的產(chǎn)生可能來(lái)自于知識(shí)抽取算法本身,也可能和語(yǔ)言文字本身的有效性有關(guān);

    (2)文檔信息量有限,不會(huì)把所有知識(shí)都涵蓋進(jìn)去,尤其是很多常識(shí)性知識(shí)。

    以上都會(huì)導(dǎo)致知識(shí)圖譜是不完整的,所以 知識(shí)圖譜補(bǔ)全 在構(gòu)建知識(shí)圖譜中日益重要。

    通過(guò) 已獲取的知識(shí) 來(lái)對(duì)實(shí)體間進(jìn)行關(guān)系預(yù)測(cè),以達(dá)到對(duì)實(shí)體間關(guān)系的補(bǔ)全,也可以是實(shí)體類型信息的補(bǔ)全。該過(guò)程可以利用本知識(shí)庫(kù)內(nèi)部的知識(shí),也可以引入第三方知識(shí)庫(kù)的知識(shí)來(lái)幫助完成。

    整理了一份200G的AI資料包:

    ①人工智能課程及項(xiàng)目【含課件源碼】

    ②超詳解人工智能學(xué)習(xí)路線圖

    ③人工智能必看優(yōu)質(zhì)書(shū)籍電子書(shū)匯總

    ④國(guó)內(nèi)外知名精華資源

    ⑤優(yōu)質(zhì)人工智能資源網(wǎng)站整理(找前輩、找代碼、找論文都有)

    ⑥人工智能行業(yè)報(bào)告

    ⑦人工智能論文合集

    /p3.toutiaoimg.com/origin/tos-cn-i-qvj2lq49k0/36ae8d96bccf490bb4d877abda852f7d","uri":"","width":31,"height":27,"darkImgUrl":"","darkImgUri":"","formulaImgStatus":"succeed"}" class="syl-plugin-formula"

    資料在網(wǎng)盤里排列的非常整齊干凈!希望對(duì)大家的學(xué)習(xí)有所幫助, 私信備注【05】添加領(lǐng)取

    知識(shí)圖譜補(bǔ)全分為兩個(gè)層次: 概念層次的知識(shí)補(bǔ)全 和 實(shí)例層次的知識(shí)補(bǔ)全 。

    往往提到知識(shí)圖譜構(gòu)建過(guò)程中只是提及了實(shí)體和關(guān)系的抽取,然后就可以生成實(shí)體和關(guān)系組成的RDF了。

    但是,僅僅獲取三元組是不夠的,還要考慮這些,因?yàn)槿M中的實(shí)體除了具有屬性和關(guān)系之外,還可以 映射關(guān)聯(lián)到知識(shí)概念層次的類型(type),而且一個(gè)實(shí)體的類型可以有很多 。

    例如:實(shí)體奧巴馬的類型在不同關(guān)系中是有變化的。

    在出生信息描述中,類型為人;在創(chuàng)作回憶錄的描述中其類型還可以是作家;在任職描述中還可以是政治家。

    實(shí)體類型的概念層次模型

    在這里:人、作家、政治家這些概念之間是有層次的,也就是所說(shuō)的概念的層次模型。

    1、概念層次的知識(shí)補(bǔ)全——主要是要解決實(shí)體的類型信息缺失問(wèn)題

    正如前面的例子所描述,一旦一個(gè)實(shí)體被判別為人這個(gè)類型,那么在以構(gòu)建好的知識(shí)模式中,該實(shí)體除了人的類型外仍需要向下層概念搜索,以發(fā)現(xiàn)更多的類別描述信息。

    (1)基于描述邏輯的規(guī)則推理機(jī)制。

    本體論和模式 :實(shí)體都可以歸結(jié)為一種本體,而這種本體會(huì)具有一組模式來(lái)保證其獨(dú)特性,這組模式可以用規(guī)則來(lái)描述,因此,對(duì)于本體而言,其可以由這組規(guī)則來(lái)描述。

    例如,奧巴馬是個(gè)實(shí)體,他的本體可以歸為人,而人的模式就是可以使用語(yǔ)言和工具、可以改造其他事務(wù)等等,這些模式可以通過(guò)規(guī)則來(lái)描述,于是基于描述邏輯的規(guī)則推理方法就出現(xiàn)了。

    描述邏輯 是一種常見(jiàn)的知識(shí)表示方式,它建立在概念和關(guān)系之上。

    比如,可以將關(guān)于人的實(shí)體實(shí)例(可以是文本)收集起來(lái),從中提取出其中模式并以規(guī)則的形式記錄下來(lái),這樣一來(lái),只要遇到一個(gè)新的實(shí)體實(shí)例 ,只需將其代入到之前記錄下的規(guī)則中進(jìn)行比較即可做出判斷,如果符合規(guī)則,就說(shuō)明該實(shí)例可以歸類為人的概念類型,否則就判定為非此概念類型。

    (2)基于機(jī)器學(xué)習(xí)類型推理機(jī)制

    經(jīng)過(guò)基于描述邏輯的規(guī)則推理的發(fā)展階段后,機(jī)器學(xué)習(xí)相關(guān)研究開(kāi)始占據(jù)主流,此時(shí) 不是單純地利用實(shí)例產(chǎn)生的規(guī)則等內(nèi)部線索來(lái)進(jìn)行判斷,同時(shí)也要利用外部的特征和線索來(lái)學(xué)習(xí)類型的預(yù)測(cè) 。

    對(duì)一個(gè)未知類型實(shí)體e1而言,如果能找到一個(gè)與其類似的且已知類型的實(shí)體e2的話,那么就可以據(jù)此推知實(shí)體e1的類型應(yīng)該與e2的類型一致或至少相似。

    此類方法主要可以分為:基于內(nèi)容的類型推理、基于鏈接的類型推理和基于統(tǒng)計(jì)關(guān)系學(xué)習(xí)的類型推理(如,Markov邏輯網(wǎng))幾個(gè)方向。

    (3)基于表示學(xué)習(xí)類型推理機(jī)制

    將嵌入式學(xué)習(xí)和深度學(xué)習(xí)引入到類型推理,基于機(jī)器學(xué)習(xí)的類型推理方法大多假設(shè)數(shù)據(jù)中沒(méi)有噪聲,且其特征仍然需要認(rèn)為選擇和設(shè)計(jì),引入深度學(xué)習(xí)可以避免特征工程。而類型推理要依據(jù)文本內(nèi)容,也需要鏈接結(jié)構(gòu)等其他特征的支持,此時(shí)嵌入式方法可以發(fā)揮其自身優(yōu)勢(shì)。

    2、實(shí)例層次的知識(shí)補(bǔ)全

    可以理解為:對(duì)于一個(gè)實(shí)例三元組(SPO,主謂賓),其中可能缺失情況為(?,P,O),(S,?,O)或者(S,P,?),這就如同知識(shí)庫(kù)中不存在這個(gè)三元組,此時(shí)需要預(yù)測(cè)缺失的實(shí)體或者關(guān)系是什么。

    事實(shí)上, 很多缺失的知識(shí)是可以通過(guò)已經(jīng)獲得的知識(shí)來(lái)推知的 ,有時(shí)這個(gè)過(guò)程也被稱為 鏈接預(yù)測(cè) 。

    注意 :有時(shí)知識(shí)不是缺失的,而是 新出現(xiàn) 的,即出現(xiàn)了新的三元組,且這個(gè)三元組不是原知識(shí)庫(kù)所已知的知識(shí),此時(shí)需要將其作為新知識(shí)補(bǔ)充道知識(shí)庫(kù)中,但此種情形 不是傳統(tǒng)意義的補(bǔ)全 。

    (1)基于隨機(jī)游走的概率補(bǔ)全方法

    (2)基于表示學(xué)習(xí)的補(bǔ)全方法

    知識(shí)圖譜嵌入流程:

    ①結(jié)構(gòu)嵌入表示法

    ②張量神經(jīng)網(wǎng)絡(luò)法

    ③矩陣分解法

    ④翻譯法

    (3)其他補(bǔ)全方法

    跨知識(shí)庫(kù)補(bǔ)全方法、基于信息檢索技術(shù)的知識(shí)庫(kù)補(bǔ)全方法、知識(shí)庫(kù)中的常識(shí)知識(shí)補(bǔ)全

    面臨的挑戰(zhàn)和主要發(fā)展方向:

    (1)解決長(zhǎng)尾實(shí)體及關(guān)系的稀疏性。

    知名的明星的關(guān)系實(shí)例會(huì)很多,而對(duì)于普通民眾的實(shí)例就很少,但是他們數(shù)量卻眾多,導(dǎo)致其相關(guān)的關(guān)系實(shí)例也是十分稀疏,而且在數(shù)量不斷增加的情況下,這種情況會(huì)更加明顯。

    (2)實(shí)體的一對(duì)多、多對(duì)一和多對(duì)多問(wèn)題。

    對(duì)于大規(guī)模數(shù)據(jù),不是一對(duì)十幾或者幾十?dāng)?shù)量級(jí)那么簡(jiǎn)單,而是成百上千的數(shù)量級(jí),傳統(tǒng)的解決方案無(wú)法有效深圳根本無(wú)法解決此種數(shù)量級(jí)別的關(guān)系學(xué)習(xí)問(wèn)題。

    (3)三元組的動(dòng)態(tài)增加和變化導(dǎo)致KG的動(dòng)態(tài)變化加劇。

    新知識(shí)源源不斷的產(chǎn)生,而之前的知識(shí)可能被后面證明是錯(cuò)誤的,或者需要修正的。這些都會(huì)使得知識(shí)補(bǔ)全的過(guò)程也需修正改變,如何使得知識(shí)圖譜補(bǔ)全技術(shù)適應(yīng)KG的動(dòng)態(tài)變化變得越來(lái)越重要,而這方面的技術(shù)還未引起足夠的重視。

    (4)KG中關(guān)系預(yù)測(cè)路徑長(zhǎng)度會(huì)不斷增長(zhǎng)。

    關(guān)系預(yù)測(cè)能推理的長(zhǎng)度是有限的,但在大規(guī)模知識(shí)圖譜閃光,實(shí)體間的關(guān)系路徑序列會(huì)變得越來(lái)越長(zhǎng),這就需要更高效的模型來(lái)描述更復(fù)雜的關(guān)系預(yù)測(cè)模型。

    知識(shí)圖譜應(yīng)用解決哪些行業(yè)痛點(diǎn)?

    這個(gè)要看哪方面的知識(shí)圖譜了。我比較了解的是知識(shí)圖譜在知識(shí)管理這方面的應(yīng)用。像藍(lán)凌就有基于知識(shí)圖譜的知識(shí)管理平臺(tái),藍(lán)凌基于知識(shí)圖譜的智能知識(shí)管理平臺(tái)采用輕量級(jí)圖譜引擎,支持自上而下、自下而上兩種建模方式,通過(guò)知識(shí)智能采集、加工、搜索、推薦、推送、問(wèn)答等知識(shí)應(yīng)用場(chǎng)景,幫助組織搭建智能知識(shí)庫(kù),減省人工繁瑣操作,賦能組織提效降本,提升知識(shí)效益。國(guó)電大渡河、江蘇電力都有用,可以了解一下。

    基礎(chǔ)知識(shí)-知識(shí)圖譜

    知識(shí)圖譜的構(gòu)建形式:

    自頂向下:先為知識(shí)圖譜定義好本體與數(shù)據(jù)模式,再將實(shí)體加入到知識(shí)庫(kù)。

    自底向上(常用) :從一些開(kāi)放鏈接數(shù)據(jù)中提取出實(shí)體,選擇其中置信度較高的加入到知識(shí)庫(kù),再構(gòu)建頂層的本體模式。

    (1)語(yǔ)義信息抽取; (2)多元數(shù)據(jù)集成與驗(yàn)證(知識(shí)融合); (3)知識(shí)圖譜補(bǔ)全

    知識(shí)庫(kù)分類:

    開(kāi)放鏈接知識(shí)庫(kù):Freebase、Wikidata、DBpedia、YAGO。包含大量半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。

    垂直行業(yè)知識(shí)庫(kù)(特定領(lǐng)域):IMDB(影視)、MusicBrainz(音樂(lè))、ConceptNet(概念)等。

    基于規(guī)則與詞典的方法(為目標(biāo)實(shí)體編寫模板,然后進(jìn)行匹配):編寫大量規(guī)則或模板,覆蓋領(lǐng)域有限,難以適應(yīng)新需求

    基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法(機(jī)器學(xué)習(xí),訓(xùn)練模型,識(shí)別實(shí)體):監(jiān)督學(xué)習(xí)算法受訓(xùn)練集限制,準(zhǔn)確率和召回率不夠理想

    ( 召回率:真陽(yáng)性 / 真陽(yáng)性 + 假陽(yáng)性;準(zhǔn)確率:真陽(yáng)性 + 真陰性 / 真陽(yáng)性 + 假陽(yáng)性 + 真陰性 + 假陰性 )

    面向開(kāi)放域的抽取方法(面向海量的Web語(yǔ)料):通過(guò)少量實(shí)體實(shí)例建立特征模型,再通過(guò)它應(yīng)用于新的數(shù)據(jù)集,給新實(shí)體做分類與聚類。(迭代擴(kuò)展)

    早期:人工構(gòu)造語(yǔ)義規(guī)則以及模板的方式;

    實(shí)體間的關(guān)系模型代替了早期的人工構(gòu)造;

    面向開(kāi)放域的信息抽取框架(OIE):對(duì)隱含關(guān)系抽取性能低下。

    ( 隱含關(guān)系抽?。夯隈R爾科夫邏輯網(wǎng)、基于本體推理的深層隱含關(guān)系抽取方法 )

    可以將實(shí)體屬性的抽取問(wèn)題轉(zhuǎn)換為關(guān)系抽取問(wèn)題

    分布式表示 目的在于用 一個(gè)綜合的向量來(lái)表示實(shí)體對(duì)象的語(yǔ)義信息 ,這種形式在知識(shí)圖譜的計(jì)算、 補(bǔ)全 、推理等方面起到重要的作用:

    1、語(yǔ)義相似度計(jì)算:實(shí)體間的語(yǔ)義關(guān)聯(lián)程度,為自然語(yǔ)言處理(NLP)等提供了極大的便利

    2、

    消除異構(gòu)數(shù)據(jù)中實(shí)體沖突、指向不明等不一致性問(wèn)題。

    (1)待對(duì)齊數(shù)據(jù)分區(qū)索引;

    (2)利用相似度函數(shù)或相似性算法查找匹配實(shí)例;

    (3)對(duì)齊算法(成對(duì)實(shí)體對(duì)齊、全局(局部)集合實(shí)體對(duì)齊)進(jìn)行實(shí)例融合。

    經(jīng)過(guò)實(shí)體對(duì)齊后得到一系列的基本事實(shí)表達(dá),然后事實(shí)并不等于知識(shí),它只是知識(shí)的基本單位。

    本體相當(dāng)于知識(shí)庫(kù)的模具,使其具有較強(qiáng)的層次結(jié)構(gòu)和較小的冗余程度。

    可分為人工構(gòu)建和數(shù)據(jù)驅(qū)動(dòng)自動(dòng)構(gòu)建。

    數(shù)據(jù)驅(qū)動(dòng)的本體自動(dòng)構(gòu)建:

    ①縱向概念間的并列關(guān)系計(jì)算:計(jì)算兩個(gè)實(shí)體間并列關(guān)系的相似度,辨析他們?cè)谡Z(yǔ)義層面是否屬于同一個(gè)概念。

    ②實(shí)體上下位關(guān)系抽取。

    ③本體生成:對(duì)各層次得到的概念進(jìn)行聚類,并為每一類的實(shí)體指定1個(gè)或多個(gè)公共上位詞。

    通常是與實(shí)體對(duì)齊任務(wù)一起進(jìn)行:對(duì)知識(shí)可信度進(jìn)行量化,保留置信度較高的,舍棄置信度較低的。

    主要包括模式層的更新與數(shù)據(jù)層的更新。

    一階謂詞邏輯、描述邏輯以及規(guī)則等

    (1)一階謂詞邏輯:以命題為基本,命題包含個(gè)體(實(shí)體)和謂詞(屬性或關(guān)系)。

    (2)基于描述邏輯的規(guī)則推理:在(1)的基礎(chǔ)上發(fā)展而來(lái),目的是在知識(shí)表示能力與推理復(fù)雜度之間追求一種平衡。

    (3)通過(guò)本體的概念層次推理。

    一些算法主要是 利用了關(guān)系路徑 中的蘊(yùn)涵信息:

    通過(guò)圖中兩個(gè)實(shí)體間的多步路徑來(lái)預(yù)測(cè)它們之間的語(yǔ)義關(guān)系,即從源節(jié)點(diǎn)開(kāi)始,在圖上根據(jù)路徑建模算法進(jìn)行游走,如果能夠到達(dá)目標(biāo)節(jié)點(diǎn),則推測(cè)源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)間存在聯(lián)系。

    ( 關(guān)系路徑的建模研究仍處于初期階段,需要進(jìn)一步探索完成 )

    參考文獻(xiàn):

    [1]徐增林,盛泳潘,賀麗榮,王雅芳.知識(shí)圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報(bào),2016,45(04):589-606.

    222922