知識(shí)庫和知識(shí)圖譜,知識(shí)圖譜與圖數(shù)據(jù)庫
推薦文章
什么是知識(shí)圖譜
知識(shí)圖譜,是通過將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法與計(jì)量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合,并利用可視化的圖譜形象地展示學(xué)科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識(shí)架構(gòu)達(dá)到多學(xué)科融合目的的現(xiàn)代理論。
知識(shí)圖譜概念是什么?
知識(shí)圖譜的概念是:知識(shí)圖譜是自頂向下(top-down)的構(gòu)建方式。自頂向下指的是先為知識(shí)圖譜定義好本體與數(shù)據(jù)模式,再將實(shí)體加入到知識(shí)庫。
該構(gòu)建方式需要利用一些現(xiàn)有的結(jié)構(gòu)化知識(shí)庫作為其基礎(chǔ)知識(shí)庫,例如 Freebase 項(xiàng)目就是采用這種方式,它的絕大部分?jǐn)?shù)據(jù)是從維基百科中得到的。
然而目前,大多數(shù)知識(shí)圖譜都采用自底向上(bottom-up)的構(gòu)建方式。自底向上指的是從一些開放連接數(shù)據(jù)(也就是 “信息”)中提取出實(shí)體,選擇其中置信度較高的加入到知識(shí)庫,再構(gòu)建實(shí)體與實(shí)體之間的聯(lián)系。
知識(shí)圖譜的體系架構(gòu)是:
知識(shí)圖譜的架構(gòu)主要包括自身的邏輯結(jié)構(gòu)以及體系架構(gòu)。
知識(shí)圖譜在邏輯結(jié)構(gòu)上可分為模式層與數(shù)據(jù)層兩個(gè)層次,數(shù)據(jù)層主要是由一系列的事實(shí)組成,而知識(shí)將以事實(shí)為單位進(jìn)行存儲(chǔ)。
如果用(實(shí)體1,關(guān)系,實(shí)體2)、(實(shí)體、屬性,屬性值)這樣的三元組來表達(dá)事實(shí),可選擇圖數(shù)據(jù)庫作為存儲(chǔ)介質(zhì),例如開源的 Neo4j、Twitter 的 FlockDB、JanusGraph 等。
模式層構(gòu)建在數(shù)據(jù)層之上,主要是通過本體庫來規(guī)范數(shù)據(jù)層的一系列事實(shí)表達(dá)。本體是結(jié)構(gòu)化知識(shí)庫的概念模板,通過本體庫而形成的知識(shí)庫不僅層次結(jié)構(gòu)較強(qiáng),并且冗余程度較小。
大規(guī)模知識(shí)庫的構(gòu)建與應(yīng)用需要多種智能信息處理技術(shù)的支持。通過知識(shí)抽取技術(shù),可以從一些公開的半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)中提取出實(shí)體、關(guān)系、屬性等知識(shí)要素。通過知識(shí)融合,可消除實(shí)體、關(guān)系、屬性等指稱項(xiàng)與事實(shí)對象之間的歧義,形成高質(zhì)量的知識(shí)庫。
知識(shí)推理則是在已有的知識(shí)庫基礎(chǔ)上進(jìn)一步挖掘隱含的知識(shí),從而豐富、擴(kuò)展知識(shí)庫。分布式的知識(shí)表示形成的綜合向量對知識(shí)庫的構(gòu)建、推理、融合以及應(yīng)用均具有重要的意義。
知識(shí)圖譜概念是什么?
知識(shí)圖譜本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(Point)和邊(Edge)組成。
知識(shí)圖譜又稱為科學(xué)知識(shí)圖譜,其本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(Point)和邊(Edge)組成。知識(shí)圖譜通過將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法與計(jì)量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合。
構(gòu)建方式
知識(shí)圖譜有自頂向下和自底向上兩種構(gòu)建方式。所謂自頂向下構(gòu)建是借助百科類網(wǎng)站等結(jié)構(gòu)化數(shù)據(jù)源,從高質(zhì)量數(shù)據(jù)中提取本體和模式信息,加入到知識(shí)庫中;所謂自底向上構(gòu)建,則是借助一定的技術(shù)手段,從公開采集的數(shù)據(jù)中提取出資源模式,選擇其中置信度較高的新模式,經(jīng)人工審核之后,加入到知識(shí)庫中。
以上內(nèi)容參考:百度百科-知識(shí)圖譜
知識(shí)圖譜(一)
知識(shí)圖譜技術(shù)是人工智能的重要組成部分,其研究的是對人類知識(shí)的獲取、表示、推理、應(yīng)用等技術(shù)。知識(shí)圖譜于2012年5月17日被Google正式提出,其初衷是為了提高搜索引擎的能力,增強(qiáng)用戶的搜索質(zhì)量以及搜索體驗(yàn)。目前,隨著智能信息服務(wù)應(yīng)用的不斷發(fā)展,知識(shí)圖譜已被廣泛應(yīng)用于智能搜索、智能問答、個(gè)性化推薦等領(lǐng)域。知識(shí)圖譜代表的是人工智能認(rèn)知層面的問題,而深度學(xué)習(xí)很大程度上處理感知層面的問題,未來的技術(shù)大趨勢是深度學(xué)習(xí)與知識(shí)圖譜的結(jié)合,實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計(jì)與知識(shí)驅(qū)動(dòng)的結(jié)合,推動(dòng)人工智能的發(fā)展。
1.1 知識(shí)圖譜的定義
在維基百科的官方詞條中:知識(shí)圖譜是Google用于增強(qiáng)其搜索引擎功能的知識(shí)庫 。本質(zhì)上,知識(shí)圖譜是一種揭示實(shí)體之間關(guān)系的語義網(wǎng)絡(luò),可以對現(xiàn)實(shí)世界的事物及其相互關(guān)系進(jìn)行形式化地描述?,F(xiàn)在的知識(shí)圖譜已被用來泛指各種大規(guī)模的知識(shí)庫。
三元組是知識(shí)圖譜的一種通用表示方式,即 G=(E,R,S),其中E={e1,e2,……,e|E|}是知識(shí)庫中的
實(shí)體集合,共包含|E|種不同實(shí)體;R={r,r,……,r } 12 |E|是知識(shí)庫中的關(guān)系集合,共包含 | R | 種不同關(guān)系; S ? E × R × E 代表知識(shí)庫中的三元組集合。三元組 的基本形式主要包括實(shí)體1、關(guān)系、實(shí)體2和概念、屬性、屬性值等,實(shí)體是知識(shí)圖譜中的最基本元素, 不同的實(shí)體間存在不同的關(guān)系。概念主要指集合、 類別、對象類型、事物的種類,例如人物、地理等; 屬性主要指對象可能具有的屬性、特征、特性、特 點(diǎn)以及參數(shù),例如國籍、生日等;屬性值主要指對 象指定屬性的值,例如中國、1988-09-08等