知識圖譜,知識圖譜構建工具
推薦文章
什么是知識圖譜
知識圖譜,是通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現(xiàn)分析等方法結合,并利用可視化的圖譜形象地展示學科的核心結構、發(fā)展歷史、前沿領域以及整體知識架構達到多學科融合目的的現(xiàn)代理論。
基礎知識-知識圖譜
知識圖譜的構建形式:
自頂向下:先為知識圖譜定義好本體與數據模式,再將實體加入到知識庫。
自底向上(常用) :從一些開放鏈接數據中提取出實體,選擇其中置信度較高的加入到知識庫,再構建頂層的本體模式。
(1)語義信息抽??; (2)多元數據集成與驗證(知識融合); (3)知識圖譜補全
知識庫分類:
開放鏈接知識庫:Freebase、Wikidata、DBpedia、YAGO。包含大量半結構化、非結構化數據。
垂直行業(yè)知識庫(特定領域):IMDB(影視)、MusicBrainz(音樂)、ConceptNet(概念)等。
基于規(guī)則與詞典的方法(為目標實體編寫模板,然后進行匹配):編寫大量規(guī)則或模板,覆蓋領域有限,難以適應新需求
基于統(tǒng)計機器學習的方法(機器學習,訓練模型,識別實體):監(jiān)督學習算法受訓練集限制,準確率和召回率不夠理想
( 召回率:真陽性 / 真陽性 + 假陽性;準確率:真陽性 + 真陰性 / 真陽性 + 假陽性 + 真陰性 + 假陰性 )
面向開放域的抽取方法(面向海量的Web語料):通過少量實體實例建立特征模型,再通過它應用于新的數據集,給新實體做分類與聚類。(迭代擴展)
早期:人工構造語義規(guī)則以及模板的方式;
實體間的關系模型代替了早期的人工構造;
面向開放域的信息抽取框架(OIE):對隱含關系抽取性能低下。
( 隱含關系抽?。夯隈R爾科夫邏輯網、基于本體推理的深層隱含關系抽取方法 )
可以將實體屬性的抽取問題轉換為關系抽取問題
分布式表示 目的在于用 一個綜合的向量來表示實體對象的語義信息 ,這種形式在知識圖譜的計算、 補全 、推理等方面起到重要的作用:
1、語義相似度計算:實體間的語義關聯(lián)程度,為自然語言處理(NLP)等提供了極大的便利
2、
消除異構數據中實體沖突、指向不明等不一致性問題。
(1)待對齊數據分區(qū)索引;
(2)利用相似度函數或相似性算法查找匹配實例;
(3)對齊算法(成對實體對齊、全局(局部)集合實體對齊)進行實例融合。
經過實體對齊后得到一系列的基本事實表達,然后事實并不等于知識,它只是知識的基本單位。
本體相當于知識庫的模具,使其具有較強的層次結構和較小的冗余程度。
可分為人工構建和數據驅動自動構建。
數據驅動的本體自動構建:
①縱向概念間的并列關系計算:計算兩個實體間并列關系的相似度,辨析他們在語義層面是否屬于同一個概念。
②實體上下位關系抽取。
③本體生成:對各層次得到的概念進行聚類,并為每一類的實體指定1個或多個公共上位詞。
通常是與實體對齊任務一起進行:對知識可信度進行量化,保留置信度較高的,舍棄置信度較低的。
主要包括模式層的更新與數據層的更新。
一階謂詞邏輯、描述邏輯以及規(guī)則等
(1)一階謂詞邏輯:以命題為基本,命題包含個體(實體)和謂詞(屬性或關系)。
(2)基于描述邏輯的規(guī)則推理:在(1)的基礎上發(fā)展而來,目的是在知識表示能力與推理復雜度之間追求一種平衡。
(3)通過本體的概念層次推理。
一些算法主要是 利用了關系路徑 中的蘊涵信息:
通過圖中兩個實體間的多步路徑來預測它們之間的語義關系,即從源節(jié)點開始,在圖上根據路徑建模算法進行游走,如果能夠到達目標節(jié)點,則推測源節(jié)點和目標節(jié)點間存在聯(lián)系。
( 關系路徑的建模研究仍處于初期階段,需要進一步探索完成 )
參考文獻:
[1]徐增林,盛泳潘,賀麗榮,王雅芳.知識圖譜技術綜述[J].電子科技大學學報,2016,45(04):589-606.
什么是知識圖譜?有哪些模型?指標?規(guī)則?
“圖譜”的時代
知識圖譜自從2012年開始發(fā)酵,愈演愈烈,行業(yè)頂端的佼佼者紛紛發(fā)布企業(yè)知識圖譜應用,知識圖譜能為企業(yè)實現(xiàn)數據價值。只能說,圖技術快速發(fā)展,業(yè)務需求不論變化與否,知識圖譜是不可阻擋的趨勢。2020年4月20日,國家發(fā)改委明確人工智能 “新基建” 的內涵,體現(xiàn)“重創(chuàng)新、補短板”的特征:助力傳統(tǒng)基礎設施智能化改造,提高傳統(tǒng)基礎設計的運行效率。
圖1?中國知識圖譜效益增長規(guī)?!鹱稍?/p>
當前的人工智能其實可以簡單劃分為感知智能(主要集中在對于圖片、視頻以及語音的能力的探究)和認知智能( 涉及知識推理、因果分析等)。
人工智能是新基建的重點領域,而知識圖譜是認知智能的底層支撐。 知識圖譜具有解釋數據、推理和規(guī)劃一系列人類的思考認知能力,基于大規(guī)模,關聯(lián)度高的背景知識。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ————《面向人工智能“新基建”的知識圖譜行業(yè)白皮書》?
我們每天都在用知識圖譜
知識圖譜應用于各個領域,例如:電商(產品推薦)、醫(yī)療(智能診斷)、金融(風控)、證券(投研)。知名企業(yè)包括:Google Knowledge Graph、美團大腦、阿里巴巴·藏經閣計劃、騰訊云·知識圖譜 TKG等。
知識圖譜在人工智能多個領域發(fā)揮重要作用:語義搜索、智能問答、輔助語言理解、輔助大數據分析、增強機器學習的可解釋性、結合圖卷積輔助圖像分類等。同時,這也意味著技術難度大幅度增加。
知識圖譜的價值
您可能會以為知識圖就是捕獲和管理知識的最終目的。其實,知識圖擅長以自上而下的 關系連接方式顯式捕獲知識 。通過關系節(jié)點聯(lián)系上下游關系,清楚的梳理關系網絡。如下圖:
圖2?普適智能知識中臺
高效直觀地刻畫目標主體(如企業(yè)、事件等)之間地關聯(lián)網絡,從而全維度地對企業(yè)進行畫像,立體復現(xiàn)主體的真實情況和錯綜復雜的關系。其強大的互聯(lián)組織能力和可視化決策推理支持,為企業(yè)資產提供底層基礎。普適智能一站式“圖智能”應用, 擁有打開“百竅”的能力, 具體有以下幾方面的思考:
深度鏈接分析 有機可尋
拿我們最熟悉的金融領域舉例,知識圖譜常見的實體包括公司、產品、人員、相關事件等,常見的關系包括股權關系、任職關系、供應商關系、上下游關系、競爭關系等等。
這樣做的好處就是,通過知識圖譜的整合,讓原本復雜的數據形成直觀易懂的可視化圖譜,?在全球經濟一體化的趨勢下,分析師以及投資機構很可能先人一步觀察到競爭格局的改變,為尋找 新客戶、新投資機會提供線索。
圖3?企業(yè)上下游關系網絡
多維度屬性? 順藤摸瓜
知識圖譜的另一個價值是“可以簡單地處理多維度數據”。 目前在普適智能幫客戶分析超百億的實體(或節(jié)點)和關系(或邊緣)。
圖4 某股份制商業(yè)銀行基金產品關系網絡截圖
“對于實益擁有權,我們經常會看到擁有六,七層或更多層的擁有權階層,尤其是在像中國這樣擁有大型企業(yè)的地方。”?“人們必須意識到一個擁有可以處理并查詢至少六到七層(如果沒有更多層)的拿手工具是解決問題的真正核心?!?/p>
每個公司、個人、新聞事件都可以是一個“點”,人工智能引擎可將這些點進行聚集,對其中的相關性、相似度以及聚集程度進行多維度分析, 還原真實場景 ,才能 “順藤摸瓜”。
圖5 反欺詐圖應用
例如知識圖譜在傳統(tǒng)的風險管理流程中,多通過對目標主體簡單維度的特征進行嚴格審核,無法判斷真實的關聯(lián)風險。
挑戰(zhàn)與機會
普適智能深耕于金融領域,其細分業(yè)務場景包含但不限于:反欺詐、反洗錢、盜刷排查、失聯(lián)催收、外匯異常監(jiān)控、信用審核等,舉個具體項目中的例子:因圖構建本身流程較長,再加上每個場景的圖構建相對的獨立,給數據反復開發(fā),數據不連通創(chuàng)造了必要條件, 繞不過去的是大量企業(yè)資產成本浪費問題。
圖6?傳統(tǒng)關系網絡應用的構建模式
在工程落地方面,還存在圖譜建設周期長,應用構建專業(yè)程度高,跨行業(yè)遷移成本高等難題。由此帶來的挑戰(zhàn)會體現(xiàn)在—— 產品是否可以開箱即用 。
普適智能中臺化思路
為了解決以上問題,普適智能自主研發(fā)將知識圖譜構建與應用平臺升級為一站式的“圖智能”中臺。
圖7?傳統(tǒng)關系網絡應用的構建模式
一套中臺和工廠模式平臺的孕育而生,確保各式的場景對圖不同形態(tài)的需求和保證聯(lián)合查詢需求。“一竅通,百竅通”,一站式“圖智能”中臺就是“那一竅”,以下:
打通業(yè)務場景獨立圖譜構建 ,減少反復開發(fā)周期成本,為傳統(tǒng)應用形態(tài)賦能,提升服務質量和效率,簡單的圖應用可以在 1~2天 內實現(xiàn),復雜的圖應用可以在傳統(tǒng)做法上縮短到 三分之一 ,加速企業(yè)資產的累積;
配合著打通部門數據 ,解決跨部門合作溝通周期長、配合難的問題;
圖譜交互友好程度高,可視化決策輔助業(yè)務場景,更易發(fā)現(xiàn) 隱藏的信息 ;
賦能專家行業(yè)專家,將領域專家的行業(yè)經驗的程序化,留存在平臺, 企業(yè)知識資產沉淀。
實時可擴充 ,彈性十足
知識圖譜中臺的價值還在于靈活可擴充,建立實時敏捷、靈活可擴展、具有彈性的數據基礎。 金融知識圖譜直接反饋金融行業(yè)的剛性需求,由于實際中,企業(yè)數據和業(yè)務變化靈活,數據源、數據結構、數據內容隨時會發(fā)生變動,對業(yè)務的理解以及對數據的解讀也隨之發(fā)生變化。
圖8?多維數據擴展查詢
如何有效的使用這些數據,需要員工具備專業(yè)的金融知識,深刻理解某個數據變動可能引發(fā)的關聯(lián)、傳導,知識圖譜將是最得心應手的工具。
圖技術是 知識圖譜應用的最強彈藥
企業(yè)需要能夠快速支持業(yè)務中迭代式的新模式。普適智能的“圖智能”中臺具有計算引擎: 圖計算模型、圖匹配業(yè)務數據模型等, 助力企業(yè)完成這一目標。
圖規(guī)則計算: (例如:與黑名單客戶共用一個電話的客戶是可疑欺詐客戶)
圖指標計算: (例如:客戶兩度關系內黑名單客戶的比例)
圖機器學習 (以圖作為先驗知識讓特征工程更有效)
社群識別 :標簽預測(黑/潛在VIP客戶預測)
圖9?社區(qū)分析
最短路徑 :優(yōu)化加工路徑,節(jié)約數據加工成本。
圖10?路徑查詢
“工欲善其事,必先利其器” 。普適智能一站式“圖智能”應用,為描繪物理世界生產生活行為提供 有效的方法和工具 。Gartner:“圖時代已經到來”,讓我們一起“圖”起來!
知識圖譜概念是什么?
知識圖譜本質上是語義網絡,是一種基于圖的數據結構,由節(jié)點(Point)和邊(Edge)組成。
知識圖譜又稱為科學知識圖譜,其本質上是語義網絡,是一種基于圖的數據結構,由節(jié)點(Point)和邊(Edge)組成。知識圖譜通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現(xiàn)分析等方法結合。
構建方式
知識圖譜有自頂向下和自底向上兩種構建方式。所謂自頂向下構建是借助百科類網站等結構化數據源,從高質量數據中提取本體和模式信息,加入到知識庫中;所謂自底向上構建,則是借助一定的技術手段,從公開采集的數據中提取出資源模式,選擇其中置信度較高的新模式,經人工審核之后,加入到知識庫中。
以上內容參考:百度百科-知識圖譜
知識圖譜概念是什么?
知識圖譜的概念是:知識圖譜是自頂向下(top-down)的構建方式。自頂向下指的是先為知識圖譜定義好本體與數據模式,再將實體加入到知識庫。
該構建方式需要利用一些現(xiàn)有的結構化知識庫作為其基礎知識庫,例如 Freebase 項目就是采用這種方式,它的絕大部分數據是從維基百科中得到的。
然而目前,大多數知識圖譜都采用自底向上(bottom-up)的構建方式。自底向上指的是從一些開放連接數據(也就是 “信息”)中提取出實體,選擇其中置信度較高的加入到知識庫,再構建實體與實體之間的聯(lián)系。
知識圖譜的體系架構是:
知識圖譜的架構主要包括自身的邏輯結構以及體系架構。
知識圖譜在邏輯結構上可分為模式層與數據層兩個層次,數據層主要是由一系列的事實組成,而知識將以事實為單位進行存儲。
如果用(實體1,關系,實體2)、(實體、屬性,屬性值)這樣的三元組來表達事實,可選擇圖數據庫作為存儲介質,例如開源的 Neo4j、Twitter 的 FlockDB、JanusGraph 等。
模式層構建在數據層之上,主要是通過本體庫來規(guī)范數據層的一系列事實表達。本體是結構化知識庫的概念模板,通過本體庫而形成的知識庫不僅層次結構較強,并且冗余程度較小。
大規(guī)模知識庫的構建與應用需要多種智能信息處理技術的支持。通過知識抽取技術,可以從一些公開的半結構化、非結構化的數據中提取出實體、關系、屬性等知識要素。通過知識融合,可消除實體、關系、屬性等指稱項與事實對象之間的歧義,形成高質量的知識庫。
知識推理則是在已有的知識庫基礎上進一步挖掘隱含的知識,從而豐富、擴展知識庫。分布式的知識表示形成的綜合向量對知識庫的構建、推理、融合以及應用均具有重要的意義。