必威电竞|足球世界杯竞猜平台

語義網
來源:互聯網

簡單地說,語義網是一種能理解人類語言的智能網絡,它不但能夠理解人類的語言,而且還可以使人與電腦之間的交流變得像人與人之間交流一樣輕松。它好比一個巨型的大腦,智能化程度極高,協調能力非常強大。在語義網上連接的每一部電腦不但能夠理解詞語和概念,而且還能夠理解它們之間的邏輯關系,可以干人所從事的工作。它將使人類從搜索相關網頁的繁重勞動中解放出來,把用戶變成全能的上帝。語義網中的計算機能利用自己的智能軟件,在萬維網上的海量資源中找到你所需要的信息,從而將一個個現存的信息孤島發展成一個巨大的數據庫。

簡介

“語義網”是計算機和互聯網界在描述下一階段網絡發展時所使用的術語。所謂“語義”就是文本的含義。語義網就是能夠根據語義進行判斷的網絡,也就是一種能理解人類語言,可以使人與電腦之間的交流變得像人與人之間交流一樣輕松的智能網絡。通過“語義網”,可以構建一個基于網頁內數據語義來進行連接的網絡,從而使網絡能按照用戶的要求自動搜尋和檢索網頁,直至找到所需要的內容。

在語義網中,網絡變得聰明了,似乎被置入了某些推理能力。或許將來某個時候,具備人工智能的軟件代理人會替你在線處理所有繁雜的商業和個人事務。

語義網是萬維網的延伸,不僅可用自然語言表現網絡內容,而且這些內容還可以被軟件代理人(software?agent)所閱讀和使用。萬維網的創始人蒂姆·伯納斯·李將網絡看做一種數據、信息和知識交換的萬有媒介,可以說,語義網完全符合他的這一夢想。

語義網的第二個重要元素是促進生產力。一旦計算機知道您的參數并且它在網上有一個語義描述,它就能根據規則給你一個精確,私人化的結果。更加困難的是,您個人的愛好是一個從電腦返回的數據的過濾器:?找一個預算在3000元以下的旅行計劃,如果這些都實現了,那我們可以宣布語義網時代已經到來了。

基本特征

1、語義網不同于現在WWW,它是現有WWW的擴展與延伸。

2、現有的WWW是面向文檔而語義網則面向文檔所表示的數據。

3、語義網將更利于計算機“理解與處理”,并將具有一定的判斷、推理能力。

4、內容的可獲取性,即基于本體論而構建的語義網網頁目前還很少。

5、本體的開發和演化,包括用于所有領域的核心本體的開發、開發過程中的方法及技術支持、本體的演化及標注和版本控制問題。

6、內容的可擴展性,即有了語義網的內容以后,如何以可擴展的方式來管理它,包括如何組織、存儲和查找等。

7、多語種支持。

8、本體語言的標準化。

體系結構

第一層

第一層:Unicode和URI。Unicode是一個字符集,這個字符集中所有字符都用兩個字節表示,可以表示65536個字符,基本上包括了世界上所有語言的字符。數據格式采用Unicode的好處就是它支持世界上所有主要語言的混合,并且可以同時進行檢索。URI(Uniform?Resource?Identifier),即統一資源定位符,用于唯一標識網絡上的一個概念或資源。在語義網體系結構中,該層是整個語義網的基礎,其中Unicode負責處理資源的編碼,URI負責資源的標識。第二層

第二層:XML+NS+XMLschema。XML是一個精簡的SGML,它綜合了SGML的豐富功能與HTML的易用性,它允許用戶在文檔中加入任意的結構,而無需說明這些結構的含意。NS(Name?Space)即命名空間,由URI索引確定,目的是為了避免不同的應用使用同樣的字符描述不同的事物。XMLSchema是DTD(Document?Data?Type)的替代品,它本身采用XML語法,但比DTD更加靈活,提供更多的數據類型,能更好地為有效的XML文檔服務并提供數據校驗機制。正是由于XML靈活的結構性、由URI索引的NS而帶來的數據可確定性以及XML?Schema所提供的多種數據類型及檢驗機制,使其成為語義網體系結構的重要組成部分。該層負責從語法上表示數據的內容和結構,通過使用標準的語言將網絡信息的表現形式、數據結構和內容分離。第三層

第三層:RDF+rdfschema。RDF是一種描述WWW上的信息資源的一種語言,其目標是建立一種供多種元數據標準共存的框架。該框架能充分利用各種元數據的優勢,進行基于Web?的數據交換和再利用。RDF解決的是如何采用XML標準語法無二義性地描述資源對象的問題,使得所描述的資源的元數據信息成為機器可理解的信息。如果把XML看作為一種標準化的元數據語法規范的話,那么RDF就可以看作為一種標準化的元數據語義描述規范。Rdfschema使用一種機器可以理解的體系來定義描述資源的詞匯,其目的是提供詞匯嵌入的機制或框架,在該框架下多種詞匯可以集成在一起實現對Web資源的描述。第四層

第四層:本體論?vocabulary。該層是在RDF(S)基礎上定義的概念及其關系的抽象描述,用于描述應用領域的知識,描述各類資源及資源之間的關系,實現對詞匯表的擴展。在這一層,用戶不僅可以定義概念而且可以定義概念之間豐富的關系。第五至七層

第五至七層:Logic、Proof、Trust。Logic負責提供公理和推理規則,而Logic一旦建立,便可以通過邏輯推理對資源、資源之間的關系以及推理結果進行驗證,證明其有效性。通過Proof交換以及數字簽名,建立一定的信任關系,從而證明語義網輸出的可靠性以及其是否符合用戶的要求。

研究現狀

我們知道,大部分科技創新和突破是對已有知識的重新組合和更新,具有對網絡空間所儲存的數據進行智能評估能力的語義網,必然會為新的科技創新提供無盡的資源。一旦這種技術被廣泛運用,其產生的效益無可估量。因此,語義網從誕生之日起,便成為計算機研究的熱點領域。

W3C組織(WorldWideWebConsortium)是語義網主要的推動者和標準制定者,在它的呵護之下,語義網技術羽翼漸豐。2001年7月30日,美國斯坦福大學召開了題為“語義網基礎設施和應用”的學術會議,這是有關語義網的第一個國際會議。2002年7月9日,在意大利召開了第一屆國際語義網大會。此后語義網大會每年舉行一次,形成慣例。同時,HP、IBM、微軟富士通株式會社等大公司,斯坦福大學、馬里蘭大學、德國卡爾斯魯厄理工學院、英國曼徹斯特大學等教育機構都對語義網技術展開了廣泛深入的研究,開發出了jena、KAON、Racer、Pellet、Protégé等一系列語義網技術開發應用平臺、基于語義網技術的信息集成以及查詢、推理和本體編輯系統。

中國也非常重視語義網的研究,早在2002年,語義網技術就被國家863計劃列為重點支持項目,清華大學東南大學、上海交通大學和中國人民大學都是國內語義網及其相關技術的研究中心。東南大學的語義網本體映射研究有一定的國際影響,清華大學的語義網輔助本體挖掘系統SWARMS、上海交通大學的本體工程開發平臺ORIENT都代表了國內語義網研發水平。

技術應用

語義網一開始就肩負著改造現有萬維網的重任,它正在逐漸改變和影響我們現有的萬維網。RSS、CC以及Powerset這些語義網支撐技術都讓我們切實感受到了迎面撲來的語義Web之風,使我們普通用戶享受到了語義網技術所帶來的便捷,聽到了它越來越近的腳步聲。

RSS是目前最成功的以語義網支撐技術為基礎的應用,是站點用來和其他站點共享內容的一種簡易方式。用戶只要安裝rss閱讀器,它就會自動收集和組織用戶定制的新聞,按照用戶希望的格式、地點和時間直接傳送到用戶的計算機上。目前國內外大型門戶網站如新浪搜狐、網易等都支持RSS應用,標記為“XML”或“RSS”的橙色圖標就是該網站支持RSS應用的記號。

知識共享(CC)版權識別是語義網技術的另一個現實應用。非營利性組織“知識共享組織”旨在為創造性作品提供靈活的著作權許可協議。2006年3月,中國大陸版CC發布。基于語義網支撐技術RDF的CC搜索引擎,能自動識別和理解作品版權信息,為用戶合法使用具有不同級別的知識產權網絡作品提供了極大方便,例如在線圖片存儲網站巴巴變(bababian.com)就已經集成了CC中國大陸版許可協議,“巴巴變”的用戶可以選擇知識共享中國大陸項目提供的許可協議,授權他人使用自己擁有著作權的圖片作品。

剛問世就被稱為“谷歌殺手”的Powerset,則是巴尼·佩爾(BarneyPell)追逐的一個關于自然語言搜索引擎的夢想。38歲的佩爾認為,Google只能通過關鍵字來搜索,不能分辨“兒童看的書”、“兒童寫的書”和“關于兒童的書”之間的區別,而自然語言引擎卻能夠分析“功能詞”,理解哪怕是最小的關鍵詞的意思。他相信Powerset搜索引擎很快就可以推向市場,成為語義網的催化劑。

除了上述語義網技術的成功應用外,目前有希望的語義網應用研究還集中在Web服務、基于代理的分布式計算以及基于語義的數字圖書館等方面。

語義網雖然是一種更加美好的網絡,但實現起來卻是一項復雜浩大的工程。面對紛繁復雜的問題,人尚且難以決斷,更何況計算機呢。況且,決定技術發展方向的是用戶體驗,而不是理論。要真正實現實用的語義網,還有很多難題亟待解決,有些暫時還看不到解決的希望。語義網的研究開發基本上還停留在實驗室階段,成熟的語義網技術商業應用產品并不多見,各大軟件生產商對其應用還處于觀望期。但是,隨著對語義網體系結構、支撐技術和實現方法的不斷突破,基于語義網支撐技術的相關應用會日趨成熟,在不久的將來,計算機一定能看懂并處理網頁中的內容,伯納斯·李所期盼的人們將更方便快捷地使用萬維網發布和獲取信息的理想,也一定會成為現實。

未來面臨的挑戰

1?第一代Web

WWW?(World?Wide?Web),又稱萬維網,簡記為Web,是構建在Internet上采用瀏覽器/服務器網絡計算模式,訪問遍布在Internet計算機上所有鏈接文件。1989年,在日內瓦歐洲粒子物理實驗室工作的蒂姆·李發明了最初的Web。第一代Web發明了超文本格式,把分布在網上的文件鏈接在一起。這樣用戶只要在圖形界面上點擊鼠標,就能從一個網頁跳到另一個網頁,使得通過互聯網瀏覽文檔成為可能,這時的Web以HTML語言、URL和HTTP等技術為標志,以靜態頁面的平臺形式來展現信息。2?第二代Web

第二代Web以動態HTML語言、ECMAScriptVBScript、ActiveX、API、CGI等技術為標志。它允許用戶通過交互查詢數據庫并將數據庫中符合要求的結果動態地生成頁面,展示給用戶。這極大增強了Web處理大規模數據的能力。Web由一個展示信息的平臺真正變成了信息處理的平臺,極大促進人們的信息交流與共享。3?第三代Web

Web是一個龐大的知識庫,Web已經成為人類獲取信息和得到服務的主要渠道之一。但是Web并非已經盡善盡美,仍然存在很多尚待解決的問題。

3.1Web信息無法被自動處理。當前的Web無論是靜態的HTML網頁,還是動態生成的網頁,其目的都是供人閱讀。以往的Web技術都忽略了計算機的處理作用,計算機在其中主要扮演了展現信息的作用,而沒有理解和處理Web信息的能力。

3.2Web信息無法被有效利用。面對Web龐大的知識庫,對信息的有效利用提出了巨大挑戰。基于傳統技術的搜索引擎已經無法應對Web這個日益龐大的知識庫。以最強大的搜索引擎谷歌來說,它目前能搜索80億之多的Web頁面,但這僅僅占整個Web規模的25%~30%,也就是說還有大量的信息無法被搜索到。同時,由于計算機無法精確識別Web上的內容,當前搜索引擎返回的結果中,存在許多垃圾信息,搜索結果和質量并不令人滿意。

由此可見,現在的Web只是定位和展示信息的作用,對信息的內容并不關心。而事實上,人們真正關心的是信息的內容。只有對信息內容的含義進行描述,才能實現智能化的Web服務。為此,蒂姆·李在2000年又提出了語義網。所謂“語義”,就是文本的含義。“語義Web”,就是能夠根據語義進行判斷的網絡。簡單地說,語義Web是一種能理解人類語言的智能網絡,被人們稱為第三代Web。在語義網環境下,Web上定義和鏈接的數據不僅能顯示,而且可以被機器自動處理、集成和重用。只有當數據不僅可以被人而且可以被機器自動地共享和處理的時候,Web的潛力才發揮到極致。

根據Berners-Lee的設想,語義網是由一種分層的體系結構構成,如圖1所示。這是一個功能逐層增強的層次化結構,由七個層次構成。

(1)URI和Unicode。URI是Web的核心概念之一,它能夠唯一地標識Web上的任意一個資源,其思想是在需要的時候通過鏈接引用資源,因此不需要對資源進行拷貝或集中管理。Unicode是一種新的字符編碼標準,它支持世界上所有的語言。無論在什么平臺上,無論在什么程序中,無論使用什么語言,每個字符都對應于一個唯一的Unicode編碼值。因此,它是語義網多語種支持的基礎。

(2)XML、名稱空間(NS)和XML?Schema。XML提供文檔結構化的語法,實現了文檔結構與文檔表現形式的分離,根據不同的目的同一個文檔可以有不同的表現形式。XML名稱空間是名稱的一個集合,用于文檔元素和屬性名有效性的驗證,由URI引用來標識。XML?Schema是約束XML文檔結構的語言。

(3)RDF(S)。XML實現了文檔結構化,但文檔信息并不包含任何語義。RDF數據模型提供簡單的語義,RDF屬性可以看作是資源的屬性,同時又表達了資源之間的關系,因此RDF數據模型對應于傳統的屬性二值對,又類似于ER圖。RDF?Schema為RDF模型提供了一個基本的類型系統,其目的就是定義資源的屬性,定義被描述資源的類,并對類和關系的可能組合進行約束,同時提供約束違例的檢測機制。

(4)本體層。雖然RDF(S)能夠定義對象的屬性和類,并且還提供了類的泛化等簡單語義,但它不能明確表達描述屬性或類的術語的含義及術語間的關系。本體層就是要提供一個能明確的形式化語言,以準確定義術語語義及術語間關系。

(5)邏輯、證明和信任。除了本體層定義的術語關系和推理規則外,還需要有一個功能強大的邏輯語言來實現推理。證明語言允許服務代理在向客戶代理發送斷言的同時將推理路徑也發送給客戶代理。這樣應用程序只需要包含一個普通的驗證引擎就可以確定斷言的真假。但是,證明語言只能根據Web上已有的信息對斷言給出邏輯證明,它并不能保證Web上所有的信息都為“真”。因此,軟件代理還需要使用數字簽名和加密技術用來確保Web信息的可信任性。

(6)數字簽名和加密。數字簽名簡單地說就是一段數據加密塊,機器和軟件代理可以用它來唯一地驗證某個信息是否由特定的可信任的來源提供。它是實現Web信任的關鍵技術。公共密鑰加密算法是數字簽名的基礎。

語義Web最大優點是可讓計算機具有對網絡空間所儲存的數據,進行智能評估的能力。這樣,計算機就可以像人腦一樣“理解”信息的含義,完成“智能代理”的功能。使用語義Web?搜索引擎搜索的結果比Web更為精確。

語義Web提供了一種嶄新的信息描述和知識表達的手段,而要在語義層次上實現信息的互操作,就需要對信息涵義的理解達成一致。語義Web采用了本體(本體論)的思想,本體描述的是具有共識的、概念化的事物,它對實現語義層次上的知識共享、知識重用發揮著核心作用。

語義Web具有一些基本特征:a.語義Web不同于現有Web,它是現有Web的擴展與延伸;b.現有的Web面向文檔,而語義Web則面向文檔所表示的內容和語義(獨立于表示的語法);c.語義Web將更利于計算機“理解與處理”,并將具有一定的判斷推理能力。

語義Web的目標是讓Web上的信息能夠被機器理解,從而實現Web信息的自動處理,以適應Web信息資源的快速增長,更好地實現人和計算機的交互與合作。近年來,無論在國際上,還是在國內,人們對語義Web及其關鍵技術和應用的研究正在如火如荼,語義Web的支撐軟件與應用開發日益受到重視,語義Web被看作是新一代的信息基礎設施,被人們稱為第三代Web。

語義Web汲取人工智能、哲學和邏輯學等學科的研究成果,試圖對Web上的信息和獲取方式進行重大改進,解決目前Web存在的問題。雖然語義Web未來的發展難以預測,但人類應該對所有的可能做出努力。也許正如語義網領域內的一種說法,就算人類只能解決1%的問題,隨著Web的普遍使用,也將會給社會帶來巨大的效益。我們期待著語義網的美好明天將會早日到來。

相關產品

1、Freebase

2010年七月,谷歌收購了一家語義技術領先公司Metaweb。Metaweb運營著一個開放的語義信息數據庫Freebase。Freebase和維基百科類似,不同的是,它完全專注于結構化數據及個人用戶可行性操作。Google此前已和Freebase建立合作關系,引入Freebase的信息,在谷歌新聞里提供智能搜索結果。在完成對Metaweb的收購后,谷歌現在可以更充分地利用Freebase的工具和數據,尤其是在基本的Web搜索結果范疇。Freebase也是去年語義網十大產品之一,能被谷歌收購,正是其發展潛能的證明。

2、GetGlue

對GetGlue來說,2010年是個轉折點。在GetGlue網上,用戶在觀看電視節目、閱讀書籍、聽音樂時候都可以“簽到”。去年十一月,GetGlue改換品牌名稱,并啟用新網站。一夜之間,它從一個名為Blue?Organizer的瀏覽器插件搖身變為名為“GetGlue”的目標網站。隨后不久,它又推出了移動應用程序,用戶在觀看電視時或者在娛樂場所都能登錄應用GetGlue。品牌變更給GetGlue帶來良好的效應。今年,GetGlue的用戶量呈現出強勁的增長勢頭,截至九月末用戶人數已超過60萬。3、Flipboard

2010年iPad的問市激起了應用軟件界新一波的革新浪潮。Flipboard是一款專為iPad開發的雜志閱讀應用程序。很少有創業公司能像Flipboard如此充分地利用觸摸屏用戶界面,為客戶創造無與倫比的體驗。原來Flipboard不僅外觀精美,而且采用了語義技術。Flipboard收購了語義技術新創公司Ellerdale,其智能資料剖析算法在此之前已被應用于實時搜索引擎的創建及趨勢追蹤。Ellerdale公司的技術被Flipboard用于設計更具個性化的實時體驗,能夠為您選擇重要的最新社會新聞,然后以您熟悉的酷似雜志的布局呈現出來。4、Hunch

Hunch最初提供問答(Q&A)服務,今年八月它進行了重新定位,將自己定義為一個提供個性化服務的產品:是能向你展示你喜歡的電影、書籍、度假地點及其他類似項目的推薦引擎。該公司的目標是“將互聯網上的每個人和每個目標進行比配,即使是一個產品、一項服務、一個人。”共同創始人Caterina?Fake十月份透露,Hunch通過另一種搜索方式即決策樹模型,為用戶提供更多個性化信息。

5、Apture

Apture是一家提供語義語境搜索引擎服務的公司,它一直保持著強勁發展的勢頭(去年它也位列十大語義網產品之一)。今年八月,Apture推出了一款新插件Apture?Highlights,能讓用戶深入了解在網絡上任一網頁上發現的主題。早幾年前,當我們第一次關注Apture時,它還只是一家網絡服務公司,要求發布者上傳彈出式窗口鏈接時自我選擇是否加載多媒體。隨著八月份Apture?Highlight的問世,Apture現已消除此項限制。一切均自動化,此插件幾乎處處可用。

6、Facebook

四月份Facebook公布了一個大規模的新平臺Open?Graph(開放圖譜),這成為語義網本年度最重大的新聞。Open?Graph通訊協定的預期目標是讓發布者能夠將個人網頁整合到社交圖中去。實質上,現在每個網頁都可以成為一個Facebook的社交圖“對象”(社交圖是Facebook對于人們在其網絡系統中如何聯系彼此所用的專業術語。)這意味著在所有社交網用戶個人資料頁、博客文章、搜索結果、Facebook個人主頁信息流等等中的網頁都可以被引用和相關聯。Open?Graph是一個涉獵廣泛的平臺,包括諸如“贊”按鈕和為發布商提供的插件等。它還包括一個簡單的、基于RDF的標記。這就要求發布者的每個發布項至少包含4個元數據屬性:名稱、類型、圖像、網址,還有一些額外的屬性,如:域名和描述,可能有選擇地進行補充和說明。

7、谷歌?Squared

在網絡搜索技術中人們夢寐以求的目標是能夠以自然的語言提出一個簡單的問題,并得到一個簡單的答案。五月份,Google宣布將Google?Squared添加到其搜索結果中。2009年推出的Google?Squared為Google的搜索結果添加了額外的信息。Google通過兩個層面將該功能添加到其傳統搜索結果中:首先,簡單的查詢,如:凱瑟琳·澤塔-瓊斯的出生日期,這將在搜索結果中引出有用的數據:通過點擊基于Squared提供的結果的“顯示來源”,來源列表會向您顯示Google是如何找到這個答案的。其次,谷歌?Squared還被用于為Google工具條(2010年搜索巨頭的另一創新)增加“不一樣”的新功能:此功能提供了相關搜索,列出您可能感興趣的清單,由您確定當前的搜索關鍵詞。Google也通報了Rich?Snippets功能上的增強,Rich?Snippets功能同樣也為谷歌的搜索結果增添了新信息——點評類數據。

8、百思買

2010年的熱議主題之一是語義網技術越來越多的被Facebook和谷歌這類大型商業公司所用。美國領先的零售商百思買(Best?Buy)是另一個在2010年憑借運用語義技術給人們留下深刻印象的大公司。具體來說,Best?Buy采用了RDFa的語義網標記語言,從而向網頁中加入語義。

BestBuy.com首席網站開發工程師Jay?Myers今年早些時候接受讀寫網采訪時說,使用語義技術的主要目標是提高BestBuy產品和服務的知名度。通過使用RDFa標記如商店名稱、地址、商店營業時間和地理數據的數據,搜索引擎能夠更容易的確定每個組件數據,從而將它們投入語境。Myers告訴我們,語義技術的使用,使得交易量增加,而他們也能更好的服務于客戶。

9、Data..govuk

2010年一月,由女王陛下政府支持的Data.gov.uk發布非個人數據采集應用,可供軟件開發商使用。半年后,美國政府推出了Data.gov,但是從一開始這個網站就擁有三倍以上的數據。發布時,Data.gov.uk已有近3000套數據集可供開發商用于混搭。到今年年底,數據集已超過4600。Data.gov.uk是鏈接數據庫的亮點之一。組織或政府向網絡上傳數據時,以能夠被再次使用和建立的形式進行上傳。鏈接數據庫僅是廣泛語義網發展的一小子集。

10、英國廣播公司世界杯網

2010年體育界的盛事就是被媒體廣泛報道的世界杯。BBC2010年南非世界杯網站采用“動態語義發布”技術來提升加強其每日世界杯報道。該網站有700多個專題網頁,都由一個語義發布框架所支持。它包含一個綜合本體(即一個概念圖),動態輸出自動化元數據驅動網頁。這是一個讓人印象深刻的實證:一個大型的主流的網站是怎樣增加意義及結構的?

參考資料 >

互聯網 2010年十大語義網產品 2010-12-04.www.alibuybuy.com.2010-12-31

生活家百科家居網