必威电竞|足球世界杯竞猜平台

元數據
來源:互聯網

元數據(Metadata)最抽象的定義是一種用來描述數據的數據,不同領域時元數據的細化定義存在差異。它提高了針對數據對象的定位、管理、檢索、評估、選擇和交互的能力,是數據治理的重要基礎。通過元數據管理,可以準確展現一個組織數據資產的整體視圖。元數據具有描述性、動態性、多樣性、多層次性以及支撐性等特點。

元數據的產生原因是與因特網的發展密切相關的,其主要是為了對網絡信息進行有效管理。元數據最早出現于美國美國航空航天局美國航空與宇宙航行局(National Aeronautics and Space Administration,美國航空航天局)的《目錄交換格式》手冊中,成為支持互通性的數據描述所取得一致的準則。20世紀60年代,杰克·邁耶斯(Jack Myers)定義了元數據的概念,將它稱為“描述數據” 20世紀90年代中期以后,隨著WWW方式和HTML在網站的普及,網絡資源的檢索也遇到了困難,元數據便拓展到了因特網世界。2008年,中國標準化管理委員會在《標準文獻元數據》給出的定義為“元數據定義和描述其他數據的數據”。隨著技術的發展,元數據的安全方面也愈發引起人們的注意,2015年10月,澳大利亞聯邦政府通過了一項有爭議的《強制保留元數據法》,要求電信公司在兩年內保留客戶的元數據。2021年,高德納咨詢公司發布《主動元數據管理市場指南》,首次出現主動元數據的概念,其是指一組能夠持續訪問和處理元數據的功能。

元數據有多種類型,如可以按用途、功能、復雜程度進行分類。其中按元數據的用途,元數據可被分為描述性元數據、結構性元數據、存取控制性元數據和管理性元數據。元數據的結構包括語義結構、內容結構和句法結構。其在管理平臺上又包括包括元數據采集服務、應用開發支持服務、元數據訪問服務、元數據管理服務和元數據分析服務。在應用方面,元數據可以應用于數據治理、數據倉庫、應用系統開發過程、地理遙控數據分析、教育資源以及電子政務組織等方面。

基本定義

元數據是指數據之數據或者代表性的數據,是數據的屬性,有利于信息檢索。在不同的領域中,元數據的定義也存在一定的差異,在軟件構造領域,通常被定義為通過元數據值得改變來改變進程得數據,不同的位置輸入不同的數值的元數據,將得到與原來相同的行為;在圖書館與信息領域,元數據的定義是描述結構化的信息資源,提供圖書等信息資源的一種結構化的數據;在數據倉庫領域,元數據用于描述數據倉庫中數據及其環境的數據,是在建設數據倉庫的過程中所產生的關鍵數據,例如數據源定義、目標定義、變換規則等。

發展歷程

產生背景

元數據的產生原因是與因特網的發展密切相關的,隨著網絡資源的不斷增長,對于網絡信息的有效管理將越來越依賴于元數據的管理,元數據的產生背景可以歸結于以下幾個方面:

發展歷程

元數據最早出現于美國航空與宇宙航行局(National Aeronautics and Space Administration,美國航空航天局)的《目錄交換格式》手冊中,成為支持互通性的數據描述所取得一致的準則。20世紀60年代,為了有效地描述數據集,Jack Myers定義了元數據(Metadata)的概念。根據最簡單的定義,元數據又稱“描述數據”。

1995年,在OCLC(Online Computer Library 內角,OCLC)與國家超級計算機應用中心(National Center for Supercomputer Applications,NCSA)所主辦的“Metadata Workshop”研討會上給出了元數據的基本定義,是指“描述數據的數據”。之后越來越多的領域開始對元數據進行研究。

在20世紀90年代初,檔案學界開始對元數據定義進行研究,其經歷了三個發展階段:第一階段研究認為在電子文件管理中應有元數據的參與,并由美國電子文學專家戴維·比爾曼首先引進電子文件研究領域,對其最初的定義是:元數據是關于數據的數據。第二階段是在實踐基礎上展開了元數據項目研究之后,形成了對元數據的深化認識,例如在英國公共檔案館《電子文件管理指南(1999)》中所提到的,元數據指的是關于某份文件和文件賴以存在的集合體的信息,泛指結構化的描述和著錄數據;第三階段則是根據元數據的實際應用形成對元數據定義的最新成果。

20世紀90年代中期以后,隨著WWW方式和HTML在網站的普及,網絡資源的檢索也遇到了困難,元數據便拓展到了因特網世界。在因特網世界先后產生了包括都柏林核心集(都柏林 Core)、因特網內容挑選平臺(PICS)、因特網館藏(Web collection)、頻道定義格式(CDF)、meta內容框架(MCF)等若干種元數據類型。

2008年,中國標準化管理委員會在《標準文獻元數據》給出的定義為“元數據定義和描述其他數據的數據”。隨著技術的發展,元數據的安全方面也愈發引起人們的注意,2013年,愛德華·斯諾登泄露的情報披露了美國國家安全局(National Security Agency,NSA)和全球主要數字公司收集數據的規模和復雜程度,引發了對元數據的關注,也引發了安全與隱私、公開與封閉、問責與保密之間平衡的大辯論。2015年10月,澳大利亞聯邦政府通過了一項有爭議的《強制保留元數據法》,要求電信公司在兩年內保留客戶的元數據。2016年,高德納咨詢公司發布了第一份元數據管理解決方案包括,指出隨著IoT數據的擴散、大數據數據湖的發展,企業獲取所需數據的需求增加,多類型數據的獲取,映射數據各元素之間的關系越來越受關注。2021年,Gartner發布《主動元數據管理市場指南》,首次出現主動元數據的概念,其是指一組能夠持續訪問和處理元數據的功能。

主要分類

用途分類

按照元數據的用途,元數據可被分為描述性元數據、結構性元數據、存取控制性元數據和管理性元數據。

參考文獻:

功能分類

按照元數據的用途,元數據可被分為管理性元數據、描述性元數據、技術性元數據、保存性元數據和使用性元數據。

參考文獻:

復雜度分類

不同的元數據在結構的復雜程度上是不同的,其可以分為三個級別。

參考文獻:

資源類型分類

元數據可以被應用與各個領域,根據通用領域和專用領域的不同可以對元數據進行劃分。

參考文獻:

文化出版領域分類

按照文化出版領域分為面向非結構化文件格式數據的元數據分類和面向結構化面向結構化關系格式數據的元數據分類。

面向非結構化文件格式數據的元數據分類

非結構化文件格式數據的元數據可分為三類:分別為描述元數據、結構元數據和管理元數據。

參考文獻:

面向結構化關系格式數據的元數據分類

在關系型數據庫和數據倉庫時代,Kimball將元數據劃分為業務元數據、技術元數據和操作元數據。

參考文獻:

特點

元數據具有描述性、動態性、多樣性、多層次性以及支撐性等特點。

元數據區別于其他數據類型的特點有三個:

作用

元數據是描述信息資源或數據等對象的數據,其使用目的在于:識別資源;評價資源;追蹤資源在使用過程中的變化;實現簡單高效地管理大量網絡化數據;實現信息資源的有效發現、查找、一體化組織和對使用資源的有效管理。而元數據主要有以下作用:

元數據是進行數據集成所必需的

一方面,按照一定的規則從各個系統中抽取的數據,將這些數據按照約定俗成的對應關系及轉換規則存儲在元數據知識庫中;另一方面,在系統項目實施過程中,直接建立系統往往費時、費力,因此在實踐當中,人們可能會按照統一的數據模型,首先建設數據集市,然后在各個數據集市的基礎上再建設系統。

元數據有利于提高系統的靈活性

科學技術的高速發展以及企業體系的變化調整,使得信息系統必須具備良好的可擴展功能,隨著變化能夠靈活調整。元數據將業務的工作流、數據流、信息流以一種更為分散、精細的方式重新組織,使得基于元數據開發的源程序調整更為方便,能夠真正做到“以不變應萬變”,提高了系統的靈活性。

元數據定義的語義層能夠幫助用戶理解系統中的數據

系統管理員或開發人員非常熟悉相關開發技術,但是系統的用戶并不一定熟悉,元數據恰恰是用戶與系統的數據聯系的紐帶。系統必須通過元數據,實現業務模型與數據模型之間的映射,把數據以用戶可以理解并需要的方式呈現出來,從而幫助用戶理解和使用系統中的數據。

元數據是保證數據質量的關鍵

元數據具有模塊化的特點,使得底層的數據對于用戶來說具有不“透明”性,造成了用戶在使用的時候,可能會對數據產生懷疑。最終的使用者借助元數據管理系統對各個數據的來龍去脈以及數據抽取和轉換的規則都會進行了解,從而使其產生信任,因此能夠更便捷地、快速地發現數據所存在的質量問題。國際上有學者甚至還在元數據模型的基礎上引入質量維度,從更高的角度上來解決這一問題。

元數據可以支持需求變化

科學技術的高速發展以及企業體系的變化調整,使得企業的需求在不斷地改變。傳統的系統通過需求的變化來改變系統,這種改變比較緩慢,達不到大數據時代變化的需求。如何構造一個隨著需求急速改變而平滑變化的系統,是一個重要問題。成功的元數據管理系統可以實現這種平滑變化,它可以把整個業務的工作流、數據流和信息流有效地結合管理起來,讓系統不十分依賴特定的開發人員,從而提高系統的可變性

結構

元數據結構一般包括三種,分別是語義結構、內容結構及句法結構。

語義結構

語義結構定義元素的具體描述方式,體現元數據的語義特征。例如描述元素時所采用的標準、遵循的描述規范或自定義的描述要求。在元數據中有許多術語,這些術語還有著不同的定義屬性,其主要的術語定義屬性包括:

參考文獻:

內容結構

元數據的內容結構是指元數據中術語之間的關系,在數字圖書館工程元數據應用體系模型中,元數據基本內容結構采用核心集元素、資源類型核心元素、用于具體對象的個別元素三種構成。其中,“核心集元素”是對所有類型資源都通用的元素;“資源類型核心元素”是相對于全部類型資源通用而言,有了更加限定的范疇;“用于具體對象的個別元素”只適用于某些特定類型的資源。

句法結構

元數據的句法結構定義格式結構及其描述方式,例如元素的分區分段組織、元素選取使用規則、元素描述方法、元素結構描述方法等。有時句法結構需要標明元數據是與所描述的數據對象捆綁在一起,還是作為單獨數據存在但以一定形式與數據對象鏈接。句法結構還要描述與相關標準、DTD結構和Namespace等的鏈接關系。

管理

元數據管理是對數據采集、存儲、加工和展現等數據全生命周期的描述信息,可以幫助用戶理解數據關系和相關屬性。元數據管理工具可以了解數據資產分布及產生過程,實現元數據的模型定義并存儲,在功能層包裝成各類元數據功能,最終對外提供應用及展現;此外,它還提供元數據分類和建模、血緣關系和影響分析,方便數據的追蹤和溯源。

元數據管理平臺從功能上主要包括元數據采集服務、應用開發支持服務、元數據訪問服務、元數據管理服務和元數據分析服務。

規范框架

元數據標準是指為描述某一種特定資源的具體數據集而設計的元素集合,該標準一般包括完整描述數據集時所需的數據項的集合、各個數據項語義定義、設計規則以及標記語言的語法規定。不得種類的數據資源具有不同的元數據規范,元數據規范框架是定制某種數據資源的元數據規范的標準,是更為抽象化的元數據。

元數據的規范框架分為三類:基于ISO的模型,基于都柏林核心元數據的模型和基于W3C的RDF的模型。

基于ISO的模型采用ISO/IEC 11179-3標準來規范和標準化數據元素,在ISO/IEC 11179-3標準中,它規定元數據注冊表是支持注冊功能的元數據數據庫。基于ISO的元數據規范框架的核心功能是收集、存儲和提供元數據規范的描述。DESIRE和CORES是基于ISO模型的兩個典型的元數據規范。

基于都柏林核心元數據模型的標準大多是復用并擴展都柏林核心元素集。都柏林核心元素模型是數字資源元數據描述領域中最具影響力的框架之一,其核心元數據元素共15個,分別為資源的貢獻人、覆蓋范圍、創作者、日期、描述、格式、標識符、語言、出版者、關聯、權限、來源、主題、標題、類型。

RDF全稱為資源描述框架,是一種用于描述資源的框架結構。它是萬維網聯盟XML基礎上推出的用于描述資源及其之間關系的語言規范標準,基于RDF的模型使用“資源描述框架”作為元數據規范框架,其語義網和關聯數據技術已應用于許多數據資源的目錄和存儲庫,使用資源描述框架RDF可以更好地實現元數據的機器可讀功能。

應用領域

數據治理

元數據管理是數據治理的基礎,它用于定義和描述數據、數據之間的關系,以及數據如何管理、如何使用。其在數據治理中的實際應用包括:定義和描述業務域、業務主題和數據實體;描述數據結構和數據關系;描述源系統、目標系統、表、視圖、存儲過程和字段屬性;定義和描述數據資產目錄;定義和描述主數據模型的屬性等。

應用系統開發過程

應用系統的開發一般需要3個環境:開發環境、測試環境和生產環境。在應用系統開發上線的過程中,經常會遇到在開發環境測試沒有問題的應用系統,集成到測試環境中或遷移到生產環境中就會出現問題。

通過元數據管理工具對應用系統所涉及的數據模型、庫表結構進行規劃設計,落地系統級邏輯模型;基于反向工程將元數據管理工具中的數據模型導入應用系統開發、測試、生產等環境中,應用系統的開發可以在元數據管理工具提供的數據模型基礎之上構建物理庫表;通過元數據管理工具自動化采集開發、測試、生產三個環境的庫結構、表結構、字段結構、視圖與存儲過程結構等元數據;在應用系統開發過程中,從開發到測試部署之前,通過元數據管理工具的對比分析功能,迅速找到開發和測試環境中不一致的地方,支持在測試環境快速部署應用系統,并確保數據環境的一致性。

數據倉庫

數據倉庫是用于數據分析、支持管理決策的系統。元數據是數據倉庫的核心組成部分,主要用于記錄和管理數據在數據倉庫中的整個流轉過程,實現對數據倉庫各層級數據進行統一管理。

元數據在數據倉庫中的應用包括:描述數據源的庫表結構、數據關系以及每個數據項的定義;描述數據源中的每個數據項的值域范圍和更新頻率;描述數據源與數據倉庫之間的數據映射關系;描述數據倉庫中有哪些數據以及它們來自哪里等。

地理

在地理領域,測繪地理信息元數據是關于地理空間相關數據和信息資源的描述性信息,它它不僅是對數據簡單的描述或索引,更關系到數據成果的最終應用。生產者通過其記錄測繪地理信息數據說明;使用者利用其了解測繪地理信息數據的基本特征;管理者通過其可以對測繪地理信息數據進行有效的管理和利用;檢查者通過其了解生產過程,并將其與相應成果數據對照檢查。

教育

元數據在教育領域的應用可以分為三方面,其一為教育資源組織上,教育資源的多源異構、共享程度低、互操作性差的問題,元數據技術可供研發教育共享服務平臺。其二是電子書包電子課本是目前教育信息化領域的關注熱點,電子課本元數據模型定義了電子課本元數據體系的層次結構、內容類別與一致性關系。其三是MOOC(慕課)和遠程教育的發展,系統的復雜性越來越高,需要遠程教育領域的知識共享系統而這個系統依賴于元數據和本體技術層面來實現。

電子政府

政府信息共享是電子政府建設的關鍵內容,然而目前政府資源管理系統比較獨立,缺乏統一的資源信息管理,基于元數據的電子管理系統逐漸成為研究重點。語義元數據在電子政府信息資源目錄體系和政府信息資源檢索系統的應用,包括政務院數據標準的修訂;基于云服務的電子政務框架e .gov Cloud框架,通過“虛擬資源中心”實現資源物理上的分布存儲和邏輯上的集中管理,并建立政務領域的元數據規范作為統一的語義基礎設施,進而支持跨部門異構信息資源的共享和統一管理,以此為基礎進一步提出支持跨部門業務協同的政府虛擬組織

參考資料 >

數字時代元數據的安全問題及法律應對.全球技術地圖.2024-05-27

生活家百科家居網