數據可視化(數據 visualization)是對大型數據庫或數據倉庫中的數據的可視化,它是可視化技術在非空間數據領域的應用,使人們不再局限于通過關系數據表來觀察和分析數據信息,還能以更直觀的方式看到數據及其結構關系。數據可視化技術的基本思想是將數據庫中每一個數據項作為單個圖元元素表示,大量的數據集構成數據圖像,同時將數據的各個屬性值以多維數據的形式表示,可以從不同的維度觀察數據,從而對數據進行更深入的觀察和分析。
數據可視化是個龐大的領域,涉及的學科非常多。廣義的數據可視化涉及信息技術、自然科學、統計分析、圖形學、交互、地理信息等多門學科。但正是因為這種跨學科性,才讓可視化領域充滿活力與機遇。
數據可視化最常見的應用是一些統計圖表,比如直方圖、散點圖、餅圖等,這些圖表作為統計學的工具,創建了一條快速了解數據集的途徑,并成為令人信服的溝通手段,所以可以在大量的方案、新聞中見到這些統計圖形。
此外,數據可視化在各個領域都得到了十分廣泛的應用,包括醫學、生物學、地質、海洋、氣象、航空、軍事、工程技術、金融、網絡通信和商業信息等。在大數據時代,面對規模、種類快速增長的數據,可視化已然成為各個領域傳遞信息不可缺少的手段,是快速理解數據的必然要求。虛擬現實、增強現實和混合現實等新興技術也有可能使數據可視化更加身臨其境、直觀、互動和易于操作,從而增強用戶的視覺感知和認知能力。
概述
數據不僅指狹義上的數字,還可以是具有一定意義的文字、字母、數字符號的組合、圖形、圖像、視頻、音頻等,或者客觀事物的屬性、數量、位置及其相互關系的抽象表示。在計算機科學中,數據是指所有能輸入到計算機并被計算機程序處理的符號的介質的總稱,是用于輸入電子計算機進行處理,具有一定意義的數字、字母、符號和模擬量等的通稱。數據經過加工后就成為信息。兩者既有聯系,又有區別。數據是信息的表現形式和載體,而信息是數據的內涵,是加載于數據之上對數據做的具有含義的解釋。數據和信息是不可分離的,信息依賴數據來表達,數據則生動具體表達出信息。它們之間是形與質的關系。數據本身沒有意義,數據只有對實體行為產生影響時才成為信息。
數據可視化就是數據中信息的可視化。經過可視化的數據,可以讓人更直觀、更清晰地了解到數據中蘊含的信息,從而最大化數據的價值。數據可視化主要借助圖形化的手段,達到有效傳達與溝通信息的目的。它主要從數據中尋找三個方面的信息:模式—數據中的規律;關系—數據之間的相關性;異常——有問題的數據。但是,數據可視化,不僅僅是統計圖表。本質上,任何能夠借助圖形的方式展示事物原理、規律、邏輯的方法都叫數據可視化。數據可視化的一般流程包括數據收集、數據分析或清理、可視化設計,從抽象的原始數據到可視化圖像。
數據可視化的范疇分為狹義的數據可視化和廣義的數據可視化。Julie Steele 在他所著的《數據可視化之美》中提到:“數據可視化和信息可視化是兩個相近的專業領域名詞。狹義上的數據可視化指的是將數據用統計圖表方式呈現,而信息可視化則是將非數字的信息進行可視化。前者用于傳遞信息,后者用于表現抽象或復雜的概念、技術和信息。而廣義上的數據可視化則是數據可視化、信息可視化以及科學可視化等等多個領域的統稱。”三者并沒有嚴格的界限,但三者各有不同的關注點。科學可視化面向科學和工程領域數據,如三維空間測量數據、計算模擬數據和醫學影像數據等,重點探索如何以幾何、拓撲和形狀特征來呈現數據中蘊含的規律;信息可視化的處理對象則是非結構化的數據,如金融交易、社交網絡和文本數據,其核心挑戰是如何從大規模高維復雜數據中提取出有用信息。
歷史發展
初始時期
自史前時代起,恒星數據或恒星位置等信息就被可視化地顯示在洞穴(如在法國南部拉斯科洞穴中發現的那些洞穴)的墻壁上。例如,美索不達米亞粘土代幣(公元前5500年)、印加帝國quipus(公元前2600年)和馬紹爾群島木棍圖也可被視為量化信息的可視化。最早有文獻記載的數據可視化可追溯到公元前 1160年的《都靈紙莎草地圖》,該地圖準確地描繪了地質資源的分布情況,并提供了有關這些資源開采的信息。
17世紀之前出現的早期地圖與圖表,表明了可視化思想存在。隨著人類知識的增長活動范圍的不斷擴大,為了能有效探索其他地區,人們開始匯總信息來繪制地圖。W.Snell于1617年首創三角測量法后,出現了第一部現代意義的地圖集。但由于當時數據總量較少,各科學領域也處于初級階段,所以可視化的運用還較為單一,整體還處于萌芽階段。
探索時期
17世紀起,隨著科技的進步及經濟的發展,數據在時間、空間、距離上的獲取方式更加豐富,可視化應用主要集中于制作地圖、天文分析及幾何學研究上。這一時期,勒內·笛卡爾發展出了解析幾何和坐標系,在兩個或者三個維度上進行數據分析,成為數據可視化歷史中重要的一步。同時,哲學家帕斯卡等發展了早期概率論,英國人John Graunt開始了人口統計學的研究。這些早期的探索,打開了數據可視化的大門,數據的收集、整理和繪制開始了系統性的發展。
18世紀出現了直方圖等可視化形式,數據可視化得到了初步發展。科學領域的飛速發展以及英國的工業革命,都推動著數據向精準化以及量化的階段發展,用抽象圖形的方式來表示數據的想法也不斷成熟。統計學也出現了早期萌芽,一些和繪圖相關的技術也出現了,比如三色彩印和石版印刷,數據的價值開始為人們所重視,人口和商業等方面的經驗數據開始被系統地收集整理,天文、測量、醫學等學科的實踐也有大量的數據被記錄下來。現代圖表的發明者威廉·普萊費爾(William Playfair)在1786年出版的《商業和政治地圖集》中發明了廣為流傳的折線圖和柱形圖。在1801年出版的《統計摘要》中發明了餅狀圖。這些早期的探索,打開了數據可視化的大門,數據的收集、整理和繪制開始了系統性的發展。
飛速發展
數據可視化在19世紀上半葉快速發展,其特點是現代信息圖形設計開始出現,包括柱狀圖、餅圖、直方圖、折線圖、時間線、輪廓線等,大量學者開始對可視化圖形的分類和標準化進行研究,關于社會、地理、醫學和基金的統計數據越來越多。1801年,英國地質學家 William Smith 繪制了第一幅地質圖,也被稱為“改變世界的地圖”,引領了一場在地圖上表現量化信息的潮流。19世紀下半葉,數據制圖進入了黃金時期,各種可視化形式層出不窮。統計學理論的建立是推動可視化發展的重要一步,此時數據的來源也變得更加規范化,由政府機構進行采集。隨著社會統計學的影響力越來越大,1857年在維也納召開的統計學國際會議上,學者們開始對可視化圖形的分類和標準化進行討論。許多數據圖形開始出現在書籍、報刊、研究報告和政府報告等正式出版物中。
低潮期
20世紀前期,數理統計學成了數學的一個支派,統計學家們這個時期關注的主要是在準確的數學基礎上擴展統計的疆域。對當時的大多數統計學家來說,帶有標準誤差的參數估計和假設檢驗是嚴格數學化的,而圖形雖然美觀(或許也具有啟發性),但是對尋找堅實的“事實”還是勉為其難。因此數據的量和種類并沒有太大的變化,于是黃金時期所出現的數據表示方式就已經夠用,數據可視化進入了創新低潮期。
但同時創新放緩的另一面是更廣泛的應用,即數據可視化成果在這一時期得到了推廣和普及,并開始被用于嘗試解決天文學、物理學、生物學的理論新成果。在社會層面,數據可視化的影響力也在擴大。1910年前后,在美國和英國,統計圖形出現在中小學的教科書中,從此成為課堂上一種主流的圖形表現方法。大學課程中也出現了圖形的課程。在1913年的紐約,甚至出現了統計圖形的游行展覽,統計數據和數據的可視化已經成為社會生活的一部分。
新的黃金時期
現代電子計算機的誕生帶來了強大的沖擊,對數據可視化研究的再次興起有了推波助瀾的作用。同時,隨著統計應用的發展,計算機對數據分析的影響來自兩方面——高分辨率的圖形展現和交互式的圖形分析都是手繪圖形無法帶來的革命性改變。1967 年,法國人 Jacques Bertin 出版了 Semiology ofGraphics一書,確定了構成圖形的基本要素,并且描述了一種關于平面設計的框架。這套理論奠定了信息可視化的理論基石。隨著計算機的普及,20世紀60年代末,各研究機構就逐漸開始使用計算機程序取代手工繪制圖形。1973 年 Herman Chernoff發明了表達多維變量數據的臉譜編碼。
在這一時期,數據縮減圖、多維標度法(MDS) 聚類圖、樹形圖等更為新穎復雜的數據可視化形式開始出現。人們開始嘗試著在一張圖上表達多種類型數據,或用新的形式表現數據之間的復雜關聯,成為數據處理應用的主流方向。20世紀70年代到80年代,人們主要嘗試使用多維定量數據的靜態圖來表現靜態數據,80年代中期動態統計圖開始出現,最終在20世紀末兩種方式開始合并,動態交互式的數據可視化方式成為新的發展主題。數據可視化在這一時期的最大潛力來自動態圖形方法的發展,允許對圖形對象和相關統計特性進行即時和直接的操作。
新的發展契機
進入21世紀,新的可視化媒介——互聯網出現,互聯網的普及,進一步促進了各種新形式的可視化快速發展。例如屏幕媒體中大多融入了各種交互、動畫和圖像渲染技術,并加入了實時的數據反饋,可以創建出沉浸式(Immersive)的數據交流和使用環境。除了商業機構、科研部門和政府外,大眾每天也要在自己的屏幕上接觸大量的經過可視化的數據,廉價的硬件傳感器和自己動手創建系統的框架降低了收集與處理數據的成本。出現了數不勝數的應用、軟件工具和底層代碼庫,幫助人們收集、組織、操作、可視化和理解各種來源的數據。互聯網還可作為可視化的傳播通道,來自不同社區的設計師、程序員、制圖師、游戲設計者和數據分析師聚在一起,分享各種處理數據的新思路和新工具,包含可視化與非可視化方法,幫助人們直觀地了解自己感興趣的領域的數據。此外,各種自媒體都傾向于使用可視化來增加關注度,吸引流量。
理論基礎
視覺感知
感知是指客觀事物通過人的感覺器官在人腦中形成的直接反映,與可視化密切相關的感知主要是指視覺感知。視覺感知是客觀事物通過人的視覺在人腦中形成的直接反映。韋伯定律表示,刺激物的增量與原來刺激物之比是一個常數。也就是說如果兩個物品使用相同的參照物或者相互對齊,將有助于人們做出準確的相對判斷。視覺感知的類型包括:視覺對色彩的感知;視覺對形狀的感知;視覺對空間的感知;視覺對運動的感知。
視覺認知
視覺認知是把通過視覺器官得到的信息加以整合、解釋、賦予意義的心理活動,是關于怎樣理解和解釋所觀察到的客觀事物的過程。視覺認知的處理過程一般來說有兩種:“自上而下"和“自下而上”。
格式塔理論
格式塔心理學派理論認為,視知覺具有組織、結構和分析內在意義的能力,當人看到某事物時,無需對組成這一事物的各個部分進行分析,就能夠直接整體把握事物,可以用于分析人是怎樣認知和記憶所看到的事物。
視覺編碼
人類感知系統在獲取周圍信息的時候,存在兩種最基本的感知模式即視覺編碼和視覺通道。把圖片看成一組圖形符號的組合,這些圖形中攜帶了信息,稱作編碼。當人們從這些符號中讀取信息時,稱作解碼了一些信息。視覺編碼描述的是將數據映射到最終可視化結果上的過程,這里的可視化結果可能是圖片,也可能是一張網頁等。
數據可視化的圖表介紹
基本圖表
餅圖(Pie Chart)
餅圖能夠直觀反映數據系列中各項的大小、總和以及相互之間的比例關系(即展現的是個體占總體的比例,扇面的角度來展示大小),圖表中的每個數據系列具有唯一的顏色或圖案并且在圖表的圖例中表示。基本類型:1、二維餅圖和三維餅圖;2、復合餅圖和復合條餅圖;3、分離型餅圖和分離型三維餅圖。餅圖一般適用于表述一維數據(行或列)的可視化結果,它能夠直觀反映某個部分占整體的比重,人眼對局部占整體的份額一目了然,用不同顏色來區分局部模塊,也顯得較為清晰。因此,如果想直接展示各項數據占整個數據的比例,并且顯示所占的百分比情況,可以選擇使用餅圖。
條形圖(Bar Chart)
條形圖往往用于顯示各個項目之間的比較情況,排列在工作表的列或行中的數據可以繪制到條形圖中。基本類型分為:簇狀條形圖和三維簇狀條形圖;堆積條形圖和三維堆積條形圖;百分比條形圖和三維百分比條形圖;雙向條形圖。條形圖的注意事項:給條形加上色彩可以獲得更好的效果;使用堆積條形或并排條形,把關聯數據上下或左右并列顯示能夠深化分析,一次解決多個問題;把條形圖與地圖相結合;把條形放在軸的兩側,把正負數據點沿著連續軸標繪,是發現趨勢的有效方式。
適用場景:(1)較長的數據標簽;(2)大量的數據集,對于10個左右的數據集,可以用柱狀圖顯示,但是對于更大、更多的數量集,柱形圖就無法滿足要求。條形圖和柱狀圖之間的區別在于:條形圖面向水平方向,柱狀圖面向垂直方向。
柱狀圖(Column Chart)
柱狀圖是一種以長方形的長度為變量的表達圖形的統計報告圖,它由一系列高度不等的縱向條表示數據分布的情況,用來比較兩個或以上的價值(不同時間或者不同條件),只有一個變量,通常用于對較小數據集的分析。與條形圖類似,柱狀圖的基本類型有:簇狀柱形圖和三維簇狀柱形圖(適合比較各個類別的值);堆積柱狀圖和三維堆積柱狀圖(適合比較同類別各變量和不同類別變量總和著異);百分比堆積柱狀圖和三維百分比堆積柱狀圖(適合展示同類別的每個變量的比例);分組柱狀圖(在同一個軸上顯示不同分組的各個分類) ;雙向柱狀圖(適合數據有負值的變量的比較)。
柱狀圖適用于二維數據集,能夠清晰地比較兩個維度上的數據。它利用柱子的高度來反映數據之間的差異,一般情況下用來反映分類項目之間的比較,也可以用來反映時間趨勢。柱狀圖的局限在于它僅適用于中小規模的數據集,當數據較多時就不易分辨,一般而言,不要超過10個。通常來說,柱狀圖的橫軸是時間,用戶習慣性認為存在時間趨勢,如果遇到橫軸不是時間的情況,建議用顏色區分每根柱子。
散點圖
散點圖(ScatterPlot)一般用于發現各變量之間的關系,適用于存在大量數據點,而且結果更精準的場景。散點圖通過數據點在X-Y面上的位置來展現兩個維度的變量。當一個個數據點形成一個整體的時候,變量的相關性就此顯現。散點圖的值由點在圖表中的位置表示,類別由圖表中的不同標記表示。如果散點圖中的點散布在從右上角到左下角的區域,表示兩個變量有正相關關系。還有一些變量呈負相關,這時的點散布在從左上角到右下角的區域內。散點圖的基本類型分為散點圖矩陣和三維散點圖。
散點圖通常用于顯示和比較數值,可以用來繪制函數曲線,所以在教學和科學計算中會經常用到;散點圖適用于三維數據但其中只有兩個維度需要比較的情況,以便展示其關系,當存在大量數據點時,散點圖的作用尤為明顯;散點圖中包含的數據越多,比較的效果就越好。對于展現肺活量和自由潛水深度、地震震級和地震持續時間、收益和投入等關系,散點圖都比較適合。
折線圖(Line Chart)
折線圖用于展示數據隨時間(或其他有序系列)波動情況的變化趨勢。在折線圖中,數據是遞增還是遞減、增減的速率、增減的規律、峰值等特征都可以清晰地反映出來。所以,折線圖常用來分析數據隨時間的變化趨勢,也可用來分析多組數據隨時間變化的相互作用和相互影響。基本類型包括普通折線圖和帶數據標記的折線圖,如果有很多數據類別或者數值是近似的,則應該使用不帶數據標記的折線圖。
折線圖適用于二維大數據集,尤其訪問量是那些趨勢比單個數據點值更重要的場合。它還適用于多個二維數據集的比較,當存在許多數據點并且順序很重要300時,能夠按時間或類別顯示趨勢。此外,使用時注意給折線下方區域涂上陰影,可便于看圖人了解占比,折線太多時需要更換為其他圖形,當不足5個項目時可以使用柱圖。
地圖(Map)
地圖就是依據一定的數學法則,使用地圖語言、顏色、文字注記等,表達地球(或其他天體)上各種事物的空間分布、組合、聯系、數量和質量特征及其在時間中的發展變化狀態而繪制出的圖形。基本類型包括:氣泡地圖,用氣泡大小展現數據量大小 ;點狀地圖,用描點展現數據在區域內的分布情況);軌跡地圖,展現運動軌跡;地理信息系統地圖,更精準的經緯度地圖,需要有經緯度數據,可以精確到鄉鎮等小粒度的區域。
地圖必須遵循一定的數學法則,能夠準確地反映客觀實體在位置、屬性等要素之間的關系,同時地圖數據必須經過科學概括,縮小了的地圖不可能容納地面所有的現象。地圖適合展現呈面狀但屬分散分布的數據,比如人口密度等各地區銷量或者某商業區域店鋪密集度等,它的局限在于數據分布和地理區域大小的不對稱。通常,大量數據會集中在地理區域范圍小的人口密集區,容易造成用戶對數據的誤解。
傳統圖表
雷達圖(Radar Chart)
雷達圖又被稱為網絡圖、蜘蛛圖、極坐標圖或者星圖。雷達圖的每一條從中心開始的軸,都代表了一個變量,所有的軸都以等角等距的方式徑向排列,相鄰的軸通過網格線連接,組成多個多邊形或者圓形。雷達圖將多個系列的數據值映射到坐標軸上,以對比某項目不同屬性的特點,擅長通過數據點圍成的多邊形形狀,展示異常數值或者類別的綜合表現。
雷達圖主要分為三種類型:標準雷達圖、堆疊雷達圖、分比堆疊雷達圖。使用時雷達圖的類別與變量不適宜過多,變量的排序必須重視以及要注意變量的單位。雷達圖適用于多維數據,且每個維度必須可以排序,但是如果分類過多或變量過多,會比較混亂。一般來說,雷達圖適合的數據點最多為6個,否則無法辨別,因此適用場合有限。
面積圖(面積 Chart)
面積圖又稱區域圖,將工作表的數據繪制到面積圖中,可以強調數量隨時間而變化的程度,也可用于引起人們對總值趨勢的注意。通過顯示所繪制的值的總和,面積圖還可以顯示部分與整體的關系。基本類型:二維面積圖,用面積展示各種數值隨時間或類別變化的趨勢;堆積面積圖,它顯示每個數值所占大小隨時間或類別變化的趨勢;百分比堆積面積圖,它顯示每個數值所占百分比隨時間或類別變化的趨勢;三維簇狀面積圖;三維堆積面積圖;三維百分比堆積面積圖。
面積圖看上去就像層層疊疊的山脈,錯落有致,常用于表達時序特征,面積圖和折線圖都能描述時間序列,但與折線圖不同的是,面積圖中帶有顏色的面積也可以進行量的表達,這種“面”的表達比“線”的表達更有感染力。此外,使用面積圖時要使用透明色,確保數據在背景中不被遮擋。
漏斗圖(Funnel Chart)
漏斗圖是一種直觀表現業務流程中轉化情況的圖表形式,用梯形面積表示某個環節業務量與上一環節業務量之間的差異。每個環節通常用一個梯形來表示,梯形的上底寬度表示當前環節的輸入情況,梯形的下底寬度表示當前環節的輸出情況,上底與下底之間的差值形象地表現了當前環節的“榻耗”。漏斗圖是對業務流程最直觀的一種表現形式,通過漏斗圖可以很快發現業務流程中存在的問題。
漏斗圖適用于分析在時間或邏輯上存在順序關系的多個業務環節,通過各環節業務數據的比較,能夠直觀地發現和說明問題所在。幾種典型應用場景如下:1、網站流量分析漏斗;2、銷售果分析漏斗;3、網絡營銷效果轉化漏斗;4、crm客戶管理系統;5、招聘漏斗。
瀑布圖(Waterfall Plot)
瀑布圖是由麥肯錫咨詢公司所獨創的圖表類型,因為形似瀑布流水而得名。瀑布圖具有自上而下的流暢效果,也可以稱為階梯圖或橋圖。這種圖表采用絕對值與相對值結合的方式,展示各成分的分布構成情況。瀑布圖使圖表中數據的排列形狀(稱為浮動列)看似瀑布懸空,從而反映數據在不同時期或受不同因素影響的程度及結果,還可以直觀反映出數據的增減變化。
基本類型:(1)組成瀑布圖;(2)變化瀑布圖;(3)堆疊瀑布圖。瀑布圖適合用于表達各項數據與各項數據總和的比例,或者用于顯示各項數據間的比較。在實際的應用場景中,瀑布圖常用于經營情況分析,解釋從一個數字到另一個數字的變化過程。比如資產評估有限責任公司利潤、比較產品收益、突出顯示項目的預算變更、分析一段時間內的庫存或銷售情況、顯示一段時間內產品價值變化等。
樹狀圖(Tree Diagram)
樹狀圖也稱為樹枝狀圖,是枚舉法的一種表達方式。它以數據樹為圖形表現形式,以父子層次結構來表示親緣關系。樹狀圖主要是把分類總單位擺在圖上的樹枝頂部,然后根據需要,從總單位中分出幾個單支,而這些分支又可以作為獨立的單位,繼續向下分類,以此類推。從樹狀圖中,可以清晰地看出分支和總單位之間的部分和整體的關系,以及這些分支之間的相互關系。如果要處理的數據之間存在整體和部分的關系,在數據量很大的情況下,要想看清每個部分的具體情況,那么采用樹狀圖會是一個很好的選擇。
新型圖表
熱力圖(Heat Map)
熱力圖主要用于展示數據的分布情況。標準的熱力圖將兩個連續數據分別映射到X、Y軸,第三個連續數據映射到顏色。熱力地圖又叫等值線地圖,可以直觀地顯示測量值在整個地理區域內的變化情況,也可以顯示區域內的變化程度。熱力圖通常用其專有的彩虹色系或漸變色,但要謹慎使用樣式,地圖中過多的分類圖案會分散讀者的注意力,而且還會引起適得其反的效果,使區域分布情況變得雜亂模糊。
適用場景:作為地理信息系統中某種現象聚集度的直觀展示方式,熱力圖在城市規劃、人口遷移、景區監控等方面起了越來越重要的作用,是位置大數據服務中的重要組成,對人們的衣食住行都有幫助。一般而言,熱力圖是以特殊高亮的形式顯示分析對象的“熱度”,它通常有自己的顏色表達系統,例如,一般紅色表示最密集、橙色次之、綠色最少。例如,針對景點的人流量,熱力圖能非常直觀地展示出不同時間段人流量的分布情況,景區可以由此設置最佳的游覽路線。交管部門可以通過熱力圖評估不同區域的人車流量,以更好地布局交通設施。
詞云圖(Word Cloud)
詞云又稱文字云、標簽云,它是文本數據的視覺表示,由詞匯組成類似“云”的彩色圖形。詞云圖的獨特之處在于可以展示大量文本數據,做詞云圖的方法是先將語料庫分解成單獨的詞匯,并計算它們出現的次數,然后再將原始語料庫中出現的次數映射為詞匯(或詞匯所在的氣泡)的大小或顏色。詞云中每個詞的大小取決于其在文章中出現的頻率,頻率越高,在文字云圖中顯示越大,因此可以直觀反映文章中文字的密度及重要性。
詞云圖適用于非常大的語料庫以查詢詞匯和發現潛在主題,通常用于描述網站上的關鍵字元數據(標簽),或可視化自由格式文本。除此之外,結合地圖,還可以生產特殊詞云,使得一些與位置點相關的文本信息在地圖上展示出來。這種結合地圖的詞云圖的特殊之處在于,詞匯的大小并不與其頻次直接相關,而是與詞匯所處地區的區域大小有關。
弦圖(Chord Diagram)
弦圖是一種可視化數據關系的圖表,它展示了數據之間帶有權重的關系。弦圖的名稱來自幾何學中的術語“弦”。在幾何學中,圓的“弦”是指端點均落在圓上的線段。基本類型包括:(1)非彩帶弦圖,弦圖的簡化版,圓周上的每一個節點分布均勻,不帶有權重關系。比較適合用于展現如人物關系、信件往來等關系類的信息;(2)弦圖,在弦圖中,數據圍繞圓周徑向布置(節點),數據點之間的關系通常繪制為連接兩個數據點的弧。因為弦圖所表達的數據關系可以帶有權重,所以邊的寬度會粗細不一。
數據量過大會導致弦圖的可讀性降低,可以通過一些交互性設計的輔助使圖表更具可讀性。此外,數據排列的順序對弦圖呈現效果影響較大。弦圖則有助于發現數據之間的關系,適用于比較數據集或不同數據組之間的相似性,表達大量復雜數據。而非彩帶弦圖適合反映大體量數據之間的關系,帶有美觀的呈現方式和良好的視覺效果,并且有較大的空間利用率。
數據可視化的主要技術
多維數據可視化
基于幾何的技術
基于幾何的可視化技術包括Scatter plots、Landscapes、Projection Pursuit、Parallel Coordinates等等,是以幾何畫法或幾何投影的方式來表示數據庫中的數據。平行坐標法是最早提出的以二維形式表示n維數據的可視化技術之一。它的基本思想是將n維數據屬性空間通過n條等距離的平行軸映射到二維平面上,每一條軸線代表一個屬性維,軸線上的取值范圍從對應屬性的最小值到最大值均勻分布。這樣,每一個數據項都可以根據其屬性值用一條折線段在n條平行軸上表示出來。利用平行坐標法開發的系統包括Parallel Visual Explorer (IBM)、 XMDV(Matt Ward)、 VS或Express (Van Wijk)等等。 這個方法的優點在于,對于較少的數據集能使用戶在二維平面上看到每個數據的n維屬性,對于大型的數據集能反映出各維屬性之間的關系和數據在各維屬性之間的走向趨勢。
基于圖標的可視化技術
基于圖標技術的基本思想是用一個簡單圖標的各個部分來表示n維數據屬性。基于圖標的可視化技術包括Chernoff-face、 Shape coding 、Stick Figures 等,這種技術適用于某些n維值在二維平面上具有良好展開屬性的數據集。枝狀圖方法是其中的基本方法之一。首先選取多維屬性中的兩種屬性作為基本的X-Y 面軸,在此平面上利用小樹枝的長度或角度的不同表示出其他屬性值的變化。例如下圖所示的兩個數據點,它們對左邊的二維屬性含有相同的數據值,而右邊的二維屬性的數據值則不相同。
時間序列數據可視化
時間序列可視化隨著時間的推移采集信息數據,運用可視化技術手段進行呈現,呈現出的可視化方式主要有3種。
一、線形圖,通過最開始的點展示不同時間段信息數據變化,在可視化過程中信息數據呈現較多時間維度,根據不同維度建立相應圖標進行排列,觀察數據的變化。
二、堆積圖,這類圖主要對所有時間序列進行疊加,出現負數時,堆積圖無法處理所有的時間序列,極大程度降低了可視化的呈現效果。
三、地平線圖,隨著時間變化清楚地觀察到信息數據的變化率,顏色的深淺表示正向、負向的變動效果。
網絡數據可視化
網絡數據可視化技術手段核心是自動布局算法,將信息數據通過自動布局、計算,繪制成網狀結構的圖形,應用較廣泛的有3類:力導向布局,借助力的概念,連接受力節點繪制網狀圖,適用于描述事物之間的關系,例如計算機網絡關系、社交網絡關系等各類關系;圓形布局,將所有節點自定義排序,按照順序在圓形上排列出來,快速分析出結果,適用于查找較多關聯關系的節點場景,例如在圓形布局圖中可明顯分辨出哪些節點關聯關系較多;網格布局,采用網格設計方式繪制網格狀信息數據網狀圖,適用于分層網絡,利于觀察整體層次。
基于層次的可視化技術
基于層次的可視化技術主要針對數據庫系統中具有層次結構的數據信息,例如人事組織、文件目錄、人口調查數據。它的基本思想是將n維數據空間劃分為若干子空間,對這些子空間仍以層次結構的方式組織并以圖形表示出來。基于層次的技術包括Dimensional Stacking 、Treemap 、Cone Trees等方法。樹圖是其中的一種代表技術。
主要的數據可視化軟件
Tableau是桌面系統中的商業智能工具軟件。它不強迫用戶編寫自定義代碼,新控制臺也可以完全自定義配置。在控制臺上,不僅能夠監測信息,還提供了完整的分析能力,具有高度動態性。此外,Tableau擁有計算機圖形學、人機交互和高性能的數據庫系統,VizQL可視化查詢語言和混合數據架構,專注于處理最簡單的結構化數據,即已整理好的數據——Excel、數據庫等,結構化數據處理在技術上難度較低。
QlikView是一個完整的商業分析軟件,由開發工具(QlikView Local Client)、服務器組件(QlikView Server)、發布組件(QlikView Publisher)以及其他應用接口(SAP或賽富時或Informatica)組成,服務器支持多種發布方式,如AJAX客戶端、ActiveX客戶端,還可以與其他CS或BS系統進行集成。此外,它還擁有強大的AQL分析引擎和一個高度直覺化、使用簡單的用戶界面,讓開發者能從多種數據庫里提取和清洗數據,建立強大、高效的應用,并能被移動用戶和每天的終端用戶修改后使用。
ECharts(Enterprise Charts)是商業級數據圖表,一個純ECMAScript的圖表庫,可以在PC和移動設備上流暢運行,兼容絕大部分瀏覽器,底層依賴輕量級的Canvas類庫ZRender,提供直觀、生動、可交互、可高度個性化定制的數據可視化圖表。ECharts支持折線圖(區域圖)、柱狀圖、散點圖(氣泡圖)、K線圖、餅圖(環形圖)、雷達圖、和弦圖、力導向布局圖、地圖、儀表盤、漏斗圖、事件河流圖等12類圖表,同時提供標題、詳情氣泡、圖例、值域、數據區域、時間軸、工具箱等7個可交互組件,支持多圖表、組件的聯動和混搭。
HighCharts界面美觀,使用ECMAScript編寫,不需要像Flash和Java一樣需要插件才可以運行。另外,它還具有很好的兼容性,能夠完美支持大多數瀏覽器。作為純JavaScript編寫的圖表庫,能夠直接為Web網站或Web應用程序添加交互性圖表,并且免費供個人學習、個人網站和非商業用途使用。HighCharts支持的圖表類型主要有曲線圖、區域圖、柱狀圖、餅狀圖、散狀點圖和綜合圖表等。
Python工具
Python 是一款開源的編程語言,利用大量的函數庫高效的實現各種應用功能。Python 語言的特點是簡單、高級、面向對象、可擴展性強、開源免費、可移植性強、函數庫豐富、可嵌入性強,它為用戶提供了豐富的繪圖功能,主要可以通過 Tkinter 模 塊、turtle 模塊、Matplotlib 模塊實現不同的數據可視化。 tkinter 模塊用于繪制畫布,其主要功能是在空白處建立大小可調的矩形區域作為畫布,利用繪制函數在畫布上繪制各種圖形圖像、文字、組件框架等實現數據可視化。turtle 模塊本質也是調用 turtle 模塊函數,通過代碼實現數據可視化,turtle 模塊創作出的可視化圖可以動態的查看代碼與海龜的交互,便于對可視化圖表進行維護和修改。 Matplotlib 模塊主要用于二維可視化圖形的繪制,該模塊通常與 Python 的數值計算模塊 Numeric、Numarray 模塊合作使用,并將復制 MATLIB 的函數實現高質量的二維可視化圖形。
實際應用
生命科學領域
數據可視化在醫學領域的應用,最為常見的當屬三維圖像可視化,其本身類屬于生物醫學圖像處理技術,如 CT、PET 等,兩者結合輔以可視化手段處理,可以幫助醫生更為精準地定位病變體屬性,包括大小、 形態以及空間位置等,并可分辨其與周圍生物組織的關系,從而提升了診療效果。同時,數據可視化在生命科學領域的應用,還可模擬器官形態和病變情況,對于重大醫療項目,通過手術前的多次實驗論證,最終得到最佳的解決方案,提升了醫療服務水平。此外,隨著臨床數據量明顯增長,很多有用信息以零散的狀態存儲于異構臨床信息系統當中,數據可視化的應用加持,實現了以患者為中心的數據組織模式轉變,直觀呈現給臨床醫師,有利于推動醫療衛生質量的精細化管理,包括醫療保險管理、經濟學實時監控、醫療數據挖掘等,符合國家戰略部署要求。
地理氣象領域
地圖本身作為一種歷史悠久的地理信息可視化符號模型,在簡單的線條勾勒下附上不同顏色色塊進行區域劃分,是最原始的可視化產物之一。基于數據可視化處理的地理信息, 可幫助人類進一步了解地球系統結構,如火山構造、運動情況、 環境污染等,為實現可持續發展戰略目標提供了有力支持。數據可視化在氣象信息處理方面的應用,可模擬天氣情況進行實驗,從而更為精準地預測氣象變化,提高了人類生產生活安全性。在此基礎上,以直觀的方式對氣象數據信息進行可視化表 達,將復雜抽象的數據轉化為可讀、形象的圖形動畫,達到了大眾傳播的目的,有利于增強受眾對氣象信息和科普知識的理解,服務屬性攀升到了一個新的層次,滿足了受眾對氣象信息專業化、高效 化的讀取需求。
工業工程領域
從專業維度上講,工業工程領域的數據可視化應用已然相當成熟。依托數據可視化在工業生產中的應用,實現了專業圖紙化設計的“所見即所得”,通過建模、渲染等技術將抽象的符號轉化為3D軟件,輔助設計師表達,可更為精準地呈現零配件細節,大大降低了出錯概率。除此之外,對于大型工程技術研究而言,需要在不同的工況下進行測試,耗費了大 量人力、物力、財力和時間,而基于數據可視化的模擬實驗,則可將各類數據變化動態顯示在屏幕上,為工程師計算提供了諸多便利, 以此來尋求最佳的問題解決方法。
金融商務領域
在信息大爆炸的新時代,數據可視化與數據倉庫、數據挖掘等相關技術的組合, 生成了商業智能這個全新的生態領域,在金融領域, 可視化商業智能夠將數據資源、成本控制、盈利分析、績效指標、 風險管理等整合在一起,發揮內容豐富的報表功能,有著重要的決策參考價值。同時,數據可視化在一定程度上提升了企業領導層的決策反應速度,以更好適應 瞬息萬變的市場經濟環境,繼而由此獲得更高的經濟產出收益,是現代企業管理變革的重要方向。
教育教學領域
數據可視化在教育教學領域的應用,支持學生更為直觀地了解知識本身,并借助形象化的圖表、圖像,幫助其消化理解。同時,課堂數據可視化,還建構了教學關聯的課堂數據,通過即時反饋、全局展示、動態累積等多舉措并行的方式, 表征課堂動態,并由此發現問題,促進了教學改進的良性循環。在此過程中,基于數據可視化表達的方式,高度濃縮了學生動態關聯數據信息,方便教師了解分析學生表現情況,繼以輸出個性化引導服務,在一定程度上促進了師生交互,導引更深層次的教學設計優化。未來,數據可視化在教育教學領域的應用,將釋放出更大的可為空間,有利于促進師生雙向素質發展。
安全管理方面
可視化的對象就是數據,它是整個可視化過程的基礎。傳統數據的采集可以通過抽樣調查、模擬數據等方式,在專利數據進行可視化的過程中,通常使用爬行綱技術獲取專利數據。數據采集的質量直接決定了最后呈現的可視化圖形的精確度、準確度等特征。在景區的安全管理方面,景區通過建立旅游大數據平臺,完善景區安全預警的設施設備,建立景區數據采集的可視化、智能化系統,實現對景區重點區域的客流量的自動監測,起到客流控制和時間段跟蹤的作用。例如,江蘇鎮江借助“感知芯”技術,讓游客通過手機終端進入景區,自動接收景區排隊人數情況,并通過信息亭內的互動觸摸屏讓游客自助查詢服務信息。
數據挖掘方面
數據挖掘是從大量的、復雜的、不規則的、隨機的、模糊的數據中獲取隱含的、有潛在價值的知識和信息的過程。可視化數據挖掘可看作是數據可視化和數據挖掘兩個學科的融合,可以實現數據的可視化、數據挖掘結果的可視化、數據挖掘過程的可視化和交互式的可視化數據挖掘,用戶從中可以看出數據源自的數據庫或數據倉庫,抽稱的方式,數據清理、集成、預處理、挖掘的過程。在化學及制藥行業,將可視化數據挖掘用于大量化學信息可以發現新的有用的化學成分;在遙感領域,利用每天從衛星上及其他方面來的海量數據,可視化數據挖掘能對氣象預報、臭氧層監測等起很大的作用。
數據分析處理方面
可視化分析技術將不同的數據模型分解成兩兩相連的關聯關系,運用關聯分析、網絡分析、路徑分析、時序分析、空間分析、群集分析等圖形分析方法來揭示數據中隱含的信息和關聯,可以幫助辦案人員將大量的、未知的、低關聯性的、低價值的信息轉化為少量的、易于理解的、高關聯性的、高價值的可操作信息,有利于偵查調查工作的順利開展。此外,圖書館利用數據分析與可視化技術對無序分散的數字資源進行處理和表示,讓用戶獲取有序的、便于認知和可交互的高價值資源,改善用戶的使用體驗,提高知識服務能力。
挑戰與前景
挑戰
大數據時代,數據可視化日益受到關注,可視化技術也日益成熟。然而,數據可視化依然存在許多問題,且面臨著巨大的挑戰。具體包括以下幾個方面:
(1)數據規模大,已超越單機、外存模型甚至小型計算集群處理能力的極限,需探索全新思路解決該問題。
(2)在數據采集工具與分析處理過程中,易產生數據質量問題,需特別關注數據的不確定性。
(3)數據快速動態變化,常以流式數據形式存在,需要尋找流式數據的實時分析與可視化方法。
(4)面臨復雜的高維數據。當前的軟件系統以統計和基本分析為主、分析能力不足。
(5)視覺噪聲。在數據集中,大多數數據具有極強的相關性,無法將其分離作為獨立的對象顯示。
(6)大型圖像感知。數據可視化不單單受限于設備的長度比及分辨率,也受限于現實世界的感受。
(7)高速圖像變換。用戶雖然能夠觀察數據,卻不能對數據強度變化做出反應。
前景
互動式可視化正在成為數據可視化的標準媒介:隨著地理信息數據的不斷增長和普及,更多的數據可視化需要一個互動式的地圖來全面講述數據故事。互動式數據可視化,尤其是地圖形式,提供了一個新的社交共享的優秀范式。人們可以基于來自社交平臺和開源數據網站上可用的地理數據,快速搭建數據可視化地圖。
協同可視化 :在可視化實現過程中,需要多團隊協作完成,創造出協同可視化的環境(可視化接口設計、可視化協同平臺開發、協同可視化視圖設計、工作流管理等),進行工作站之間的數據資源共享,通過對可視化過程進行控制,解決多團隊之間的協同性問題。
使用新的配色方案與色板彌補視覺缺陷:全世界有4.5%的人口是色盲,數據可視化設計師需要考慮搭建適合色盲人群的調色板,并將其與設計趨勢相結合。
應用領域拓展化:數據可視化技術已經被應用到越來越多的領域,既促進了各個領域的發展,也為可視化技術自身發展和完善提供了良好環境,未來可視化的應用熱點領域還包括統計可視化、新聞可視化、思維可視化、社交網絡可視化和搜索日志可視化等。
參考資料 >