大數據及可視化
大數據可視化是什么
數據可視化要根據數據的特性,可視化要根據數據的特性,如時間信息和空間信息等,找到合適的可視化方式,例如圖表(Chart)、圖(Diagram)和地圖(Map)等,將數據直觀地展現出來,以幫助人們理解數據,同時找出包含在海量數據中的規律或者信息。數據可視化是大數據生命周期管理的最后一步,也是最重要的一步。
數據可視化起源于圖形學、計算機圖形學、人工智能、科學可視化以及用戶界面等領域的相互促進和發展,是當前計算機科學的一個重要研究方向,它利用計算機對抽象信息進行直觀的表示,以利于快速檢索信息和增強認知能力。
數據可視化系統并不是為了展示用戶的已知的數據之間的規律,而是為了幫助用戶通過認知數據,有新的發現,發現這些數據所反映的實質。
大數據可視化的基本概念
1)數據空間。由n維屬性、m個元素共同組成的數據集構成的多維信息空間。
2)數據開發。利用一定的工具及算法對數據進行定量推演及計算。
3)數據分析。對多維數據進行切片、塊、旋轉等動作剖析數據,從而可以多角度多側面的觀察數據。
4)數據可視化。將大型數據集中的數據通過圖形圖像方式表示,并利用數據分析和開發工具發現其中未知信息。
大數據可視化的實施
大數據可視化的實施是一系列數據的轉換過程,如下圖所示:
我們有原始數據,通過對原始數據進行標準化、結構化的處理,把它們整理成數據表。將這些數值轉換成視覺結構(包括形狀、位置、尺寸、值、方向、色彩、紋理等),通過視覺的方式把它表現出來。例如將高中低的風險轉換成紅黃藍等色彩,數值轉換成大小。將視覺結構進行組合,把它轉換成圖形傳遞給用戶,用戶通過人機交互的方式進行反向轉換,去更好地了解數據背后有什么問題和規律。
從技術上來說,大數據可視化的實施步驟主要有四項:需求分析,建設數據倉庫/數據集市模型,數據抽取、清洗、轉換、加載(ETL),建立可視化分析場景。
1)需求分析
需求分析是大數據可視化項目開展的前提,要描述項目背景與目的、業務目標、業務范圍、業務需求和功能需求等內容,明確實施單位對可視化的期望和需求。包括需要分析的主題、各主題可能查看的角度、需要發泄企業各方面的規律、用戶的需求等內容。
2)建設數據倉庫/數據集市的模型
數據倉庫/數據集市的模型是在需求分析的基礎上建立起來的。數據倉庫/數據集市建模除了數據庫的ER建模和關系建模,還包括專門針對數據倉庫的維度建模技術。維度建模的關鍵在于明確下面四個問題:
1.哪些維度對主題分析有用?
2.如何使用現有數據生成維表?
3.用什么指標來"度量"主題?
4.如何使用現有數據生成事實表?
3)數據抽取、清洗、轉換、加載(ETL)
數據抽取是指將數據倉庫/集市需要的數據從各個業務系統中抽離出來,因為每個業務系統的數據質量不同,所以要對每個數據源建立不同的抽取程序,每個數據抽取流程都需要使用接口將元數據傳送到清洗和轉換階段。
數據清洗的目的是保證抽取的原數據的質量符合數據倉庫/集市的要求并保持數據的一致性。
數據轉換是整個ETL過程的核心部分,主要是對原數據進行計算和放大。數據加載是按照數據倉庫/集市模型中各個實體之間的關系將數據加載到目標表中。
4)建立可視化場景
建立可視化場景是對數據倉庫/集市中的數據進行分析處理的成果,用戶能夠借此從多個角度查看企業/單位的運營狀況,按照不同的主題和方式探查企業/單位業務內容的核心數據,從而作出更精準的預測和判斷。
大數據可視化的挑戰
大數據可視化面臨的挑戰主要指可視化分析過程中數據的呈現方式,包括可視化技術和信息可視化顯示。大數據可視化的方法迎接了四個“V”的挑戰,同時這也是4個機遇。
體量(Volume):使用數據量很大的數據集開發,并從大數據中獲得意義。
多源(Variety):開發過程中需要盡可能多的數據源。
高速(Velocity):企業不用再分批處理數據,而是可以實時處理全部數據。
質量(Value):不僅為用戶創建有吸引力的信息圖和熱點圖,還能通過大數據獲取意見,創造商業價值。
大數據可視化的發展趨勢
大數據時代,大規模、高緯度、非結構化數據層出不窮,要將這樣的數據以可視化形式完美的展示出來,傳統的顯示技術已很難滿足這樣的需求.而高分高清大屏幕拼接可視化技術正是為解決這一問題而發展起來的,它具有超大畫面、純真彩色、高亮度、高分辨率等顯示優勢,結合數據實時渲染技術、GIS空間數據可視化技術,實現數據實時圖形可視化、場景化以及實時交互,讓使用者更加方便地進行數據的理解和空間知識的呈現,可應用于指揮監控、視景仿真及三維交互等眾多領域。