數(shù)據(jù)驅動是通過先進的IT技術和人工智能對企業(yè)的數(shù)據(jù)資產(chǎn)進行有效和充分的利用,其目的是從數(shù)據(jù)中獲得有價值的“洞見”,以指導人們作出更加科學的決策和更加有效的行動。
企業(yè)數(shù)字化轉型離不開數(shù)據(jù)驅動,而數(shù)據(jù)驅動的基礎是建立在高質(zhì)量數(shù)據(jù)之上的。沒有高質(zhì)量數(shù)據(jù),就不可能產(chǎn)生有價值的洞見。
數(shù)據(jù)驅動的企業(yè)看著似乎很厲害的樣子,實際上他們一直也在為數(shù)據(jù)質(zhì)量問題而苦苦掙扎。數(shù)據(jù)的不完整、不準確、不一致,數(shù)據(jù)安全、數(shù)據(jù)隱私等問題似乎是無窮盡的,成為了企業(yè)數(shù)字化轉型的一個難以逾越的障礙。
1
從DIKW金字塔模型到數(shù)據(jù)供應鏈
要實現(xiàn)數(shù)據(jù)驅動,重要的是創(chuàng)建一個“數(shù)據(jù)供應鏈”,保證數(shù)據(jù)在從生產(chǎn)、采集、存儲、加工、處理,到分析、應用的全過程中的數(shù)據(jù)質(zhì)量,并且確保每個過程都是為業(yè)務目標而服務的。
供應鏈的概念的是從生產(chǎn)制造行業(yè)發(fā)展衍生出來的,它將企業(yè)的生產(chǎn)活動進行了前伸和后延。艾倫·哈理森(Harrison)將供應鏈定義為:“供應鏈是執(zhí)行采購原材料,將它們轉換為中間產(chǎn)品和成品,并且將成品銷售到用戶的功能網(wǎng)鏈。”日本豐田公司的精益協(xié)作方式中就將供應商的活動視為生產(chǎn)活動的有機組成部分而加以控制和協(xié)調(diào)。
數(shù)字化世界,數(shù)據(jù)既是產(chǎn)品也是原料,DIKW金字塔模型足以說明這個觀點。在DIKW模型中,數(shù)據(jù)是用來描述事實和現(xiàn)象的原始的資料,是無組織的事實。將原始的、無序的、雜亂的數(shù)據(jù)進行收集和整理,并從中提取有用的信息,讓數(shù)據(jù)變得更加有意義;再將信息加工、萃取成可被傳播、沉淀、復用的知識,從而獲得更大的價值;而智慧是DIKW層次結構的最高層,是將知識應用于行動后產(chǎn)生的結果,回答的是諸如“為什么要做”和“什么是最好的”之類的問題。
DIKW模型,反映了數(shù)據(jù)被加工、提煉的一個過程,這個過程本質(zhì)上來說也是從數(shù)據(jù)需求到數(shù)據(jù)供給的過程。通過這個過程,原始的數(shù)據(jù)進入企業(yè),經(jīng)過各種處理、轉換,成為可供人們使用的有價值的東西,我們將這個過程稱之為數(shù)據(jù)供應鏈。
如上圖所示,數(shù)據(jù)供應鏈與生產(chǎn)供應鏈十分相似,“原料數(shù)據(jù)”從系統(tǒng)的一端輸入,然后在下一步中進行分析和轉換。最后,它作為一組有意義、有價值的“數(shù)據(jù)產(chǎn)品”提供出來,用于企業(yè)業(yè)務流程的改進和指導企業(yè)管理決策。進入數(shù)據(jù)供應鏈的數(shù)據(jù)來自各種來源,如企業(yè)的各類信息系統(tǒng)ERP、CRM、移動應用程序等;企業(yè)外部的網(wǎng)站、社交網(wǎng)絡、電商平臺等;以及來自設備物聯(lián)數(shù)據(jù),各類傳感器產(chǎn)生的時序數(shù)據(jù)等。這個過程,也是實施數(shù)據(jù)治理,提升數(shù)據(jù)質(zhì)量,實現(xiàn)數(shù)據(jù)標準化的過程。
2
供給側:重點關注的數(shù)據(jù)質(zhì)量維度
數(shù)據(jù)質(zhì)量問題貫穿整個“數(shù)據(jù)供應鏈”。我們經(jīng)常聽到:“垃圾進,垃圾出”,這句話是指高質(zhì)量數(shù)據(jù)分析結果,取決于高質(zhì)量的數(shù)據(jù)輸入,輸入的數(shù)據(jù)質(zhì)量低下,數(shù)據(jù)分析結果也叫沒有什么價值。以及筆者經(jīng)常提的“數(shù)據(jù)治理要從源頭抓起”,也是說的這個意思。重點都在強調(diào)數(shù)據(jù)供給側保障數(shù)據(jù)質(zhì)量的重要性。數(shù)據(jù)供給側更多的是站在數(shù)據(jù)生產(chǎn)者或數(shù)據(jù)管理者的角度看數(shù)據(jù)質(zhì)量的,重點關注以下的5個數(shù)據(jù)質(zhì)量維度。
1
數(shù)據(jù)完整性
數(shù)據(jù)完整性體現(xiàn)在三個方面:
元數(shù)據(jù)的完整性
例如:唯一性約束完整性、參照完整性等;
數(shù)據(jù)條目完整性
例如:數(shù)據(jù)記錄丟失或不可用會影響數(shù)據(jù)的完整性;
數(shù)據(jù)屬性完整性
例如:數(shù)據(jù)屬性空值情況等。
2
數(shù)據(jù)準確性
數(shù)據(jù)的準確性也叫數(shù)據(jù)可靠性,狹義上的數(shù)據(jù)準確性是用于分析、識別和度量哪些是不準確的或無效的數(shù)據(jù)的。
3
數(shù)據(jù)一致性
數(shù)據(jù)一致性主要體現(xiàn)在兩個方面:
多源數(shù)據(jù)的數(shù)據(jù)模型不一致
例如:命名不一致、數(shù)據(jù)結構不一致、約束規(guī)則不一致。
數(shù)據(jù)實體不一致
例如:數(shù)據(jù)編碼不一致、命名及含義不一致、分類層次不一致、生命周期不一致……。相同的數(shù)據(jù)有多個副本的情況下的數(shù)據(jù)不一致、數(shù)據(jù)內(nèi)容沖突等問題。
4
數(shù)據(jù)唯一性
數(shù)據(jù)唯一性是用于識別和度量重復數(shù)據(jù)、冗余數(shù)據(jù)。重復數(shù)據(jù)是導致業(yè)務無法協(xié)同、流程無法追溯的重要因素,也是數(shù)據(jù)治理需要解決的最基本的數(shù)據(jù)質(zhì)量問題。
5
數(shù)據(jù)有效性
數(shù)據(jù)有效性用于度量數(shù)據(jù)是否符合既定的條件,不符合條件的視為無效數(shù)據(jù)。例如:在統(tǒng)計當前在職的職工人數(shù)時,數(shù)據(jù)集中的已離職人員應當被剔除出去。
低下的數(shù)據(jù)質(zhì)量是實現(xiàn)數(shù)據(jù)賦能、數(shù)據(jù)驅動的頭號敵人,只有提高供給側的數(shù)據(jù)質(zhì)量,才能保證輸出的數(shù)據(jù)服務或數(shù)據(jù)應用是有價值的。當然,供給是由需求驅動的,以上5個數(shù)據(jù)治理維度同樣也適用于需求側,這5個維度也是廣義上的數(shù)據(jù)準確性。
3
需求側:超越準確性的數(shù)據(jù)質(zhì)量維度
從數(shù)據(jù)供給側(生產(chǎn)和管理的角度)來看,數(shù)據(jù)質(zhì)量主要關注準確性。其目標是盡可能地將數(shù)據(jù)與現(xiàn)實世界的實體相匹配。通過實施數(shù)據(jù)清理、修復數(shù)據(jù)、轉換等一系列數(shù)據(jù)管理工作旨在提高數(shù)據(jù)準確性。
如果我們將視角切換至“數(shù)據(jù)供應鏈”的需求側,也就是站在數(shù)據(jù)消費者、業(yè)務人員(下文統(tǒng)稱:數(shù)據(jù)用戶)的角度看,人們對數(shù)據(jù)質(zhì)量的需求將超越準確性,并在此基礎之上增加三個維度,
可訪問性
對數(shù)據(jù)用戶來講,最核心的需求是當他們需要用數(shù)據(jù)的時候,這些數(shù)據(jù)是可以被訪問的。他們想知道企業(yè)有哪些數(shù)據(jù)?存放在哪里?以及如何訪問到這些數(shù)據(jù)?我們看到很多數(shù)據(jù)平臺提供的統(tǒng)一數(shù)據(jù)資源目錄功能就是解決這個問題的。
及時性
數(shù)據(jù)的價值在于能夠被使用,如果不能及時使用,可訪問的數(shù)據(jù)就沒有價值。及時性定義了數(shù)據(jù)在需要時是否可用,過期的數(shù)據(jù)帶來的結果可能是誤導或誤判,保證數(shù)據(jù)的及時性在一定程度上是保證業(yè)務創(chuàng)新性和前瞻性的基礎。與實時性相比,及時性強調(diào)在需要時間內(nèi)準時送達,它可以是實時的,也可以是定時的,但一定是準時的,發(fā)生在你需要的時候。
相關性
當數(shù)據(jù)的可訪問性和及時性得到滿足,用戶很大程度都會將關注度放到相關性上來。數(shù)據(jù)的相關性是指數(shù)據(jù)之間,或數(shù)據(jù)與用戶之間的某種關聯(lián)關系,例如:函數(shù)關系、相關系數(shù)、主外鍵關系、索引關系等。我們在數(shù)據(jù)治理過程中經(jīng)常說的相關性問題,就是指數(shù)據(jù)間或數(shù)據(jù)與用戶間的關聯(lián)關系缺失或錯誤,這可能會導致用戶將大量的精力放在了不相關的數(shù)據(jù)上,或者引發(fā)出的數(shù)據(jù)準確性問題。
及時的、準確的、可信且可訪問的數(shù)據(jù)是業(yè)務和管理的基礎,是數(shù)據(jù)驅動的靈魂,需要站在完整個“數(shù)據(jù)供應鏈”的全局視角來制定考量數(shù)據(jù)質(zhì)量的策略,這一過程需要數(shù)據(jù)生產(chǎn)者、管理者、使用者共同參與其中。數(shù)據(jù)生產(chǎn)者和使用者必須定義出需要什么樣的數(shù)據(jù),什么數(shù)據(jù)對業(yè)務是重要的,而數(shù)據(jù)的管理者必須專注于提供業(yè)務所需的重要數(shù)據(jù)。
4
提升企業(yè)數(shù)據(jù)質(zhì)量的8點建議
1
業(yè)務需求和影響評估
數(shù)據(jù)質(zhì)量改進的驅動因素永遠來自業(yè)務目標,不能脫離業(yè)務需求談數(shù)據(jù)質(zhì)量。制定數(shù)據(jù)質(zhì)量改進方案的基礎,首先是清晰定義業(yè)務需求,然后是根據(jù)業(yè)務需求對企業(yè)業(yè)務的長期影響來定義數(shù)據(jù)質(zhì)量問題的優(yōu)先級。衡量業(yè)務影響、定義問題優(yōu)先級有助于明確治理目標并跟進數(shù)據(jù)質(zhì)量改進的進度。
2
全面盤點和正確描述
全面的數(shù)據(jù)盤不僅可以幫助您回答:有哪些數(shù)據(jù),數(shù)據(jù)在哪里,以及如何訪問數(shù)據(jù)等問題。同時,也能夠幫助您正確理解數(shù)據(jù),例如:數(shù)據(jù)描述了什么,數(shù)據(jù)對業(yè)務的價值在哪里,以及如何獲得最大價值。當您需要確定數(shù)據(jù)是否“準確”或是否滿足業(yè)務所需的時候,全面的數(shù)據(jù)盤點和對數(shù)據(jù)的正確描述,是您理解數(shù)據(jù)和提升數(shù)據(jù)質(zhì)量的有效方法。
3
數(shù)據(jù)質(zhì)量從源頭抓起
“從源頭解決數(shù)據(jù)質(zhì)量問題”是筆者一直秉承的觀點。但很多時候,我們依然看到一些數(shù)據(jù)治理項目將治理重點放在了數(shù)據(jù)副本上,例如通過修復副本中的錯誤或建立各種映射表,以支持下一步的數(shù)據(jù)分析。其實,這是一種“治標不治本”的做法,原始數(shù)據(jù)集仍然存在質(zhì)量問題,影響其后續(xù)使用。從源頭解決數(shù)據(jù)質(zhì)量問題是提高數(shù)據(jù)質(zhì)量、防止不良數(shù)據(jù)傳播的最佳方法。
正如Gartner專家說:一個數(shù)據(jù)的生命周期有兩個有趣的時刻,創(chuàng)建時刻和使用時刻。如果您可以在創(chuàng)建數(shù)據(jù)時最大限度地減少錯誤并始終從源頭解決質(zhì)量問題,那么就可以確保使用時的數(shù)據(jù)質(zhì)量。
4
能選擇的時候別輸入
形成可供選擇的值域,是一個有效避免人為因素錯誤、提升數(shù)據(jù)質(zhì)量的操作性技巧。當用戶以不同的形式輸入數(shù)據(jù)的時候,難免發(fā)生一些“人為”的錯誤,例如:輸入的數(shù)據(jù)多一個空格,大小寫,簡繁體,特殊符合不規(guī)范使用等常見數(shù)據(jù)質(zhì)量問題。解決這個問題的有效方法是為這些數(shù)據(jù)定義好標準數(shù)據(jù)值域/值集(或稱數(shù)據(jù)字典),以避免用戶的輸入錯誤。
5
建立數(shù)據(jù)驅動的文化
事實上,數(shù)據(jù)驅動也能夠反作用于數(shù)據(jù)質(zhì)量。在企業(yè)中,建立數(shù)據(jù)驅動的文化和行為規(guī)范,更好地使用數(shù)據(jù),能夠反向促進數(shù)據(jù)質(zhì)量的提升。數(shù)據(jù)驅動文化是“數(shù)據(jù)質(zhì)量、人人有責”的文化,在企業(yè)范圍內(nèi)對數(shù)據(jù)需求定義、數(shù)據(jù)質(zhì)量目標達成共識,以便持續(xù)推進數(shù)據(jù)質(zhì)量問題的改進和優(yōu)化。
6
DataOps——數(shù)據(jù)運營
DataOps是將DevOps的理念延伸到了數(shù)據(jù)領域,提供了一種更加自動化的數(shù)據(jù)運營方式,以提高數(shù)據(jù)分析的質(zhì)量和敏捷性。DevOps是建立在3個原則之上:持續(xù)集成、持續(xù)交付和持續(xù)部署,對應到DataOps就是利用自動化數(shù)據(jù)管理工具,實現(xiàn)數(shù)據(jù)的數(shù)據(jù)的發(fā)現(xiàn)、集成和準備自動化,并支持數(shù)據(jù)質(zhì)量的持續(xù)測量,在整個企業(yè)范圍內(nèi)持續(xù)交付準確、可信的數(shù)據(jù)。
7
數(shù)據(jù)質(zhì)量,防大于治
數(shù)據(jù)質(zhì)量管理不僅僅在于糾正當前的數(shù)據(jù)質(zhì)量問題,還在于防止未來的發(fā)生類似數(shù)據(jù)質(zhì)量問題。評估和解決企業(yè)數(shù)據(jù)質(zhì)量問題的根本原因是預防問題發(fā)生的關鍵。例如:是否正確定義了業(yè)務需求以及對應的數(shù)據(jù)質(zhì)量指標?業(yè)務流程是手動的還是自動化的?數(shù)據(jù)質(zhì)量的利益相關者能否直接參與數(shù)據(jù)質(zhì)量問題的解決?企業(yè)的數(shù)據(jù)驅動文化是否牢固到位?
8
數(shù)據(jù)質(zhì)量成效評估
定期對企業(yè)的數(shù)據(jù)質(zhì)量改進情況進行成效評估,有利于提升數(shù)據(jù)治理的成熟度,并為下一階段的數(shù)據(jù)質(zhì)量改進提供參考依據(jù)。與相關部門、相關人員就數(shù)據(jù)質(zhì)量問題、產(chǎn)生的原因、采取的措施、改進的結果進行交流,讓更多的人將積極參與到數(shù)據(jù)質(zhì)量改進中來,進一步鞏固企業(yè)的數(shù)據(jù)文化。
總結
數(shù)據(jù)驅動是依靠數(shù)據(jù)來賦能決策和運營,高質(zhì)量數(shù)據(jù)無疑是實現(xiàn)數(shù)據(jù)驅動的保證。高質(zhì)量數(shù)據(jù)意味著高質(zhì)量的洞察力、值得信賴的分析報告,可優(yōu)化的業(yè)務流程,更加良好的客戶體驗和更好的投資回報率。