今天我們主要從更偏技術(shù)的角度來探討數(shù)據(jù)質(zhì)量的問題,主要有4個方面。
第一個方面是與數(shù)據(jù)質(zhì)量相關(guān)的概念。
第二個方面是談?wù)勎覀儗τ跀?shù)據(jù)質(zhì)量的新認(rèn)知,既然是談數(shù)據(jù)質(zhì)量我們就需要先認(rèn)知一下什么叫數(shù)據(jù)質(zhì)量。
第三個方面是重點談一下我們在做數(shù)據(jù)質(zhì)量管理中的一些難點,其中會重點關(guān)注一下數(shù)據(jù)質(zhì)量的審查,因為審查會直接與我們的這個數(shù)據(jù)質(zhì)量的評判有直接關(guān)聯(lián)。
最后我會用一個例子來看一看企業(yè)進(jìn)行數(shù)據(jù)質(zhì)量管理的一些過程,希望能跟各位討論一下在談數(shù)據(jù)質(zhì)量管理的時候,我們應(yīng)該從哪方面去著眼。
01與數(shù)據(jù)質(zhì)量管理的相關(guān)概念
第一個方面我們來看看相關(guān)的知識,也就是與數(shù)據(jù)質(zhì)量管理相關(guān)的概念。
首先我們看這個DAMA 的DMBOOK,這個圖是我們典型的DMBOOK宣傳的9大板塊,其中有一個很重要的板塊叫data quality的管理。在這張圖中有關(guān)的數(shù)據(jù)質(zhì)量的這一塊中我們挑了4個點來講,我把它們總結(jié)為“固本清源”,表達(dá)了我的一個理解。首先是講定義,有些翻譯成規(guī)范,就是說在講數(shù)據(jù)質(zhì)量管理的時候,我們的定義是什么樣子的?第二個關(guān)注點是分析,就是說我們講數(shù)據(jù)質(zhì)量肯定離不開數(shù)據(jù),要去分析它的脈絡(luò)、分析它的關(guān)系。第三個是它的度量,其實也就是評估,在談這個評估的情況下,肯定是要有一個標(biāo)準(zhǔn),而且還有一套方法才能進(jìn)行度量。第四個就是improvement,這里強(qiáng)調(diào)的是管理的閉環(huán)。從數(shù)據(jù)質(zhì)量管理的角度,我想我們要關(guān)注“固本清源”,首先要從“本”來去了解數(shù)據(jù)的這些問題。
我們還有另外一個角度,這個是來自業(yè)界的一些實踐。我這里挑了一個,就是說談到data quality我們關(guān)注數(shù)據(jù)的什么呢?首先是這個輪廓,其實跟DAMA DMBOOK里面提到的“分析”是比較相同的,但是出發(fā)點是不一樣的。這里面更強(qiáng)調(diào)的是我們整個數(shù)據(jù)的屬性,是不同的角度。第二個我們談數(shù)據(jù)的清洗,做清洗就離不開規(guī)則,其實清洗的本質(zhì)是規(guī)則,而不是清洗的動作。第三個我們談監(jiān)控、監(jiān)管,我們要有監(jiān)控的能力和監(jiān)管的能力,就是說我們怎么識別它是有問題的,甚至是需要我們關(guān)注的。第四個就是遵從跟合規(guī)的問題。最后一個是可追溯,這個其實跟我們剛才的DAMA DMBOOK的里面是有同樣的角度了,之前是叫做分析溯源,在這里面就是可追溯性。
還有一個角度是來自技術(shù)界的角度,就是說我們站在技術(shù)的角度,我們怎么理解這個數(shù)據(jù)質(zhì)量管理。在業(yè)界里面我們在談技術(shù)的時候、我們在談這個數(shù)據(jù)質(zhì)量管理的時候,我們是有什么角度呢?在這個紅框里面大家可以看到,首先就是說我們要具備這樣的能力去做數(shù)據(jù)質(zhì)量管理,就算你用這個好的數(shù)據(jù)質(zhì)量管理工具,也應(yīng)該有這個能力。另外一個就是離不開ETL了,ETL我們認(rèn)為是數(shù)據(jù)集成。那還有清洗,剛才我們也提到了清洗的能力是怎么樣,包括它的匹配能力,在我們數(shù)據(jù)質(zhì)量管理里面有很多是離不開匹配的,比如說怎么去發(fā)現(xiàn)唯一性的問題。這些都是我們講到的,包括一些技術(shù)上的推薦、包括規(guī)則的發(fā)現(xiàn)、包括我們數(shù)據(jù)補(bǔ)充完善的一些問題等等。這是從技術(shù)界的角度來看數(shù)據(jù)質(zhì)量管理。
除了通過三個角度看它的不同聚焦的一些概念之外,這里還有一張圖,是一個示例。我們數(shù)據(jù)質(zhì)量管理的維度在哪里?這張圖比較好的表達(dá)了一個流程人員跟技術(shù)。作為一個數(shù)據(jù)質(zhì)量管理來講,其實我們是離不開這幾個維度去做工作。大家在討論的時候,不同的等級會討論不同的問題,比如說流程更偏管理、更偏我們的戰(zhàn)略、更偏我們的這種方法。People這一塊呢我們可能更講我們的組織架構(gòu),更講我們的這個人員的界定,更講我們的名單,講我們的收益。
02數(shù)據(jù)質(zhì)量的新認(rèn)知
第二部分我們想看一看數(shù)據(jù)質(zhì)量的認(rèn)知是什么。
我想通過一個例子,大家可以看一下這個場景。這個場景是太經(jīng)常碰到的情況,就是說我們在業(yè)務(wù)IT里面,大家可能不一定意識到它是一個數(shù)據(jù)質(zhì)量的問題。我舉個例子,這里面提到人員信息整合,怎么實現(xiàn)我們的員工渠道,包括IT外包人員信息的整合服務(wù),是非常業(yè)務(wù)驅(qū)動的一件事情。
假如說我們不站在數(shù)據(jù)的角度去看這個問題的時候,其實它是一個很標(biāo)準(zhǔn)的系統(tǒng)集成甚至是軟件開發(fā)的事情,但是往往我們在這里面會發(fā)現(xiàn)有很多是隱藏的數(shù)據(jù)質(zhì)量的問題。它要集成這三個系統(tǒng)的數(shù)據(jù)時,你就會看到他們的一些特點, 有ID、有staff ID、有郵箱、有聯(lián)絡(luò)信息。首先有一點是很重要的,就是規(guī)范,要是在這個定義規(guī)范角度沒有處理好的話,那這個就是數(shù)據(jù)質(zhì)量的一個很典型的問題。我們可以看到,我們要回答很多問題,這些問題就是說什么是正確的,什么是標(biāo)準(zhǔn)化的?究竟這個字段叫姓名是正確的,還是叫name是正確的?還有哪個是標(biāo)準(zhǔn)?還有代碼規(guī)范的問題,比如說性別。當(dāng)然還有一些關(guān)聯(lián)性的問題。很簡單的一個數(shù)據(jù)的整合,但是其實它背后存在著非常多的這些問題。那這些問題可能在你不關(guān)注的時候不是問題,當(dāng)你關(guān)注的時候它就是問題,就是數(shù)據(jù)質(zhì)量的問題。
Ronald G. Ross在 2018年美國的一個國際峰會里面有一個演講,我非常認(rèn)同他提到的這個數(shù)據(jù)質(zhì)量的問題。也就是說,歸根到底數(shù)據(jù)質(zhì)量并不是真正是你數(shù)據(jù)的問題,它是你的商業(yè)語義詞匯及業(yè)務(wù)規(guī)則的質(zhì)量問題。
對數(shù)據(jù)質(zhì)量,我們會有一個認(rèn)知,通過這張比較簡單的圖可以反映我們怎么看待這個數(shù)據(jù)質(zhì)量,從數(shù)據(jù)、信息語義到業(yè)務(wù)規(guī)則到業(yè)務(wù)運營。數(shù)據(jù)跟業(yè)務(wù)規(guī)則中間,我們隔了一個信息語義的問題,也就是說這種業(yè)務(wù)規(guī)則是靠數(shù)據(jù)跟信息語義來構(gòu)成我們所講的這個業(yè)務(wù)規(guī)則。
在這里面有一個非常簡單的例子,這個是一個保險界的問題。如果一個客戶下了訂單,他必須安排一個代理人跟進(jìn),這可能就是一個業(yè)務(wù)規(guī)則。談數(shù)據(jù)離不開IT,離不開系統(tǒng),雖然有管理的一面,但是還是有落地的一面。那我們把它分解了一下,如果一個客戶記錄里面有任何一個記錄訂單,那么這個客戶的記錄里相應(yīng)的要用標(biāo)識是否被派遣的代理人的字段必須填上系統(tǒng)認(rèn)可的標(biāo)志。一段業(yè)務(wù)規(guī)則分解到我們的系統(tǒng)其實是這樣子的。那我們會看到這里面涉及到幾個潛在的數(shù)據(jù)質(zhì)量問題,比如說表的重復(fù)記錄問題、理解歧義、標(biāo)識的一致性問題。雖然是一條業(yè)務(wù)規(guī)則,但是它潛在的這些分解會引導(dǎo)到我們的數(shù)據(jù)質(zhì)量里面去。
另外一個我們看信息語義,我們會關(guān)注幾個問題。一個是可讀性,可讀性對信息來講這個是蠻重要的,比如說我們剛才在我上面一個片子里面有講性別。比如說像可信賴的,什么叫可信賴呢?這里要講到它是遵從所有的業(yè)務(wù)規(guī)則,也就是說假如說我們這個信息它是經(jīng)過我們的遵從度的管理,甚至是我們的合規(guī)管理合規(guī)檢查過的,已經(jīng)通過我們的業(yè)務(wù)規(guī)則的甄別的,那就會提升它的可信賴度。
接下來我們看數(shù)據(jù)規(guī)則,剛才提到了我們從數(shù)據(jù)、信息然后才到規(guī)則,其實規(guī)則現(xiàn)在比較泛指這個規(guī)則,什么叫規(guī)則呢?只要是一套邏輯,我認(rèn)為就是規(guī)則,我認(rèn)為大家在討論這個數(shù)據(jù)質(zhì)量的時候,經(jīng)常會去這么理解。在大家做清洗的時候,它背后肯定是有一套業(yè)務(wù)邏輯,但是它反映的可能只是一些他的字段屬性。所以對數(shù)據(jù)的規(guī)則,我們會把它的顆粒度再分解一下,不是籠統(tǒng)的講規(guī)則或者叫業(yè)務(wù)規(guī)則。那這里面我們就分成三個層級,就比如說在屬性這個層級的,叫字段級。還有另外一個我們叫表這個層級的。那從字段到表到我們的業(yè)務(wù),到我們整體的關(guān)聯(lián)性,也就是說我們在表與表之間,我們還有它的業(yè)務(wù)規(guī)則的概念。另外一個就是我們叫行業(yè)規(guī)則,行業(yè)規(guī)則比如說我們銀保監(jiān)會的監(jiān)管的這些規(guī)則,包括我們保監(jiān)會也有很多規(guī)范,比如像我們醫(yī)療界也有很多這種安全規(guī)則。所以我們在談業(yè)務(wù)規(guī)則的時候,可能不能籠統(tǒng)的去談的什么是業(yè)務(wù)規(guī)則,因為它還是有分層的。我們只有把這些東西進(jìn)行分層之后,我們再來看怎么進(jìn)行這個數(shù)據(jù)質(zhì)量的度量,包括我們數(shù)據(jù)質(zhì)量衡量的一些角度,從哪里去看這些問題。
那我們就講到審查跟診斷的問題了。這幾個方面構(gòu)成了我們對一個企業(yè)的或者說一個系統(tǒng)的數(shù)據(jù)質(zhì)量的元素。數(shù)據(jù)它本身是沒有意義的,它只有把它的這個信息的定義,包括業(yè)務(wù)規(guī)則串起來,才有它存在的意義。所以這里面剛才我們也提到一點叫可讀性。就是說數(shù)據(jù)質(zhì)量,雖然我們講它有很硬性的這種定義,但是還是有一定的相對性。
我們剛才提到了數(shù)據(jù)剖析,在討論數(shù)據(jù)質(zhì)量的時候,這個環(huán)節(jié)是回避不了的??梢哉f我們對數(shù)據(jù)了解的多少,也反映了我們?nèi)プ鰯?shù)據(jù)質(zhì)量管理的深度。大家會看到就是不同的層級,越是粗淺的層次,我們的技術(shù)手段容易一點,越往深度的時候要求更高。我們講數(shù)據(jù)探查的時候、深入剖析的時候,這些問題都是我們對數(shù)據(jù)質(zhì)量的一些認(rèn)定。
當(dāng)然還有剛才講的度量的問題,我們究竟有沒有一個好的度量方法來去評估這個數(shù)據(jù)質(zhì)量,而不是停留在感覺上,我們能夠去進(jìn)行它的定量,那這種定量就來自于很多數(shù)據(jù)上的一些積累。有關(guān)信息也是一樣的,就是數(shù)據(jù)再擴(kuò)張了我們叫信息。另外一個就是我們的這個業(yè)務(wù)規(guī)則,從我們的數(shù)據(jù)、信息到業(yè)務(wù)規(guī)則這三個維度,我們來對一個數(shù)據(jù)的質(zhì)量進(jìn)行它的一些定量,包括它的一些分析,來最后確認(rèn)這個數(shù)據(jù)的一些狀況是什么,這個是稍微偏技術(shù)一點。
這張圖我們看看技術(shù)層面上跟管理層面上它的關(guān)聯(lián),這張圖左右互為因果。當(dāng)我們發(fā)現(xiàn)這個數(shù)據(jù)的一致性有問題的時候,準(zhǔn)確性有問題的時候,其實它隱藏的管理上的問題,可能就包括我們?nèi)笔?shù)據(jù)的所有權(quán)的責(zé)任,也就是說在我們的組織架構(gòu)里面,在我們的分管數(shù)據(jù)的主數(shù)據(jù)管理里面,這些管理上的缺失,它可能會導(dǎo)致一致性的問題,可能會導(dǎo)致準(zhǔn)確性的問題。反過來也是這樣。其實我們在談數(shù)據(jù)質(zhì)量的時候,我們談的不只是數(shù)據(jù)本身,談的還是數(shù)據(jù)質(zhì)量管理相關(guān)的管理政策組織,組織架構(gòu),包括我們的程序。
03 企業(yè)數(shù)據(jù)質(zhì)量管理的難點
前面重點還是關(guān)于數(shù)據(jù)質(zhì)量一些認(rèn)知,那后面我們看一看究竟數(shù)據(jù)質(zhì)量管理的難點在哪里?我跟很多客戶在交流的時候,大家都提到數(shù)據(jù)治理的目標(biāo)是什么?數(shù)據(jù)治理的其中一個最大的目標(biāo)就是要求提升數(shù)據(jù)質(zhì)量,這點是毋庸置疑的。當(dāng)然,評判我們的數(shù)據(jù)治理的成敗的時候,通常也會透過數(shù)據(jù)質(zhì)量的好壞來去驗證我們數(shù)據(jù)治理的好壞。因為不管數(shù)據(jù)治理做的再好,如果呈現(xiàn)出來的數(shù)據(jù)質(zhì)量是很差的,我相信沒法推動數(shù)據(jù)治理的。很多企業(yè)啟動數(shù)據(jù)治理的緣由就是來自數(shù)據(jù)質(zhì)量的問題。
那數(shù)據(jù)質(zhì)量的難點又是在哪里?我們剛才做了一些剖析,包括數(shù)據(jù)信息、業(yè)務(wù)規(guī)則等,每一個層級所發(fā)現(xiàn)的問題,都有可能導(dǎo)致數(shù)據(jù)質(zhì)量問題的產(chǎn)生,這就是我們要做數(shù)據(jù)質(zhì)量審查的原因。我相信這是企業(yè)做數(shù)據(jù)治理過程中無法回避的環(huán)節(jié),企業(yè)過濾無用數(shù)據(jù)、ETL、選規(guī)則等等,這些工作都是叫審查。
今天重點講一下關(guān)于審查技術(shù)和方法。這個內(nèi)容可能偏技術(shù)一些。
這里面我們講一講為什么要去做數(shù)據(jù)質(zhì)量審查。講到審查首先面臨的問題就有:樣本數(shù)據(jù)怎么來的?選什么樣的數(shù)據(jù)進(jìn)行審查?審查選擇數(shù)據(jù)的原則是什么?全量跟局部的關(guān)系是什么?增量跟存量的關(guān)系又是什么?如何才能選擇到能夠發(fā)現(xiàn)問題的樣本數(shù)據(jù)……
這些問題我們叫數(shù)據(jù)預(yù)處理,一般我們會選用局部的數(shù)據(jù),那我們探查的角度在哪里?審查之后分析,然后通過分析的結(jié)果最終找到問題所在。數(shù)據(jù)預(yù)處理探查也包括分析,我想這是一個方法。但這里涉及到數(shù)據(jù)質(zhì)量的管控流程,管控流程里的很多概念跟我前面講的三個不同的角度都有相關(guān)聯(lián),包括DAMA提及的都是相關(guān)聯(lián)的。
首先是剖析,這是在數(shù)據(jù)質(zhì)量里非常重要的一個環(huán)節(jié),包括驗證源數(shù)據(jù),首先我們需要搞清楚固本清源的問題;數(shù)據(jù)的流程問題;設(shè)計的問題;開發(fā)問題……相信很多企業(yè)也是按照這個流程走的,但難在剖析。如果在剖析里面沒有辦法發(fā)現(xiàn)問題,沒有辦法找到流程上的問題,設(shè)計開發(fā)就無從開展。包括很多返工問題也是因為我們沒有辦法非常快速的發(fā)現(xiàn)我們的業(yè)務(wù)規(guī)則,后面的轉(zhuǎn)換清洗也因為前面沒做好而無法開展,難點就是在此。
數(shù)據(jù)診斷是數(shù)據(jù)質(zhì)量管理必不可少的一步,我們談數(shù)據(jù)質(zhì)量管理,就要了解自己的數(shù)據(jù)質(zhì)量在什么程度,否則對我們管理的方法包括落地的成功率都會產(chǎn)生直接的影響。也就是說管理的閉環(huán)首先你要知道問題在哪里,才知道怎么去用,如果連問題都不知道,就沒有辦法去討論“improvement”這個概念。所以說數(shù)據(jù)診斷是數(shù)據(jù)質(zhì)量管理里面必不可少的。
回到數(shù)據(jù)質(zhì)量審查,我想大家在談數(shù)據(jù)質(zhì)量審查的時候,主要會從三個維度去看:時間、成本和能力,這三者決定了我們做數(shù)據(jù)質(zhì)量審查的效果。
首先是時間,因為我們在數(shù)據(jù)質(zhì)量管理或數(shù)據(jù)治理時,它是有窗口時間的,我想金融界的朋友會對窗口時間比較熟悉,比如你一個TB的數(shù)據(jù),在你用你的方法處理完的時候,后面兩個TB的數(shù)據(jù)已經(jīng)又要來了,就會發(fā)現(xiàn)前面的標(biāo)準(zhǔn)不對,后面發(fā)現(xiàn)的這個標(biāo)準(zhǔn)可能更重要,所以我要改掉前面的標(biāo)準(zhǔn),這個就叫窗口問題。也就是說我們在處理數(shù)據(jù)質(zhì)量的這個時候,它需要有一個窗口時間,而且需要一定的穩(wěn)定狀態(tài)。
第二個就是成本。這里包括人力成本以及資金成本等。
第三個就是能力問題。這邊提到一個2-8原則,通過有限度的或者說最少的投入來獲得最大的成效。一方面考慮到ROI的問題,另一方面是因為一開始就做到全量的數(shù)據(jù)質(zhì)量審查是不可能的,因為數(shù)據(jù)是動態(tài)的,你所說的全量也只是某一個moment,某一個環(huán)節(jié)某個時間片段里面的全量,也不是你真實的全量數(shù)據(jù),因為數(shù)據(jù)的產(chǎn)生是動態(tài)的。
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報,一經(jīng)查實,本站將立刻刪除。