午夜精品一区二区三区国产av_国产一区二区在线日韩_亚洲 欧美 日韩 在线_国产精品成人麻豆_九九视频免费在线观看_91亚洲理论午夜_亚洲AⅤ无码一级毛片一夜妓_在线观看欧美黄色_欧美在线完整高清观看_综合少妇久久影视

從經(jīng)驗角度描述:在數(shù)據(jù)倉庫建設(shè)中的會遇到的各種坑和需要注意的關(guān)鍵點

時間:2023-08-30 點擊:164次
前言
大數(shù)據(jù)時 代,作為數(shù)據(jù)的掌握者,我們不僅要更好地使用數(shù)據(jù),也要更好地管理數(shù)據(jù)。而數(shù)據(jù)倉庫正是這樣一套管理和組織數(shù)據(jù)的解決方案。
本文試圖從一種經(jīng)驗的角度來描述在數(shù)據(jù)倉庫建設(shè)中的會遇到的各種坑和需要注意的關(guān)鍵點,希望以此幫助踏上數(shù)據(jù)倉庫之路的小伙伴們。
注意:本文不會詳細(xì)地解釋數(shù)據(jù)倉庫的各個概念,亦不會給出各種示例代碼來闡述數(shù)據(jù)倉庫的建設(shè)細(xì)節(jié)。

請理解數(shù)據(jù)倉庫和數(shù)據(jù)平臺的區(qū)別
當(dāng)你開始建設(shè)數(shù)據(jù)倉庫之前,需要明白數(shù)據(jù)倉庫和數(shù)據(jù)平臺是兩個不同的概念,不要把搭建一套 hadoop + hive 的平臺叫數(shù)據(jù)倉庫,這是數(shù)據(jù)平臺的范疇。
我們常說的數(shù)據(jù)倉庫不僅僅是指數(shù)據(jù)接入、數(shù)據(jù)存儲和數(shù)據(jù)計算,它也要包括數(shù)據(jù)治理、數(shù)據(jù)建模和數(shù)據(jù)挖掘。比如元數(shù)據(jù)管理、維度建模和 olap 分析,這些都是我們在建設(shè)數(shù)據(jù)倉庫時候要考慮的內(nèi)容。

提前規(guī)劃你的數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是公司數(shù)據(jù)體系的核心模塊,數(shù)據(jù)倉庫可以做的不好,但是不能不做。
因此,在數(shù)據(jù)體系設(shè)計的前期最好要有一定的規(guī)劃,即使最簡單的表和字段命名的規(guī)范也能帶來很大的收益。
另外,從數(shù)據(jù)開發(fā)的角度出發(fā),在做各種臨時數(shù)據(jù)處理需求的時候也要有數(shù)據(jù)倉庫的思維,多嘗試抽象出來數(shù)據(jù)中間層,這樣對公司和對自己的成長都是有幫助的。

實現(xiàn)輕量級的數(shù)據(jù)倉庫
如果業(yè)務(wù)的快速發(fā)展不能留給你太多的時間來實現(xiàn)一個完善的數(shù)據(jù)倉庫,那么可以考慮在前期實現(xiàn)一個輕量級的數(shù)據(jù)倉庫,以盡可能小的成本帶來最大收益。關(guān)于這個輕量級的數(shù)據(jù)倉庫,建議優(yōu)先考慮如下幾個點:
1.明確數(shù)據(jù)分層
2.確定可執(zhí)行的表和字段命名規(guī)范
3.定期抽象出常用的中間表
4.建設(shè)元數(shù)據(jù)管理系統(tǒng),或者建設(shè)文檔庫,提供中間表的文檔說明

不要脫離業(yè)務(wù)場景
做數(shù)據(jù)一定要記得貼近業(yè)務(wù),雖說會有很多臨時和重復(fù)需求,但卻能切實地創(chuàng)造價值。
切記不要以為可以完全脫離業(yè)務(wù)去做一套數(shù)據(jù)倉庫,我們可以在數(shù)據(jù)倉庫的某個層次不以業(yè)務(wù)需求為導(dǎo)向來設(shè)計,但是最終面向業(yè)務(wù)的數(shù)據(jù)一定會是和業(yè)務(wù)理解有關(guān)。

文檔!文檔!
數(shù)據(jù)倉庫建設(shè)的初期,要逐步沉淀出各種文檔,比如模型設(shè)計文檔、字段命名規(guī)范文檔、sql 開發(fā)規(guī)范文檔。文檔是數(shù)據(jù)倉庫沉淀的最直觀的一種體現(xiàn),這也是技術(shù)積累的一部分。
最重要的是,如果元數(shù)據(jù)系統(tǒng)沒有成型,那就要把數(shù)據(jù)倉庫中間表的內(nèi)容沉淀到文檔中,盡量做到一表一文檔。這樣不管是從節(jié)約溝通成本的角度,亦或是增加團隊積累,更或是完成 kpi 的角度考慮,都是有很大益處的。

盡早布局?jǐn)?shù)據(jù)質(zhì)量管理
請盡早布局?jǐn)?shù)據(jù)質(zhì)量管理的內(nèi)容,不要等到發(fā)生嚴(yán)重的數(shù)據(jù)事故后才注意到數(shù)據(jù)質(zhì)量問題。關(guān)于數(shù)據(jù)質(zhì)量監(jiān)控,如果沒有足夠的時間和精力做一套完整的系統(tǒng),可以先從以下幾個點入手,這樣至少能對自己有一層基本的保護:
1.核心數(shù)據(jù)每日數(shù)據(jù)量級監(jiān)控和告警
2.重要業(yè)務(wù)指標(biāo)監(jiān)控和告警
3.主要業(yè)務(wù)流程各階段數(shù)據(jù)的監(jiān)控和告警

多使用視圖表
多使用視圖表對外提供數(shù)據(jù)服務(wù),它可以有效地屏蔽業(yè)務(wù)方對最底層表結(jié)構(gòu)變更的感知,同時加強權(quán)限管理。
如下場景可以多考慮使用視圖表:
1.該表經(jīng)常會有加字段的需求
2.該表的計算口徑會出現(xiàn)變化,需要并行跑多份數(shù)據(jù),某個時間點進行表切換
3.該表可能會對不同人或部門提供服務(wù),希望不同人或部門可讀的字段不同
視圖表主要是來晚上表結(jié)構(gòu)變更、口徑修改和權(quán)限管理的場景,不要濫用而增加維護成本。

考慮你的職業(yè)發(fā)展
不要一直埋著頭搞 etl,可以搞半年或一年來了解大致的業(yè)務(wù)和技能,但不能長期這樣發(fā)展?,F(xiàn)在開源平臺相對成熟,長時間搞 etl,會弱化自己的技術(shù)深度,如果再沒有數(shù)據(jù)挖掘相關(guān)的項目經(jīng)驗,很容易在以后得面試中被淘汰。
因此,建議各位數(shù)據(jù)開發(fā)的小伙伴,如果你近一年的工作主要都是在用 sql 做 etl,那就要有一點危機意識,經(jīng)常反思一下自己是否有成長,核心競爭力是否有所提現(xiàn)。
如果有些心虛,可以考慮在數(shù)據(jù)倉庫、數(shù)據(jù)挖掘或者核心平臺開發(fā)上下一些功夫。