10月27-28日,由高校畢業(yè)生就業(yè)協(xié)會主辦,江南大學(xué)、江蘇信息職業(yè)技術(shù)學(xué)院等承辦的高校畢業(yè)生就業(yè)協(xié)會教育數(shù)字化服務(wù)工作委員會暨高校教育數(shù)字化轉(zhuǎn)型與人才培養(yǎng)論壇在江蘇省無錫市圓滿召開,迪塔維作為支持單位受邀出席。席間,迪小數(shù)發(fā)現(xiàn)很多老師對我們的“職業(yè)院校大數(shù)據(jù)中心”建設(shè)方案非常感興趣,所以本期話題,我們就本著探究與學(xué)習(xí)的態(tài)度,與大家一起聊聊《全國職業(yè)院校大數(shù)據(jù)中心建設(shè)指南》(以下簡稱“指南”)中的大數(shù)據(jù)中心怎么建。
說起“指南”,今年6月份,教育部教育管理信息中心印發(fā)《職業(yè)教育信息化標桿學(xué)校建設(shè)指南》、《職業(yè)教育信息化標桿學(xué)校監(jiān)測指標》、《職業(yè)院校大數(shù)據(jù)中心建設(shè)指南》系列指導(dǎo)文件,目標到2025年,建設(shè)300所左右數(shù)字資源豐富、功能應(yīng)用強大、賦能效果良好、示范引領(lǐng)突出的全國性標桿校,帶動建設(shè)1000所左右區(qū)域性標桿校,引導(dǎo)職業(yè)院校進一步豐富拓展師生發(fā)展、教育教學(xué)、實習(xí)實訓(xùn)、管理服務(wù)等方面的應(yīng)用場景,以數(shù)字化賦能職業(yè)院校教學(xué)模式深度變革,促進數(shù)字技術(shù)與教育教學(xué)深度融合,帶動職業(yè)教育數(shù)字化水平整體提升,服務(wù)數(shù)字時代高素質(zhì)技術(shù)技能人才培養(yǎng)。
職業(yè)院校數(shù)字校園建設(shè)試點是標桿校建設(shè)的重要基礎(chǔ)。數(shù)字校園試點工作中,建設(shè)校本大數(shù)據(jù)中心、對接院校中臺、參與國家智慧職教平臺資源與應(yīng)用建設(shè)等任務(wù),既是參與標桿校建設(shè)的基礎(chǔ)條件,也是標桿校建設(shè)任務(wù)的重要組成。“指南”是職業(yè)院校校本大數(shù)據(jù)中心建設(shè)、應(yīng)用、運維工作的規(guī)范和指導(dǎo)。簡而言之,建設(shè)標桿校,需要根據(jù)“指南”要求,不斷完善校本數(shù)據(jù)中心。
其實看到“指南”,我們也是驚喜且興奮的,因為學(xué)校能夠知道大數(shù)據(jù)中心怎么建,我們也能看到自己的產(chǎn)品與“國家隊”的差距。欣慰的是,逐條對標后,我們發(fā)現(xiàn)產(chǎn)品與“指南”要求高度吻合,而“指南”中對專有名詞的釋義更加權(quán)威、合理,這也為我們后續(xù)產(chǎn)品的優(yōu)化提供了明確的方向。
一、“What to do?”/
學(xué)校大數(shù)據(jù)中心建設(shè)主要包括頂層設(shè)計、數(shù)據(jù)標準與數(shù)據(jù)架構(gòu)設(shè)計、數(shù)據(jù)質(zhì)量與安全管理、數(shù)據(jù)應(yīng)用、大數(shù)據(jù)平臺建設(shè)、全國職業(yè)教育智慧大腦院校中臺對接等內(nèi)容。我們的理解,頂層設(shè)計是策略,標準與架構(gòu)設(shè)計是核心,質(zhì)量與安全是保障,應(yīng)用是路徑,大數(shù)據(jù)平臺是工具,智慧大腦對接是前提。
二、“How to do?”/
“指南”中“大數(shù)據(jù)中心平臺技術(shù)框架”章節(jié)詳細描述了服務(wù)大數(shù)據(jù)中心建設(shè)所需的技術(shù)結(jié)構(gòu)和工具(如圖所示),采用分層結(jié)構(gòu),包括數(shù)據(jù)源層、數(shù)據(jù)匯聚層、數(shù)據(jù)存儲與管理層、數(shù)據(jù)分析與開發(fā)層、數(shù)據(jù)應(yīng)用層、以及數(shù)據(jù)治理監(jiān)控層。所謂“工欲善其事,必先利其器”,數(shù)據(jù)為基,數(shù)鏈為線,治用并舉,方為“智”治。

▲?大數(shù)據(jù)中心平臺工具框架圖

▲ 迪塔維大數(shù)據(jù)中心總體架構(gòu)圖
我們一層一層來看:
數(shù)據(jù)源
數(shù)據(jù)源從類型上可分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù);從來源上可分為校內(nèi)數(shù)據(jù)(業(yè)務(wù)數(shù)據(jù))及校外數(shù)據(jù)(互聯(lián)網(wǎng)數(shù)據(jù))。隨著物聯(lián)網(wǎng)及融媒體技術(shù)的蓬勃發(fā)展,教學(xué)課件、安防視頻、人車進出照片、OA發(fā)文的各類附件文檔等非結(jié)構(gòu)化數(shù)據(jù)和校外互聯(lián)網(wǎng)數(shù)據(jù)以日益增長的態(tài)勢,成為數(shù)據(jù)治理、數(shù)據(jù)分析的一大重要組成,同樣大數(shù)據(jù)中心也要將此類數(shù)據(jù)納入治理口徑。
數(shù)據(jù)匯聚
“數(shù)據(jù)匯聚作為底層基礎(chǔ)支撐性服務(wù),是大數(shù)據(jù)環(huán)境的基礎(chǔ)組成部分。通過Datax、Kettle等主流ETL工具對學(xué)校的多源異構(gòu)數(shù)據(jù)匯聚需考慮不同類型(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)、不同集成策略(定期采集、實時采集)的數(shù)據(jù)匯聚方案,并支持數(shù)據(jù)的預(yù)處理,為大數(shù)據(jù)環(huán)境提供原始數(shù)據(jù)支撐。”
Datax、Kettle等工具雖主流,但操作繁瑣,實時集成需要外掛其他引擎,依然屬于傳統(tǒng)的ETL模式,我們的破局之法是:通過流批一體數(shù)據(jù)集成引擎,實現(xiàn)各類異構(gòu)數(shù)據(jù)源(包括非結(jié)構(gòu)化數(shù)據(jù))的統(tǒng)一匯聚,通過實時湖倉完成數(shù)據(jù)分層建設(shè),實現(xiàn)標準化數(shù)據(jù)的清洗轉(zhuǎn)換等處理過程。只要源端滿足條件,流處理引擎就可以適配各類主流關(guān)系型數(shù)據(jù)庫的實時同步,將CDC(變化數(shù)據(jù)捕捉)的制約條件降至最低,支持邏輯主鍵、物化視圖、BlOB大字段的實時同步,并提供集成策略推薦。通過可視化的配置界面,將繁瑣的操作黑盒化,降低數(shù)據(jù)匯聚作業(yè)的開發(fā)難度。
另外,批處理又保留了ETL工具強大的批量計算及數(shù)據(jù)清洗轉(zhuǎn)換能力,基于統(tǒng)一調(diào)度實現(xiàn)各類集成任務(wù)的在線編排和調(diào)度,與流處理自由切換,即“流批一體”,為每個高校的數(shù)據(jù)匯聚場景適配最優(yōu)的數(shù)據(jù)同步方案。
數(shù)據(jù)存儲與管理
“數(shù)據(jù)存儲與管理層是大數(shù)據(jù)處理環(huán)境的核心,它存儲由數(shù)據(jù)采集層采集回來的各類數(shù)據(jù)和數(shù)據(jù)治理后的各個層次的數(shù)據(jù),并為上層應(yīng)用提供數(shù)據(jù)處理的能力?!?nbsp;顯然,這是大數(shù)據(jù)中心的核心所在。大數(shù)據(jù)底座支撐大數(shù)據(jù)中心數(shù)據(jù)存儲、匯聚、交換、傳輸、計算的全過程,其性能和架構(gòu)將直接影響大數(shù)據(jù)環(huán)境的運行。
迪塔維大數(shù)據(jù)底座搭載自研流批一體集成引擎、分布式湖倉、流式數(shù)據(jù)傳輸Kafka集群等內(nèi)置組件,對時效性、穩(wěn)定性、擴展性和性能進行全面提升,分布式、高容錯、高穩(wěn)定,數(shù)據(jù)存儲體系足夠健壯,同時能為用戶提供完整的大數(shù)據(jù)Hadoop生態(tài)等技術(shù)組件,便于擴展數(shù)據(jù)存儲、計算、調(diào)度、共享等延伸需求。

▲ 數(shù)據(jù)存儲與管理邏輯架構(gòu)圖
從數(shù)據(jù)存儲架構(gòu)劃分上來說,我們把數(shù)據(jù)實體分為數(shù)據(jù)源層、貼源層數(shù)據(jù)湖(ODS)、數(shù)據(jù)倉庫標準層(DWD)和數(shù)據(jù)倉庫應(yīng)用層(ADS)四大部分,數(shù)據(jù)源通過實時入湖操作1:1復(fù)制進入貼源層,經(jīng)對標、清洗、脫敏后進入數(shù)據(jù)倉庫標準層,圍繞學(xué)?;A(chǔ)管理范疇劃分主題域,應(yīng)用層則以標準層為基礎(chǔ),構(gòu)建命名規(guī)范、口徑一致的數(shù)據(jù)模型及指標,為上層數(shù)據(jù)應(yīng)用輸出主題、指標模型。本存儲架構(gòu)與“指南”在“數(shù)據(jù)架構(gòu)設(shè)計”章節(jié)提出的數(shù)據(jù)貼源層(ODS)、數(shù)據(jù)倉庫層(DW)和數(shù)據(jù)應(yīng)用層(ADS)三層分布完全吻合。
數(shù)據(jù)分析與開發(fā)
“數(shù)據(jù)分析與開發(fā)層提供對數(shù)據(jù)的探查與自主分析和圖形化的數(shù)據(jù)開發(fā)?!?我們通過可視化拖拽方式實現(xiàn)數(shù)據(jù)實時集成、實時計算、腳本開發(fā)(SQL、SHELL、PYTHON)、算法開發(fā),為深入挖掘數(shù)據(jù)要素潛力,我們還提供了一個支持R語言和Python語言編寫的Web應(yīng)用,可以在線創(chuàng)建、編譯、運行、共享代碼,實現(xiàn)深層次數(shù)據(jù)清洗轉(zhuǎn)換、數(shù)值模擬、統(tǒng)計建模、挖掘算法功能,幫助學(xué)校降低數(shù)據(jù)開發(fā)門檻,提高開發(fā)效率。支持基礎(chǔ)算法原子封裝,通過可視化建模過程,實現(xiàn)拖拽式數(shù)據(jù)智能分析與挖掘工作,發(fā)掘數(shù)據(jù)內(nèi)在關(guān)聯(lián)關(guān)系,深挖數(shù)據(jù)資產(chǎn)潛在價值,支持預(yù)警類、畫像類應(yīng)用精準化助力人才培養(yǎng)、主動關(guān)懷。

▲ 流計算可視化拖拽配置
數(shù)據(jù)應(yīng)用
數(shù)據(jù)應(yīng)用層是面向最終用戶劃分的,分為數(shù)據(jù)開放共享和數(shù)據(jù)可視化兩部分。我們在數(shù)據(jù)開放模塊提供了全場景、高安全的數(shù)據(jù)開放與共享接口開發(fā)注冊及監(jiān)控能力,圍繞數(shù)據(jù)資產(chǎn)服務(wù)的“開發(fā)-發(fā)布-監(jiān)控”流程,使數(shù)據(jù)資源共享更加體系化、流程化。另外,除要求的API接口形式之外,我們還提供在線查詢、文件下載、視圖開放共四類開放形式。
數(shù)據(jù)可視化作為最直觀可見的數(shù)據(jù)應(yīng)用場景,一直是各路廠商“卷技術(shù)、秀實力”的主戰(zhàn)場。我們不敢保證技術(shù)能力是最頂尖的,但是對于高校數(shù)據(jù)可視化場景下常用的組件、指標非常了解,多年實施經(jīng)驗也積累了豐富的可視化模板,可按需構(gòu)建領(lǐng)導(dǎo)駕駛艙、主題看板、移動端數(shù)據(jù)報告、聯(lián)屏IOC等可視化場景。結(jié)合流計算能力,大屏還可實時呈現(xiàn)數(shù)據(jù)同步、數(shù)據(jù)統(tǒng)計效果。
數(shù)據(jù)治理監(jiān)控
數(shù)據(jù)治理監(jiān)控層貫穿數(shù)據(jù)治理全過程,“指南”中重點提及了數(shù)據(jù)質(zhì)量監(jiān)控、安全監(jiān)控和需求監(jiān)控三個方面。我們的想法是對數(shù)據(jù)的全生命周期和使用痕跡都要形成全面的監(jiān)控和自動化追溯,數(shù)據(jù)從產(chǎn)生到消亡的全過程可記錄,從源頭到終端的所有轉(zhuǎn)換過程可追蹤,實現(xiàn)鏈路式數(shù)據(jù)管理體系,即“全鏈路體系”。所以我們的全鏈路監(jiān)控中心實現(xiàn)了包括對數(shù)據(jù)集成過程、數(shù)據(jù)資源建設(shè)情況、數(shù)據(jù)質(zhì)量及反饋情況、數(shù)據(jù)后臺實體空間運行情況、數(shù)據(jù)開放API訪問情況、數(shù)據(jù)血緣及數(shù)據(jù)應(yīng)用、數(shù)據(jù)影響、運行狀況等的監(jiān)控。同時,監(jiān)控中心還伴有預(yù)警功能,可對異常任務(wù)提醒及時關(guān)注。