午夜视频无码一级毛片,一级a毛片免费视频久久精品,精品人妻AV无码一区二区三区,美欧一级毛片在线,黄片一级在线观看,一级黄片内射视频,一区二区黄色一级片毛片,一级毛片试看120分钟,国产一区二区三区黄色电影

您的位置:首頁 >資訊 > 消費 > 正文

一文讀懂數(shù)據(jù)中臺前世今生 破解“數(shù)據(jù)驅動業(yè)務”密碼

來源:壹點網(wǎng) 時間:2021-08-24 20:25:35

“袋鼠云經(jīng)過長年的摸索和積累,確定了獨有的數(shù)據(jù)中臺產(chǎn)品化方向和技術架構,打磨出的“數(shù)棧DTinsight”產(chǎn)品顯著異于其他廠商,某種意義上講,我們認為它很好地詮釋了云原生數(shù)據(jù)中臺,是新一代的數(shù)字化基礎設施。”—— 袋鼠云數(shù)棧事業(yè)部總經(jīng)理閔佳

圖片1.png

袋鼠云數(shù)棧事業(yè)部總經(jīng)理閔佳

今年中國信息通信研究院發(fā)布了《中國數(shù)字經(jīng)濟發(fā)展白皮書》,報告指出2020年中國數(shù)字經(jīng)濟規(guī)模達到39.2萬億元,占GDP比重為38.6%,同比名義增長9.7%。能夠看出國內數(shù)字經(jīng)濟的發(fā)展勢頭十分迅猛,企業(yè)自身的數(shù)字化建設和轉型迫在眉睫,其中對數(shù)據(jù)的治理、管理、應用是企業(yè)運營關注的首要焦點。

8月中旬,當我們在采訪閔佳先生的過程中提及:“數(shù)據(jù)中臺”概念正處于大熱炒作期或將面臨紅海競爭,袋鼠云的數(shù)據(jù)中臺產(chǎn)品應當如何破局時,閔佳的回答得十分從容,顯得胸有成竹。

“數(shù)據(jù)中臺還處于一個龐大的增量市場中,我們的產(chǎn)品與解決方案還顯著區(qū)別于其他廠商的,陷入紅海競爭的概率并不大。”閔佳說到。

企業(yè)數(shù)字化轉型道路上,面臨的障礙與難關“在過去服務客戶與服務項目的過程中,我們總結了關于企業(yè)推進數(shù)字化建設的痛點,”閔佳認為,數(shù)據(jù)中臺如何將自身業(yè)務產(chǎn)生的數(shù)據(jù)資產(chǎn)化是一項重要任務,數(shù)據(jù)資產(chǎn)的質量也決定了其應用效果,而數(shù)據(jù)資產(chǎn)化有賴于高效的數(shù)據(jù)質量管理工作。

“想要將數(shù)據(jù)轉化為資產(chǎn),首先需要經(jīng)過一套完整的數(shù)據(jù)清晰流程,包括建立數(shù)據(jù)管理標準、數(shù)據(jù)接入渠道、數(shù)據(jù)質量核查評估體系等。”閔佳向我們列舉了在企業(yè)發(fā)展過程中,隨著各種信息系統(tǒng)的上線所逐步產(chǎn)生的數(shù)據(jù)采集方式,覆蓋了從業(yè)務數(shù)據(jù),行為數(shù)據(jù),系統(tǒng)日志數(shù)據(jù),IOT數(shù)據(jù)等,數(shù)據(jù)類型涵蓋結構化數(shù)據(jù),半結構化數(shù)據(jù)到非結構化數(shù)據(jù)等來源不一、形式不一、標準不一的復雜數(shù)據(jù)類型。“如此多的原始數(shù)據(jù)蘊含的信息量和價值是龐大的,但是用人力去做計算、清理工作量和成本是龐大的,而且?guī)缀鯚o法完成,這就是為什么許多企業(yè)懂得數(shù)據(jù)資產(chǎn)的重要,卻遲遲不能建立數(shù)據(jù)資產(chǎn)庫的原因,它本身就是一件知易行難的事情。”

企業(yè)在試圖挖掘數(shù)據(jù)價值,實現(xiàn)數(shù)據(jù)業(yè)務化的過程中,常常面臨各種痛點和難點:

第一是數(shù)據(jù)孤島嚴重的問題。囪式的應用開發(fā)模式,導致數(shù)據(jù)分散在不同的業(yè)務系統(tǒng)中,數(shù)據(jù)割裂嚴重,無法有效整合打通,很難做統(tǒng)一的分析與統(tǒng)計,難以發(fā)揮全域數(shù)據(jù)的價值;

第二是重復開發(fā)。缺少數(shù)據(jù)沉淀、數(shù)據(jù)共享機制,當有新的數(shù)據(jù)需求時,重復開發(fā)導致人力資源、計算資源浪費嚴重;

第三是數(shù)據(jù)管理困難。數(shù)據(jù)沒有統(tǒng)一的標準和定義,分散在不同的存儲上,沒有統(tǒng)一的數(shù)據(jù)入口,元數(shù)據(jù)維護、在線化管理困難;

第四是技術門檻高。數(shù)據(jù)采集、離線處理、實時處理、數(shù)據(jù)挖掘等需要用到不同的技術和組件,并且技術更新快,組件版本升級頻繁,熟練掌握這些技術,需要花費大量的精力;

最后是需求響應慢。為了滿足不同業(yè)務方的數(shù)據(jù)需求,需要從多個業(yè)務系統(tǒng)中進行數(shù)據(jù)采集,再做復雜的轉換加工,缺乏工具和臺方面的支撐,疲于應付臨時提數(shù)分析需求,無暇顧及臺級建設和數(shù)據(jù)治理,惡循環(huán)。

從單機數(shù)據(jù)庫到數(shù)據(jù)中臺:四代數(shù)倉技術的變革歷程“顯而易見,企業(yè)數(shù)字化轉型中遭遇的一系列痛點在呼喚催生數(shù)據(jù)中臺,但數(shù)據(jù)中臺的概念產(chǎn)生和實際落地并非一步到位,而是經(jīng)歷漫長了的發(fā)展過程。”閔佳向我們展示了關于四代數(shù)倉發(fā)展的一個簡要歷史資料——為了解決數(shù)據(jù)孤島的問題,實現(xiàn)數(shù)據(jù)分析,數(shù)據(jù)支撐業(yè)務決策,賦能業(yè)務的需求,二十世紀九十年代,數(shù)據(jù)倉庫之父Bill Inmon提出數(shù)據(jù)倉庫的概念,在之后的30年時間里,數(shù)據(jù)倉庫技術經(jīng)過了四代的發(fā)展和變革。

圖片2.png

第一代:SMP架構

share-storage共享存儲架構,采用EMC/IBM高端存儲,優(yōu)點是使用簡單方便,和OLTP的數(shù)據(jù)庫技術棧一致,缺點是存儲昂貴,磁盤數(shù)據(jù)讀寫效率低,并且只能擴展到十幾個節(jié)點,比較典型的是Orale、Oracle RAC、DB2等產(chǎn)品。

第二代:MPP架構

為了解決節(jié)點擴展問題,出現(xiàn)了share-nothing的MPP架構,內存、存儲都是自控制的,不存在共享。每個節(jié)點都是一個單獨的數(shù)據(jù)庫,采用本地計算的模式,節(jié)點之間的數(shù)據(jù)交互通過節(jié)點互聯(lián)網(wǎng)絡實現(xiàn)。通過將數(shù)據(jù)分布到多個節(jié)點上來實現(xiàn)海量數(shù)據(jù)的存儲,通過并行查詢處理來提高查詢能,這種架構以TeraData, HP Vertica,EMC GreenPlum等產(chǎn)品為代表。缺點是,新的節(jié)點加入的時候,數(shù)據(jù)需要重新分布,每次計算的時候,如果數(shù)據(jù)不在本節(jié)點,需要通過網(wǎng)絡把數(shù)據(jù)移動過來,當節(jié)點較多的時候,移動數(shù)據(jù)耗費大量的IO和網(wǎng)絡資源,這樣就導致當集群規(guī)模到100個節(jié)點規(guī)模的時候,就很難繼續(xù)橫向擴展。

第三代:分布式架構

隨著數(shù)據(jù)量的增長,為了解決更大規(guī)模的節(jié)點擴展問題,Google在2006年發(fā)表了三篇設計論文,也就是著名的三駕馬車: GFS、MapReduce、BigTable。依據(jù)此理論,產(chǎn)生了HDFS、MapReduce、 HBase等優(yōu)秀的分布式組件,Hadoop生態(tài)圈開始蓬勃發(fā)展,直至今日,Hadoop在各行各業(yè)廣泛應用,為了支持不同的場景,不斷地有新的組件加入到Hadoop體系,例如Kudu 、Presto、Spark、Flink等。同時為了解決各種大數(shù)據(jù)組件繁瑣的安裝、管理、服務等問題,也產(chǎn)生了一些專門做Hadoop發(fā)行版的商業(yè)化公司,例如Cloudera、MapR、華為等。

第四代:新一代數(shù)倉架構-數(shù)據(jù)中臺

Hadoop的橫空出世,雖然解決了海量數(shù)據(jù)量下的節(jié)點擴展,和各種計算場景的支持問題,但Hadoop生態(tài)圈,技術組件繁多,版本更新頻繁,相當于一個重型武器,因此大數(shù)據(jù)相關人才需要花費大量的時間才能掌握此技術,并且開發(fā)效率低,管理復雜,而且后續(xù)組件和任務運維都要投入非常大的資源。為了解決這些問題,最幾年,數(shù)據(jù)中臺的理念開始在各行各業(yè)普及和落地,數(shù)據(jù)中臺最核心的價值是沉淀公共數(shù)據(jù)能力和產(chǎn)品技術能力,強調數(shù)據(jù)和技術能力的復用,數(shù)倉架構也從以前主要解決存儲和計算問題,轉到數(shù)據(jù)管理和數(shù)據(jù)應用,屏蔽底層技術的復雜、多樣,形成一站式、智能化的數(shù)倉產(chǎn)品,通過這些產(chǎn)品高效的支持數(shù)據(jù)應用的快速創(chuàng)新。

“數(shù)據(jù)中臺不再是一個產(chǎn)品,更多的是一種強調資源整合、集中配置、能力沉淀、分步執(zhí)行的運作機制,是一系列數(shù)據(jù)組件或模塊的集合,指向企業(yè)的業(yè)務場景。”閔佳總結道。

數(shù)據(jù)中臺賦能企業(yè)數(shù)字化轉型,成為降本增效新引擎第四代數(shù)倉架構,也就是數(shù)據(jù)中臺的誕生為企業(yè)提供了全新的數(shù)據(jù)采集、存儲、計算、數(shù)據(jù)管理、數(shù)據(jù)共享,通過數(shù)據(jù)處理和沉淀形成對于前臺業(yè)務提供復用價值的數(shù)據(jù)資產(chǎn),打通數(shù)據(jù)間、業(yè)務間的隔閡。“實際上數(shù)據(jù)中臺早已逐漸脫離純粹的技術層面概念,而是成為企業(yè)在管理層面的臺和工具。”這是閔佳和袋鼠云對數(shù)據(jù)中臺的一個全新理解。

我們了解到,數(shù)據(jù)中臺的核心在于業(yè)務及數(shù)據(jù)的一體化,它提供的是一種方法和通路,因此不受限于企業(yè)規(guī)模、業(yè)務種類、復雜程度等因素,能夠被廣泛應用到各行各業(yè)中,如商業(yè)領域的金融、零售、電商、快消、地產(chǎn)、公共事務領域的教育、軍工、政務等一系列場景,實現(xiàn)多領域及行業(yè)的“中臺化”。對此閔佳表示贊同,并且通過簡單的舉例,向我們展示了數(shù)據(jù)中臺對企業(yè)的具體賦能和作用:“我們認為數(shù)據(jù)中臺幫助企業(yè)降本增效的效果是明顯的,拿外賣店家或品牌門店來講,在過去一家多門店,多SKU的企業(yè)希望掌握,應用自身在各個環(huán)節(jié)、端點、業(yè)務線上產(chǎn)生的數(shù)據(jù),需要巨大的人力、物力和時間成本,易受數(shù)據(jù)源混亂,數(shù)據(jù)難治理等問題的影響,最終會放大決策結果的不可控;但是在引入數(shù)據(jù)中臺后,數(shù)據(jù)中臺通過商家接入的外賣臺、小程序、APP客戶端或線下門店等數(shù)據(jù)源采集治理數(shù)據(jù),形成從訂單、物料、會員到門店的一系列整合數(shù)據(jù),指導商家在渠道整合、物料留存、用戶資產(chǎn)和運營效益方面的管理,同時這些數(shù)據(jù)資產(chǎn)能夠為商家進一步的業(yè)務優(yōu)化提供決策依據(jù),如新品開發(fā)、供應鏈管理、營銷手段的調整等等。”

袋鼠云“數(shù)棧DTinsight”這樣定義數(shù)據(jù)中臺

“我們也做過市場調研,目前市面上的數(shù)據(jù)中臺服務商非常多,有從做前臺、后臺產(chǎn)品轉入做中臺的,也有云供應商拓展業(yè)務涉足數(shù)據(jù)中臺領域的。如果作為一個對數(shù)據(jù)中臺沒有了解的客戶,僅看各家廠商對自家產(chǎn)品的描述會很容易產(chǎn)生選擇困難癥,無所適從,但是在我們實際與客戶接觸洽談過后,多數(shù)客戶反饋能夠記住我們的產(chǎn)品特,這本質上是由于我們對數(shù)據(jù)中臺有著顯著差異于其他廠商的定義。”閔佳在談及數(shù)棧DTinsight時,向我們詳細展示了許多來自客戶或合作伙伴的反饋意見。

從閔佳對數(shù)棧DTinsight的介紹中,我們主要從兩個方面進行了總結:依據(jù)數(shù)據(jù)中臺滿足企業(yè)治理、管理、應用數(shù)據(jù)需求的賦能標準,袋鼠云從產(chǎn)品化方向和技術架構兩個維度對數(shù)棧DTinsight進行了獨特的設計與定義。

圖片3.png

在產(chǎn)品化方向上,袋鼠云在整合企業(yè)業(yè)務數(shù)據(jù)、運維數(shù)據(jù)和設備數(shù)據(jù)的基礎上,設計了企業(yè)數(shù)據(jù)“臺化”、“資產(chǎn)化”和“服務化”的三個核心步驟:

一.臺化:Hadoop相關技術組件使用復雜、技術門檻高、版本更新迭代快,完成整條數(shù)據(jù)處理鏈路,涉及到數(shù)據(jù)采集、數(shù)據(jù)加工處理、任務發(fā)布管理、任務調度、任務運維等多個環(huán)節(jié)。從計算場景上,又分批處理、流式處理、數(shù)據(jù)挖掘等。因此在開發(fā)臺層產(chǎn)品上,需要屏蔽存儲和計算引擎層的技術復雜度,支持多種不同的計算任務類型,同時通過一站式、一體化的臺,把整個數(shù)據(jù)鏈路全部集成和打通,從而降低技術的門檻,提高開發(fā)、運維管理的效率。

二.資產(chǎn)化:開發(fā)臺經(jīng)過ETL處理后,產(chǎn)生了大量的可以被業(yè)務直接使用的有價值的數(shù)據(jù),但是數(shù)據(jù)質量如何保障?數(shù)據(jù)資產(chǎn)如何高效管理起來?這成為企業(yè)面臨的大問題,因此需要建設資產(chǎn)臺,校驗數(shù)據(jù)質量,保障數(shù)據(jù)產(chǎn)出的正確和有效,同時可以在線的、可視化的對數(shù)據(jù)進行管理,完善元數(shù)據(jù)信息,制定數(shù)據(jù)標準,對數(shù)據(jù)進行分級分類,安全管理,并分析數(shù)據(jù)熱度,數(shù)據(jù)血緣關系,提供統(tǒng)一的數(shù)據(jù)訪問入口。

三.服務化:沉淀有效的數(shù)據(jù)資產(chǎn),最終需要給業(yè)務應用提供數(shù)據(jù)服務,產(chǎn)生數(shù)據(jù)價值,因此在數(shù)據(jù)服務的時候,需要統(tǒng)一的數(shù)據(jù)服務的出口,保障數(shù)據(jù)在安全,可控的范圍內使用,并進行實時在線的訪問監(jiān)管。

在技術架構維度,數(shù)棧DTinsight主要包含六類設計:

一.云原生:云原生主要涉及到計算的彈伸縮和計算存儲分離。大數(shù)據(jù)計算任務大部分都是在凌晨開始運行,傳統(tǒng)的基于Yarn的資源調度模式,面臨晚上計算資源不足,白天又浪費嚴重,因此需要基于云原生的架構,容器化編排,統(tǒng)一計算調度,根據(jù)任務量情況,自動彈伸縮,提高資源的利用率。

大數(shù)據(jù)場景對計算資源的要求要高于存儲資源,計算資源和存儲資源需求不均衡,大部分情況下先碰到計算資源不足,在計算和存儲資源耦合的情況下,為了擴展計算能力,存儲資源也一起擴展了,帶來了大量的存儲浪費,因此計算和存儲分離后,可以根據(jù)需求,單獨擴充計算資源,降低成本。

二.信創(chuàng):信息技術應用創(chuàng)新發(fā)展是目前的國家戰(zhàn)略,也是當今形勢下國家經(jīng)濟發(fā)展的新動能,我國明確了“數(shù)字中國”建設戰(zhàn)略,搶占數(shù)字經(jīng)濟產(chǎn)業(yè)鏈制高點的目標。在信創(chuàng)數(shù)據(jù)中臺產(chǎn)品上,主要體現(xiàn)核心技術自主可控,以及開源開放等兩方面。核心技術自主可控是大趨勢,因此基于開源框架,具備源碼二次開發(fā)和優(yōu)化能力,并沉淀技術能力、自主知識產(chǎn)權,同時產(chǎn)品也需要擁抱信創(chuàng)生態(tài)體系,包含對國產(chǎn)數(shù)據(jù)庫、操作系統(tǒng)、服務器等多個領域全面國產(chǎn)化適配。

三.湖倉一體:數(shù)據(jù)倉庫屬于強schema,事先建模,主要存儲的是以關系型數(shù)據(jù)庫組織起來的結構化數(shù)據(jù)。數(shù)據(jù)通過轉換、清洗后,再導入到目標表中。優(yōu)勢在數(shù)據(jù)管理方便,弱點在于靈活

數(shù)據(jù)湖屬于弱schema,事后建模,主要存儲任何類型的數(shù)據(jù),包括像圖片、文檔這樣的非結構化數(shù)據(jù),存儲成本也更為廉價,讀取的時候再進行schema解析。優(yōu)勢在于靈活,快速得到結果,存儲成本低,弱點在于缺少數(shù)據(jù)管理能力,以及對數(shù)據(jù)質量的保障。而企業(yè)對數(shù)據(jù)的需求中,這兩種場景都存在,因此為了管理方便,通過湖倉一體的架構,打通多種不同的數(shù)據(jù)存儲,并構建統(tǒng)一的元數(shù)據(jù)管理,實現(xiàn)數(shù)據(jù)湖和數(shù)倉的一體化。

四.批流一體:大數(shù)據(jù)處理主要分批處理和流式處理,傳統(tǒng)一般采用Lambda架構,批處理和流處理分別采用不同的技術架構,然后在數(shù)據(jù)服務層合并成統(tǒng)一的數(shù)據(jù)視圖,此種方式需要維護兩套分布式系統(tǒng),和兩套不同的ETL代碼,增加了大量的開發(fā)和維護成本。為了提高開發(fā),運維的效率,因此需要統(tǒng)一的技術框架,通過一套計算引擎、一套代碼實現(xiàn)批處理、流式處理等多種計算場景,大幅度提高開發(fā)效率。

五.多引擎兼容:在企業(yè)發(fā)展過程中,隨著數(shù)據(jù)倉庫技術的演進,會存在多種計算引擎共存的情況,例如有Oracle、GreenPlum、Hadoop等多套大數(shù)據(jù)環(huán)境,每套環(huán)境中都有大量的業(yè)務數(shù)據(jù),和任務在運行,因此需要一套統(tǒng)一的臺來對接多套不同的集群,提供統(tǒng)一的開發(fā)體驗。

六.跨云能力:隨著這幾年大量企業(yè)開始接受公有云模式,業(yè)務和數(shù)據(jù)逐步遷移到阿里云,騰訊云,華為云等云臺上,甚至部分企業(yè)已經(jīng)購買了云廠商的EMR產(chǎn)品服務,因此需要數(shù)據(jù)中臺臺具備跨云部署,以及對跨云EMR的兼容能力,在復用云上服務器,計算集群的同時,提供統(tǒng)一的數(shù)據(jù)管控的入口。

袋鼠云結合數(shù)據(jù)中臺的理論,通過以上的產(chǎn)品方向和技術架構,研發(fā)出的數(shù)棧DTinsight作為新一代的數(shù)據(jù)倉庫產(chǎn)品,能夠最大程度幫助企業(yè)降低成本,提高大數(shù)據(jù)基礎設施的投入產(chǎn)出比。

數(shù)據(jù)中臺發(fā)展走向何方?

“未來,數(shù)據(jù)中臺將成為企業(yè)核心數(shù)字化戰(zhàn)略之一,它體現(xiàn)了數(shù)據(jù)結合業(yè)務、數(shù)據(jù)間打通的新的企業(yè)管理思路,通過打造具備集企業(yè)研發(fā)、營銷、財務、技術、業(yè)務、算法等賦能于一體的管理臺推動企業(yè)數(shù)字化的轉型。同時,數(shù)據(jù)中臺產(chǎn)品還在獨立部署、行業(yè)云和公有云方面存在著較大的規(guī)模商業(yè)化機會和發(fā)展空間。”閔佳對袋鼠云和數(shù)據(jù)中臺未來的發(fā)展空間保持著樂觀的態(tài)度。

同時,閔佳還分別介紹了這幾類場景的服務核心與價值:

獨立部署場景常常被應用于涉密行業(yè)、金融、軍工等對數(shù)據(jù)隱私,數(shù)據(jù)安全的要求非常高的行業(yè)領域,在相當長的時間里,這些行業(yè)的核心業(yè)務還會是在私有環(huán)境為主,和外部環(huán)境是網(wǎng)絡隔離狀態(tài),因此對于這類客戶,產(chǎn)品主要還是以獨立部署形態(tài)存在,即一套環(huán)境,客戶內部獨享使用的模式,這樣能最大限度保障數(shù)據(jù)安全,和降低數(shù)據(jù)泄露的風險。

行業(yè)云的特點主要體現(xiàn)在專業(yè)和服務精細化方面,在一些大型集團,以及行業(yè)非常強的領域,會統(tǒng)一建設行業(yè)云臺,為行業(yè)客戶提供軟硬件基礎服務,例如金融云,移動云,各地的政務云等,在這些行業(yè)云臺上,提供數(shù)據(jù)中臺產(chǎn)品,可以進一步的提高已有客戶的粘,發(fā)揮行業(yè)臺的價值。

公有云的核心屬是共享資源服務,適用于數(shù)據(jù)在云上的企業(yè),做到開箱即用,使用便捷,彈伸縮,成本低廉是這些企業(yè)共同的訴求,因此對于這類客戶,未來有機會產(chǎn)生國內版的Snowflake,通過技術手段充分利用幾大云廠商的基礎設施的優(yōu)勢,實現(xiàn)彈伸縮、計算存儲分離、跨云支持、按量付費等,為客戶提供極致的數(shù)據(jù)中臺SaaS服務。

在采訪結束前,閔佳對數(shù)據(jù)中臺做出了總結敘述并再次強調了袋鼠云對數(shù)據(jù)中臺的理解與定義:“數(shù)據(jù)中臺作為銜接“前臺”與“后臺”的技術架構,強調的是數(shù)據(jù)及技術對前臺業(yè)務的復用價值,通過數(shù)據(jù)治理方式,形成有價值的數(shù)據(jù)資產(chǎn),并充分利用數(shù)據(jù)資產(chǎn)形成服務。同時“袋鼠云正是通過自身獨有的“臺化”、“資產(chǎn)化”和“服務化”的核心步驟和更為綜合豐富的技術架構,重新設計定義了這個推進業(yè)務數(shù)據(jù)化、數(shù)據(jù)業(yè)務化,構建數(shù)據(jù)廣泛采集、合理共享、高效利用機制的閉環(huán),滿足企業(yè)客戶以數(shù)據(jù)驅動業(yè)務,以數(shù)據(jù)創(chuàng)業(yè)業(yè)務,以數(shù)據(jù)管理業(yè)務的需求,助力企業(yè)的數(shù)字化轉型,并起到降本提效的作用。”

免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。

相關閱讀