導(dǎo)讀 傳統(tǒng)OLAP架構(gòu)
全文目錄:
EMR產(chǎn)品概述 EMR OLAP云原生 EMR OLAP客戶案例分析 EMR OLAP未來規(guī)劃分享嘉賓 | 琚克儉
(資料圖片)
編輯整理 |橘子
內(nèi)容校對(duì) |李瑤
出品社區(qū) | DataFun
01
EMR產(chǎn)品概述
首先分享一下EMR產(chǎn)品的優(yōu)勢(shì),以及可服務(wù)的場(chǎng)景
1. EMR產(chǎn)品優(yōu)勢(shì)與面向場(chǎng)景
EMR在各個(gè)云廠商中是標(biāo)準(zhǔn)產(chǎn)品
02
EMR OLAP云原生
這部分重點(diǎn)分享火山OLAP云原生的能力
1. OLAP云原生:企業(yè)級(jí)運(yùn)維
OLAP云原生提供了兩種形態(tài),半托管及全托管
2. OLAP云原生:極致彈性
在云上最主要是彈性能力,在這方面
3. OLAP云原生:成本管理
(1)成本和性能的平衡:
火山目前支持StarRocks/Doris此類OLAP集群與Hadoop/Spark集群的混合部署
,可以更好地進(jìn)行成本和性能的平衡。這種方式下,EMR的Master節(jié)點(diǎn)與Hadoop或Doris/SR的Master節(jié)點(diǎn)進(jìn)行混合部署,采用這種方式主要是考慮SR/Doris需要建立在高性能存儲(chǔ)/節(jié)點(diǎn)上,而Hadoop/Spark更多是低成本考量,基于此,相關(guān)Master節(jié)點(diǎn)進(jìn)行混合部署,而存儲(chǔ)或計(jì)算節(jié)點(diǎn)依然單獨(dú)部署,既保證了資源利用率,又保證了隔離性和生產(chǎn)穩(wěn)定性。(1)冷熱數(shù)據(jù)管理:
火山支持StarRocks/Doris智能的冷熱數(shù)據(jù)管理
。其核心架構(gòu)基于火山對(duì)象存儲(chǔ)方式,這個(gè)場(chǎng)景未來將具有更廣泛前景。目前StarRocks/Doris都有存算分離方式的趨勢(shì),通過對(duì)象存儲(chǔ)來實(shí)現(xiàn)成本管理的優(yōu)化。冷熱數(shù)據(jù)管理可能更具有技術(shù)預(yù)研性。目前冷熱數(shù)據(jù)管理主要應(yīng)用在湖倉(cāng)一體場(chǎng)景下,SR/Hadoop集群對(duì)數(shù)據(jù)訪問場(chǎng)景下,TOS本身可進(jìn)行冷熱策略管理,StarRocks/Doris自身也可以進(jìn)行冷熱分區(qū)管理和數(shù)據(jù)自動(dòng)遷移。4. OLAP云原生:面向查詢的智能分析
大小查詢及查詢的穩(wěn)定性等是實(shí)際生產(chǎn)中需要解決的問題
03
EMR OLAP客戶案例分析
這一部分將重點(diǎn)分享火山生態(tài)下不同客戶的應(yīng)用實(shí)踐
。1. 實(shí)時(shí)場(chǎng)景下某新廣告客戶
客戶相關(guān)背景情況:使用開源的Greenplum,存放近3個(gè)月的數(shù)據(jù)
,用于在線報(bào)表查詢;在線和離線數(shù)據(jù)存儲(chǔ)在不同地方,讀取離線數(shù)據(jù)需要先讀取到在線存儲(chǔ)中。客戶核心痛點(diǎn):實(shí)時(shí)性及查詢性能問題
,原有Gp模式需每15分鐘批量寫入最新數(shù)據(jù)到在線數(shù)據(jù)存儲(chǔ);實(shí)時(shí)更新能力;在線報(bào)表業(yè)務(wù)的聯(lián)合多維分析性能不佳。針對(duì)用戶情況火山提供了Doris+ES方案,通過客戶現(xiàn)有mysql+kafka業(yè)務(wù)數(shù)據(jù)庫經(jīng)過DataSail
,進(jìn)入Doris及ES。其中,Doris可適配不同的connector,ES在更新場(chǎng)景下對(duì)數(shù)據(jù)實(shí)時(shí)性要求比較高,特別是點(diǎn)更新場(chǎng)景,保證數(shù)據(jù)的實(shí)時(shí)性。(1)ES連接器優(yōu)化:catalog建表優(yōu)化
原有服務(wù)中Doris一般采用外表形式,每新增一個(gè)表均需Create External Table,我們進(jìn)行了Catalog方式的開發(fā)
(2)ES連接器優(yōu)化:下推優(yōu)化
這方面的優(yōu)化包括列裁剪