大會(huì)中推出了很多新項(xiàng)目,在整個(gè)戰(zhàn)略中Amazon Redshift處于“核心C位”,在存儲(chǔ)、查詢和分析中都發(fā)揮重要價(jià)值,而今年Redshift新發(fā)布的功能特性也有點(diǎn)多得數(shù)不過(guò)來(lái),這些功能特性有一個(gè)核心目標(biāo)就是化繁為簡(jiǎn)。在經(jīng)過(guò)了從0到1的技術(shù)突破和從1到100的規(guī)?;?,亞馬遜云科技正在努力嘗試著做從1到0的事情,這里的從1到0是面向客戶的,衡量的是客戶的復(fù)雜任務(wù)。即使是從100的手動(dòng)操作到1的自動(dòng)化仍然不夠,目標(biāo)是從1到0,消除這些瑣碎和不應(yīng)該困擾的工作,實(shí)現(xiàn)像Serverless一樣的目標(biāo),讓客戶全身心投入到業(yè)務(wù)中去。
更優(yōu)雅的數(shù)據(jù)分享
從Redshift到Redshifts
Redshift用戶通常都擁有不止一個(gè)集群(或者Serverless),那它們之間是怎么進(jìn)行有效地協(xié)作呢?答案是Data Sharing。Redshift的Data Sharing功能從推出到現(xiàn)在已經(jīng)快一年半時(shí)間了,客戶將它用在組織內(nèi)實(shí)現(xiàn)不同的數(shù)據(jù)架構(gòu),如Data Mesh等。Data Sharing功能使用起來(lái)非常方便,并且支持跨賬號(hào)、跨區(qū)域以及跨集群和Serverless模式,這過(guò)程中數(shù)據(jù)并沒(méi)有任何移動(dòng),是通過(guò)Zero Copy的方式實(shí)現(xiàn)(又一個(gè)從1到0的故事)。
一個(gè)生產(chǎn)者對(duì)應(yīng)一個(gè)消費(fèi)者的情況非常容易理解并進(jìn)行管理,但是企業(yè)面臨的往往是數(shù)十個(gè)甚至成百上千的不同數(shù)據(jù)之間需要相互共享,記錄并維護(hù)這些相互交錯(cuò)的數(shù)據(jù)共享就變得十分困難,這時(shí)候企業(yè)尤其需要一個(gè)能集中管理跨不同組織和部門的數(shù)據(jù)共享權(quán)限工具,Lake Formation再次出場(chǎng)。
Lake Formation服務(wù)的目標(biāo)就是為了簡(jiǎn)化數(shù)據(jù)的集中管理,此前Lake Formation基于獨(dú)特的集中權(quán)限模型(數(shù)據(jù)目錄資源和基于標(biāo)簽的授權(quán)模式),可以對(duì)數(shù)據(jù)湖的數(shù)據(jù)進(jìn)行細(xì)粒度的集中訪問(wèn)控制(數(shù)據(jù)表、行、列等),并且可以很方便地與其他服務(wù)如Athena、QuickSight,當(dāng)然還有Redshift的集成。這一次,Lake Formation和Redshift的集成再一次加強(qiáng)了,提供了集中管理Redshift Data Sharing的能力,客戶可以使用統(tǒng)一的Lake Formation集中查看和管理Redshift Data Sharing,也可以讓數(shù)據(jù)消費(fèi)者發(fā)現(xiàn)和使用這些Redshift Data Sharing,并繼續(xù)沿用經(jīng)過(guò)驗(yàn)證的細(xì)粒度權(quán)限機(jī)制,保障數(shù)據(jù)使用的安全性。
另外,可以根據(jù)自己的實(shí)際情況,使用Lake Formation集中地、安全地管理Redshift的大規(guī)模數(shù)據(jù)共享,或許用來(lái)構(gòu)建按需自主使用的、面向領(lǐng)域的、數(shù)據(jù)即服務(wù)的數(shù)據(jù)架構(gòu)。
Amazon DataZone是數(shù)據(jù)治理方向的一大驚喜。即使有Lake Formation帶飛,企業(yè)中的數(shù)據(jù)使用者仍然很難找到合適的業(yè)務(wù)數(shù)據(jù),尤其是數(shù)據(jù)還分散在不同的國(guó)家、地區(qū)、部分以及各種數(shù)據(jù)賬戶中。即使數(shù)據(jù)使用方找到數(shù)據(jù),往往也不了解其中數(shù)據(jù)的真實(shí)含義,需要自己對(duì)其進(jìn)行一系列的摸索,當(dāng)然,這些都是通過(guò)了數(shù)據(jù)訪問(wèn)控制的難關(guān)之后。
數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師如何能一起愉快地協(xié)作,而不是各個(gè)團(tuán)隊(duì)做著重復(fù)的技術(shù)工作,沒(méi)有帶出真實(shí)的業(yè)務(wù)價(jià)值輸出,這始終是一個(gè)企業(yè)需要不斷思考的問(wèn)題。Amazon DataZone給出了一個(gè)選項(xiàng),目標(biāo)是打通業(yè)務(wù)數(shù)據(jù)通道,實(shí)現(xiàn)從一開(kāi)始就能反映業(yè)務(wù)領(lǐng)域?qū)傩缘臄?shù)據(jù)架構(gòu)設(shè)計(jì),再配合發(fā)布/訂閱和事件驅(qū)動(dòng)的模式,一切都是為了簡(jiǎn)化數(shù)據(jù)的使用,讓數(shù)據(jù)發(fā)揮真正的價(jià)值。
當(dāng)然,DataZone和本文主角Redshift的集成是無(wú)縫銜接的,Redshift數(shù)倉(cāng)既可以是數(shù)據(jù)生產(chǎn)者也可以是數(shù)據(jù)消費(fèi)者。
穩(wěn)定、可靠、合規(guī)
居家旅行必備
上述強(qiáng)大的功能全速推進(jìn)著Redshift向前發(fā)展,但同時(shí)它也需要一個(gè)穩(wěn)定的基座。今年re:Invent發(fā)布的其他幾項(xiàng)更新同樣發(fā)揮著重要作用。
首先是多AZ部署(沒(méi)錯(cuò),Redshift原來(lái)是單AZ模式,但是不用擔(dān)心,RA3節(jié)點(diǎn)類型集群的數(shù)據(jù)是持久化在S3中的),像其他多AZ部署服務(wù)一樣(例如RDS),客戶可以選擇在多個(gè)可用區(qū)部署Redshift實(shí)現(xiàn)提高可用性。多AZ部署通過(guò)自動(dòng)恢復(fù)的能力來(lái)縮短恢復(fù)時(shí)間,特別適用于關(guān)鍵的業(yè)務(wù)分析場(chǎng)景,可以保證RPO=0、RTO<1分鐘的數(shù)據(jù)恢復(fù)。
數(shù)據(jù)備份集中管理服務(wù)Amazon Backup新補(bǔ)充了對(duì)Redshift的支持,可以集中地管理備份策略,進(jìn)一步保護(hù)Redshift的數(shù)據(jù)。另外,對(duì)于許多國(guó)內(nèi)出海的用戶,他們尤其需要關(guān)注GDPR等隱私法規(guī),所以新功能動(dòng)態(tài)數(shù)據(jù)屏蔽千萬(wàn)不能錯(cuò)過(guò),它可以用來(lái)保護(hù)Redshift中的敏感數(shù)據(jù)信息,并且在不用為不同用戶創(chuàng)建不同數(shù)據(jù)拷貝的前提下完成。