對話楊傳輝:國產(chǎn)數(shù)據(jù)庫新戰(zhàn)績背面,OceanBase堅(jiān)持自研的初心與決心 |
發(fā)布時(shí)間:2022-08-12 文章來源:本站 瀏覽次數(shù):2284 |
國產(chǎn)數(shù)據(jù)庫正在蓬勃開展,假勢分布式技能優(yōu)勢,沖進(jìn)了世界巨子的地盤。 作為管理數(shù)據(jù)的根底軟件,數(shù)據(jù)庫掌握著企業(yè)的命脈,牽一發(fā)而動全身,尤其是在中心事務(wù)中,稍有差錯(cuò)便可能造成無可挽回的丟失。跟著國產(chǎn)化呼聲漸漲,這門長期被海外巨子壟斷的要害生意,已成為本土企業(yè)必然收復(fù)的“失地”。 就在近來,全球威望IT咨詢機(jī)構(gòu)Forrester發(fā)布的2022年度Translytical方向的數(shù)據(jù)渠道廠商選型陳述,國產(chǎn)自研原生分布式數(shù)據(jù)庫OceanBase赫然在列。它也是全球唯三具有完成Forrester定義的分布式數(shù)據(jù)庫細(xì)分功用(單云、混合云、多云)全掩蓋才干的廠商。 OceanBase鉆研了長達(dá)12年的混合事務(wù)和剖析處理領(lǐng)域,如今正在數(shù)據(jù)庫職業(yè)熱度高漲。 憑仗能承載高并發(fā)事務(wù)實(shí)時(shí)處理與大規(guī)模數(shù)據(jù)實(shí)時(shí)事務(wù)決議計(jì)劃的才干,HTAP有望為企業(yè)更高效地發(fā)掘數(shù)據(jù)價(jià)值,大幅下降總本錢。跟著國內(nèi)相應(yīng)需求蓬勃而生,投入HTAP方向的數(shù)據(jù)庫從星星之火漸成燎原之勢。 作為創(chuàng)始成員之一,OceanBase CTO楊傳輝主導(dǎo)了歷代數(shù)據(jù)庫架構(gòu)設(shè)計(jì)和技能研制,使其挺過支付寶買賣體系、“雙11”等極致并發(fā)量場景的檢測,服務(wù)超越400家金融、能源、交通等職業(yè)客戶,并主導(dǎo)OceanBase成為僅有一家在世界數(shù)據(jù)庫基準(zhǔn)測驗(yàn)TPC-C和TPC-H上都打破世界記錄的國產(chǎn)原生分布式數(shù)據(jù)庫。 在與咱們交流的進(jìn)程中,楊傳輝對HTAP數(shù)據(jù)庫如數(shù)家珍,深化解讀了HTAP的中心技能、研制難點(diǎn)、落地應(yīng)戰(zhàn),并為企業(yè)怎樣做出適合事務(wù)的數(shù)據(jù)庫架構(gòu)挑選提供了一些參閱建議。除此之外,作為深耕數(shù)據(jù)庫逾十年的專家,他也共享了對國產(chǎn)數(shù)據(jù)庫開展機(jī)會和中心瓶頸的觀察。 一、什么是真實(shí)的HTAP?HTAP≠OLTP+OLAP 全國大勢,合久必分,分久必合,數(shù)據(jù)庫的開展亦是如此。 早期數(shù)據(jù)庫大包大攬,到上世紀(jì)末,因使用場景日趨豐富,逐步分化成OLTP和OLAP兩大類型,前者主管買賣,后者專攻剖析。如今,這兩大功用又走向交融。 跟著大數(shù)據(jù)浪潮奔涌而至,數(shù)據(jù)量急劇脹大,許多事務(wù)場景需應(yīng)對不斷增長的實(shí)時(shí)事務(wù)處理和剖析需求。一致支撐兩類功用的HTAP數(shù)據(jù)庫橫空出世,在企業(yè)級商場風(fēng)頭漸盛。 HTAP有兩大顯著的優(yōu)勢:低本錢、低延時(shí)。這不難理解,一套一起能做兩件事的體系,比較兩套體系具有更高的性價(jià)比;并且省去了繁瑣費(fèi)時(shí)的ETL進(jìn)程,下降延時(shí),更好支撐實(shí)時(shí)剖析。 一時(shí)間,各路數(shù)據(jù)庫都開端貼上“HTAP”的標(biāo)簽,云核算大廠也紛紛躍躍欲試。 但關(guān)于企業(yè)來說,給數(shù)據(jù)庫上新,不免要支付試錯(cuò)本錢,因而弄清楚HTAP究竟怎樣用、怎樣選型、重點(diǎn)考量哪些要素至為要害。這就觸及一個(gè)數(shù)據(jù)庫熱門話題——什么是真實(shí)的HTAP? 楊傳輝的答案是:在高功能OLTP數(shù)據(jù)庫的根底上擴(kuò)展OLAP的才干,能很好支撐實(shí)時(shí)剖析。 世界數(shù)據(jù)庫巨子Oracle、微軟SQL Server以及國產(chǎn)分布式數(shù)據(jù)庫龍頭OceanBase都選用這種做法,與前兩者不同的是,OceanBase底層是原生分布式架構(gòu),可擴(kuò)展性強(qiáng),因而能處理更大的數(shù)據(jù)量。 也有不少創(chuàng)企走的道路是在OLAP根底上引進(jìn)實(shí)時(shí)寫入,形成一個(gè)實(shí)時(shí)數(shù)據(jù)倉庫。走這種道路,假如不具有OLTP中心事務(wù)閱歷,可能很難做到支撐完整的事物處理才干。楊傳輝解說說,業(yè)界有些“HTAP產(chǎn)品”的事務(wù)處理功能較差,不是HTAP的問題,而是其產(chǎn)品設(shè)計(jì)完成的問題。 無論走哪種HTAP道路,都應(yīng)保證一個(gè)前提——一套體系,一份數(shù)據(jù)。 首先,將兩套體系簡略疊加、縫合的計(jì)劃,不只會導(dǎo)致本錢上升、存在固有延時(shí),并且兩套體系語法會有差別,很難精密操控?cái)?shù)據(jù)流通和數(shù)據(jù)一致性問題,到后續(xù)升級更會暴露出各種問題,約束企業(yè)級使用的開展。 其次,一些選用兩份數(shù)據(jù)的計(jì)劃,通過ETL機(jī)制將OLTP的數(shù)據(jù)拉到OLAP體系中。這會存在天然的設(shè)計(jì)缺陷,由于避不開數(shù)據(jù)轉(zhuǎn)移,無論是性價(jià)比還是延遲都無法做到優(yōu)。 這也是為什么從一開端,OceanBase團(tuán)隊(duì)就決定做根據(jù)“一個(gè)體系,一份數(shù)據(jù)”的HTAP數(shù)據(jù)庫,以將性價(jià)比做到極致。 楊傳輝說,“一份數(shù)據(jù)”是從用戶角度看的,實(shí)際履行中,只需能在滿足HTAP處理需求數(shù)據(jù)的前提下大程度下降冗余,多個(gè)副本或許多種形狀都可以被認(rèn)為是“一份數(shù)據(jù)”。 為了讓OLTP具有大數(shù)據(jù)量OLAP的才干,HTAP需引進(jìn)原生分布式架構(gòu)和低本錢存儲引擎,支撐 OLTP與OLAP間的資源隔離、復(fù)雜查詢和大數(shù)據(jù)量查詢,以及OLAP的數(shù)據(jù)開發(fā)和建模才干。 須注意的是,魚和熊掌不可兼得,真實(shí)的HTAP體系也不是全能的。 理論上,它不會獻(xiàn)身剖析才干。但由于工程復(fù)雜度和產(chǎn)品老練度問題,根據(jù)OLTP研制的HTAP數(shù)據(jù)庫,其OLAP才干會弱于專門的OLAP體系,因而更適合OLTP、OLTP與實(shí)時(shí)OLAP混合負(fù)載處理場景,不適合離線數(shù)據(jù)倉庫或大數(shù)據(jù)無結(jié)構(gòu)化數(shù)據(jù)處理場景。 楊傳輝建議,企業(yè)開端做新事務(wù),或是已有事務(wù)遇到一些傳統(tǒng)數(shù)據(jù)庫計(jì)劃難以處理的痛點(diǎn)時(shí),或許正是切入HTAP的好時(shí)機(jī)。 那么企業(yè)挑選HTAP時(shí),怎樣判別這個(gè)數(shù)據(jù)庫計(jì)劃,值不值得投入試錯(cuò)本錢,能不能未來長期用下去,為事務(wù)帶來價(jià)值? 他給出了一些參閱維度:首先是看落地閱歷,在標(biāo)桿客戶中心事務(wù)場景中完成規(guī)模使用的HTAP計(jì)劃,闡明滿足老練安穩(wěn);還要關(guān)注中心才干,比方在公開基準(zhǔn)測驗(yàn)benchmark中的功能體現(xiàn)怎樣,生態(tài)東西是否齊備好用。假如未來事務(wù)將開展至較大規(guī)模,那么企業(yè)還需考慮HTAP選用的技能架構(gòu)是否存在缺陷、安穩(wěn)性和容災(zāi)才干怎樣樣、能否完成事務(wù)的佳性價(jià)比等。 從這兩個(gè)角度來看,OceanBase儼然是不可多得的挑選。一方面,它是金融場景中受歡迎的國產(chǎn)分布式數(shù)據(jù)庫,如今已堆集涵蓋銀行、能源、電力、社保等職業(yè)的400多個(gè)外部企業(yè)客戶,其金融級容災(zāi)、老練安穩(wěn)性現(xiàn)已得到充沛驗(yàn)證;另一方面,它在曩昔三年接連打破世界在線事務(wù)處理基準(zhǔn)測驗(yàn)TPC-C和數(shù)據(jù)剖析型基準(zhǔn)測驗(yàn)TPC-H的世界紀(jì)錄,證明了本身的技能領(lǐng)先性。 獲得這些成就的背面,作為分布式HTAP數(shù)據(jù)庫的先行者,自2010年誕生以來,OceanBase一直在摸著石頭過河。 二、12年磨一劍,明年煉出HTAP老練體 在HTAP這條路上,國產(chǎn)自研原生分布式數(shù)據(jù)庫OceanBase現(xiàn)已努力了12年。 楊傳輝認(rèn)為,堅(jiān)持自研與落地中心事務(wù)場景,是OceanBase能將同行甩在身后的“殺手锏”。 只有自主研制,才干徹底掌握數(shù)據(jù)庫的內(nèi)核,真實(shí)做出“一套體系,一份數(shù)據(jù)”的計(jì)劃。因而OceanBase的每一行代碼都由其團(tuán)隊(duì)自主編寫。其經(jīng)年累月在各種中心事務(wù)場景中持續(xù)沉積的know-how才干,也為OceanBase構(gòu)筑了益發(fā)鞏固的技能及商場競爭壁壘。 在楊傳輝看來,其他企業(yè)要想仿照OceanBase的道路并追平其才干,會存在一個(gè)時(shí)間差。 但關(guān)于許多國產(chǎn)數(shù)據(jù)庫來說,它們乃至連“仿照”的條件都不具有——有多少像支付寶買賣、雙11這樣要害又具有超高并發(fā)應(yīng)戰(zhàn)的事務(wù),敢讓初出茅廬、未經(jīng)很多實(shí)踐檢驗(yàn)的新式數(shù)據(jù)庫試練? 回想OceanBase曩昔12年的歷練,用楊傳輝的話來說,簡直是“步步難關(guān)”。 OceanBase研制分布式HTAP數(shù)據(jù)庫,是一個(gè)從0到1的進(jìn)程,一開端底子沒有事務(wù)。就在團(tuán)隊(duì)焦思苦慮之際,2011年,淘寶收藏夾首先建議落地邀請——數(shù)百萬、數(shù)千萬用戶一起讀取商品信息,導(dǎo)致原有數(shù)據(jù)庫動不動就崩盤,他們需求新的數(shù)據(jù)庫取而代之。所以,OceanBase團(tuán)隊(duì)立即為其量身定制了一個(gè)特殊架構(gòu),第一次證明了其數(shù)據(jù)庫的落地價(jià)值。 此刻OceanBase團(tuán)隊(duì)仍頂著巨大的壓力。淘寶收藏夾畢竟不算中心事務(wù),對數(shù)據(jù)庫的要求沒那么高,要想長遠(yuǎn)走下去,OceanBase必須進(jìn)入中心事務(wù)場景,并飽嘗住嚴(yán)苛的檢測。 直到2012年11月,OceanBase獲得了一個(gè)新的機(jī)會——具有巨大事務(wù)數(shù)據(jù)量、高并發(fā)量并對毛病簡直零忍受的支付寶打算“去O”(替換Oracle數(shù)據(jù)庫)了。只需OceanBase能接過這個(gè)重?fù)?dān),爾后它的金融事務(wù)之路,將是可預(yù)見的暢通。 通過兩年的歷練,OceanBase在2014年終于迎來中心事務(wù)場景的大考——替換支付寶買賣體系,扛住全國大規(guī)模流量洪峰“雙11”的壓力,做到整個(gè)體系的“絲般順滑”。 成果,OceanBase一戰(zhàn)成名。 爾后就是坦途一片:從螞蟻集團(tuán)內(nèi)部中心事務(wù)全面使用,到第一次被外部客戶選用,從支撐銀行、保險(xiǎn)、證券等金融事務(wù),到進(jìn)入政府、公共事業(yè)、國家電網(wǎng)等更多非金融事務(wù)的中心偏買賣事務(wù)場景,OceanBase的落地之路越走越寬。 “做數(shù)據(jù)庫是要靠堆集的。”楊傳輝說,“這是一切其他國產(chǎn)數(shù)據(jù)庫都拿不到的、無價(jià)的閱歷,對OceanBase今天可以成為分布式數(shù)據(jù)庫領(lǐng)域的引領(lǐng)者,起到了重要的效果! 從0起步到服務(wù)400多個(gè)外部客戶,這些閱歷起到了滾雪球般的正向循環(huán),有了越來越多的客戶背書后,OceanBase獲得了更多實(shí)戰(zhàn)歷練的土壤,其閱歷融入到數(shù)據(jù)庫產(chǎn)品的迭代中,使其進(jìn)一步拉大與同行在功能、安穩(wěn)性方面的距離。 楊傳輝告訴智東西,曩昔半年,OceanBase又獲得一些新的發(fā)展,在研制新版本方面進(jìn)一步優(yōu)化了剖析、資源隔離等才干,在落地方面也收獲更多新的職業(yè)要害客戶!到明年年底,差不多咱們就能有HTAP的老練體了。” 三、國產(chǎn)數(shù)據(jù)庫當(dāng)打之年,奔赴“分布式”星斗大海 作為“卡脖子”的要害根底軟件賽道,國產(chǎn)數(shù)據(jù)庫的興起已是必然。在楊傳輝看來,分布式數(shù)據(jù)庫正承載著其中大的“彎道超車”機(jī)會。 在集中式數(shù)據(jù)庫賽道,微軟、Oracle等數(shù)據(jù)庫巨子寶刀未老,開源數(shù)據(jù)庫亦氣勢如虹,留給國產(chǎn)數(shù)據(jù)庫玩家的商場空間所剩無幾。但在分布式數(shù)據(jù)庫賽道,國內(nèi)外企業(yè)起點(diǎn)距離附近,乃至國內(nèi)面臨的事務(wù)場景要求比海外更為嚴(yán)苛,而越是具有應(yīng)戰(zhàn)的事,也往往能帶來倍速的成長。 “曾經(jīng)集中式做得很好,老練安穩(wěn),但這有時(shí)候也會成為他們做下一代技能的包袱!睏顐鬏x說,當(dāng)分布式成為下一代數(shù)據(jù)庫的干流方向,那么國產(chǎn)數(shù)據(jù)庫廠商的優(yōu)勢就會體現(xiàn)出來。 他談道,包含OceanBase在內(nèi),國產(chǎn)分布式數(shù)據(jù)庫現(xiàn)已由外圍場地邁入中心事務(wù)場景,其中OceanBase是在中心買賣場景使用多的。在處理一些小數(shù)據(jù)量問題中,OceanBase也現(xiàn)已能做到跟MySQL、Oracle差不多的性價(jià)比。 曾經(jīng)企業(yè)可能更多將分布式數(shù)據(jù)庫用在邊際場景作為彌補(bǔ),但近年來,OceanBase現(xiàn)已做到將分布式HTAP用在不同職業(yè)的要害客戶中心事務(wù)場景中,并安穩(wěn)上線、持續(xù)運(yùn)行。楊傳輝信任:“分布式數(shù)據(jù)庫未來商場會特別大,簡直一切的客戶都會優(yōu)先挑選分布式! 跟著更多企業(yè)走向數(shù)字化轉(zhuǎn)型、對實(shí)時(shí)性發(fā)生更高要求,在云原生與分布式疊加趨勢的推動下,楊傳輝對分布式HTAP的未來預(yù)期非常樂觀。 他觀察到這兩年分布式數(shù)據(jù)庫的用戶認(rèn)可度越來越高,但與Oracle、MySQL顯然還有很大距離。“比方MySQL Oracle的用戶數(shù)可能是百萬級、千萬級,分布式可能是幾百級、幾千級,這不是一個(gè)量級的! 因而,當(dāng)時(shí)分布式數(shù)據(jù)庫的受認(rèn)可程度還有待提升,HTAP仍處于開展初期,中心應(yīng)戰(zhàn)就是生態(tài)問題。這畢竟是個(gè)新式技能道路,很多企業(yè)或開發(fā)者可能對此感到生疏,需求通過開源、社區(qū)運(yùn)營、高校協(xié)作等方式來持續(xù)培養(yǎng)更多的用戶習(xí)慣。國產(chǎn)分布式數(shù)據(jù)庫產(chǎn)品,還需處理言語、文檔等問題。 也正因而,OceanBase在上一年6月宣告開源,一次性將包含300萬行代碼的全部中心才干開放出來,讓更多人成為分布式HTAP數(shù)據(jù)庫的開發(fā)者。他們還將持續(xù)在公眾號上宣布解讀HTAP技能的系列文章,共享其現(xiàn)已完成的HTAP技能計(jì)劃和場景價(jià)值!霸蹅冇凶孕臤ceanBase在分布式職業(yè)里的技能遙遙領(lǐng)先,咱們需求的是這個(gè)職業(yè)變得更好!睏顐鬏x說。 他信任,跟著分布式數(shù)據(jù)庫被越來越多的人選用,它又能處理單機(jī)問題,未來分布式數(shù)據(jù)庫會在絕大部分場景中取代集中式數(shù)據(jù)庫,他期望未來企業(yè)“選數(shù)據(jù)庫就選分布式數(shù)據(jù)庫,選分布式數(shù)據(jù)庫就優(yōu)先選OceanBase”。 結(jié)語:路雖遠(yuǎn),行則將至 做國產(chǎn)數(shù)據(jù)庫,是一件需求情懷,也需求敬畏之心的事。OceanBase能揮灑自如地支撐更多職業(yè)客戶的中心買賣事務(wù),絕不是僅靠技能優(yōu)勢拉開距離,錨定分布式HTAP賽道、假勢移動互聯(lián)網(wǎng)年代浪潮、持續(xù)堆集職業(yè)know-how等多重要素疊加,才造就了它今天的階段性成功。 現(xiàn)階段,國產(chǎn)數(shù)據(jù)庫正步入快車道,在大數(shù)據(jù)及人工智能年代大展拳腳。據(jù)中國信通院測算,2020年中國數(shù)據(jù)庫商場規(guī)模約為241億元,到2025年估計(jì)將增至688億元,商場空間巨大。 但風(fēng)口之中,不免泥沙俱下,這既需求真實(shí)有中心技能的企業(yè)在混戰(zhàn)中保持定力、堅(jiān)持自主研制與創(chuàng)新,也需求業(yè)界擬定更嚴(yán)格的把關(guān)標(biāo)準(zhǔn),為真實(shí)有實(shí)力的國產(chǎn)數(shù)據(jù)庫廠商保駕護(hù)航。 “我覺得一切國產(chǎn)數(shù)據(jù)庫廠商應(yīng)追求的,是去做一些代替中心體系的工作,”在楊傳輝眼中,這可能是難的、有社會含義的事,但其商業(yè)價(jià)值不一定高,由于代替中心技能的投入特別大,與代替一個(gè)外圍體系不是一個(gè)量級。 ”但是這件工作不能說等老練了再去做,永久都不會有老練的那天,”楊傳輝的語調(diào)驟然舉高,“就應(yīng)該跟一些有情懷的企業(yè)合在一起,趕忙把這個(gè)工作給干出來! |
|