南京氫聊軟件技術有限公司

下(xià)載試用

新聞動态

News

母延年(nián):萬億數據庫核心存儲引擎實現與應用

2021-01-20 1311

 2020年(nián)12月(yuè)21日~12月(yuè)23日,由 IT168 旗下(xià) ITPUB 企業(yè)社區平台主辦的第十一(yī)屆中國(guó)數據庫技(jì)術(shù)大會(huì)(DTCC2020)在北(běi)京隆重召開(kāi)。作為(wèi)本屆大會(huì)的演講嘉賓,錄信數軟 CTO母延年(nián) 以《萬億數據庫核心存儲引擎實現與應用》

 2020年(nián)12月(yuè)21日~12月(yuè)23日,由 IT168 旗下(xià) ITPUB 企業(yè)社區平台主辦的第十一(yī)屆中國(guó)數據庫技(jì)術(shù)大會(huì)(DTCC2020)在北(běi)京隆重召開(kāi)。作為(wèi)本屆大會(huì)的演講嘉賓,錄信數軟 CTO母延年(nián) 以《萬億數據庫核心存儲引擎實現與應用》為(wèi)主題進行了精彩的議題分享,并在議題分享後接受了IT168小(xiǎo)編的采訪。

  

  從(cóng)新浪、酷六到(dào)阿裡(lǐ)、騰訊再到(dào)自(zì)主創業(yè)創辦錄信數軟,作為(wèi)一(yī)名在數據領域摸爬滾打了十數年(nián)的“老兵”,母延年(nián)對于大數據相(xiàng)關技(jì)術(shù)有著(zhe)癡迷般的熱愛,其中Lucene不僅僅是其最為(wèi)喜愛的搜索引擎之一(yī),更是其公司“錄信”的名稱由來。

  緻力打造日破萬億級别數據庫産品

  “錄信整體定位是想做一(yī)個(gè)行業(yè)通(tōng)用的數據庫産品,該數據庫主要的特點是能(néng)承擔特别巨大的數據量,預期每天可以破萬億級别,目前生(shēng)産系統中已達到(dào)每天遷移增量。”母延年(nián)在接受采訪時如是說。

  此外母延年(nián)表示,更希望錄信的數據庫是一(yī)個(gè)全棧的數據庫,根據母延年(nián)介紹,目前大家在使用一(yī)個(gè)數據庫系統時,往往需要搭建七八種大數據系統,每種産品擅長(cháng)一(yī)個(gè)方向,由此造成整體維護成本、數據存儲成本相(xiàng)應增多(duō)。錄信作為(wèi)一(yī)家靠索引創立的公司,希望通(tōng)過大數據中各式各樣的索引來滿足不同的業(yè)務場景。

  淺析海量數據檢索分析

  對于成立僅僅兩年(nián)多(duō)的錄信來講,想要做到(dào)日破萬億級别的數據庫産品又(yòu)談何容易。當談及海量數據的檢索分析時,母延年(nián)認為(wèi)當前主要面臨有幾個(gè)痛點問題:

  首先是并發能(néng)力層面,目前很多(duō)OLAP場景的數據庫,其閉環能(néng)力不夠(比如Spark閉環能(néng)力很低(dī),隻能(néng)達到(dào)幾十上(shàng)百個(gè)),而很多(duō)業(yè)務場景更傾向于更高(gāo)的并發,這類系統隻能(néng)做一(yī)些線下(xià)業(yè)務,錄信希望将來的系統除了做線下(xià)以外能(néng)更适合線上(shàng)的業(yè)務,線上(shàng)業(yè)務意味需要高(gāo)并發的支持檢索、統計等功能(néng)的查詢,譬如可以支持每秒(miǎo)上(shàng)千萬甚至上(shàng)億的并發查詢;

  此外,其節點一(yī)定要具備很好的彈性。面對海量的數據,目前的數據庫一(yī)般采用分庫分表的方式,比如在起初設計時分為(wèi)10個(gè)分片來承擔每天10億的數據規模,但當數據量達到(dào)100億時,這些分片無法自(zì)動分裂向下(xià)擴展,而是需要将原來的數據重新導一(yī)遍。母延年(nián)表示,一(yī)開(kāi)始數據量很少時可能(néng)隻有一(yī)個(gè)分片,當數據量增多(duō)時可以分成10個(gè),特别多(duō)時可以變為(wèi)100個(gè),當數據完成一(yī)個(gè)生(shēng)命周期需要清理,數據量極具減少時,又(yòu)會(huì)回歸到(dào)最初的一(yī)個(gè)分片,他認為(wèi)這種彈性的能(néng)力對于數據庫來說比較重要。

  随後,母延年(nián)也對錄信數據庫架構進行了簡單介紹。根據他的介紹,錄信數據庫結構主要具備兩大核心特點:

  ●第一(yī),錄信數據庫帶有各種各樣的索引,譬如檢索型索引、分析型索引等,錄信數據庫能(néng)夠通(tōng)過這些索引來對整體性能(néng)進行提升;

  ●第二,錄信數據庫所有的數據存儲在分布式文件(jiàn)系統之上(shàng)。錄信認為(wèi)因為(wèi)隻有将數據存儲在分布式文件(jiàn)系統之上(shàng),才可能(néng)支撐規模特别巨大的數據量。如果将數據存儲在本地,會(huì)面臨很多(duō)問題。譬如數據在每個(gè)存儲盤的負載不均衡導緻有的盤負載極高(gāo),但有的盤可能(néng)非常空閑幾乎沒有用到(dào),但使用分布式文件(jiàn)系統,這種問題就(jiù)迎刃而解。而鑒于分布式文件(jiàn)系統比較慢(màn)的弊端問題,錄信也基于分布式文件(jiàn)系統做了優化,通(tōng)過這些優化可以讓速度做得很快。

  數據庫,要做就(jiù)做規模最大的!

  作為(wèi)國(guó)内數據庫領域的新秀,錄信數軟并不滿足于當前的成績。在2020年(nián)4月(yuè)份疫情期間錄信數軟獲得了首輪投資,錄信在拿到(dào)該筆投資後全部投入在産品的研發中,母延年(nián)表示目前錄信的新品基本研發框架已經完成,并進入測試階段,預計在2021年(nián)3-5月(yuè)之間獲将以免費(fèi)的模式正式對外提供。

  談到(dào)未來,母延年(nián)認為(wèi)未來行業(yè)将更加傾向于更全面的全棧數據庫,此外随著(zhe)5G技(jì)術(shù)的發展,基礎設施建設的不斷完善,數據庫行業(yè)可能(néng)會(huì)有較大轉變,未來兩三年(nián)後可能(néng)會(huì)出現數據爆炸式的增長(cháng)。他表示這次增長(cháng)對于錄信來講是一(yī)個(gè)機(jī)遇,錄信做數據庫,要做就(jiù)做一(yī)個(gè)規模最大的!