南京氫聊軟件技術有限公司

下(xià)載試用

新聞動态

News

公益直播:超萬億規模的大數據實時搜索與統計

2021-02-19 1021

為(wèi)深入實施大數據發展行動計劃,推動數字經濟和實體經濟深度融合,以“強化雲數網鏈支撐,助力企業(yè)複工(gōng)複産”為(wèi)宗旨,在江蘇省工(gōng)業(yè)與信息化廳大數據産業(yè)處指導下(xià),江蘇省大數據聯盟理事(shì)長(cháng)單位南(nán)京大學數據科學研究中心/南(nán)京南(nán)數數據運籌科學研究院牽頭組織省
為(wèi)深入實施大數據發展行動計劃,推動數字經濟和實體經濟深度融合,以“強化雲數網鏈支撐,助力企業(yè)複工(gōng)複産”為(wèi)宗旨,在江蘇省工(gōng)業(yè)與信息化廳大數據産業(yè)處指導下(xià),江蘇省大數據聯盟理事(shì)長(cháng)單位南(nán)京大學數據科學研究中心/南(nán)京南(nán)數數據運籌科學研究院牽頭組織省内專業(yè)研究機(jī)構舉辦數字經濟公益直播課堂。


5月(yuè)22日晚730,南京氫聊軟件技術有限公司創始人兼CTO母延年(nián)作為(wèi)“數字經濟公益直播課堂”的第六期嘉賓亮相(xiàng)直播間,為(wèi)在線的各個(gè)行業(yè)的人員(yuán)分享了支撐超萬億數據規模下(xià)大數據的實時搜索與統計服務的技(jì)術(shù)亮點。直播間開(kāi)課後,上(shàng)線人數不斷攀升過千,課程中在線人員(yuán)近2000人。


母總在講課時提出問題:“随著(zhe)近年(nián)來數據規模的爆炸式提升,傳統關系型數據庫已無法支撐海量數據檢索。而業(yè)界對于大數據檢索分析的各種場景,需多(duō)套大數據系統組合使用,數據膨脹率高(gāo),運營維護難度極大。如此巨大的數據帶來了諸多(duō)問題,數據量、性能(néng)、靈活性三者不可兼得。此時我們迫切需要一(yī)款新型數據庫滿足全棧需求:一(yī)套系統、一(yī)份數據、一(yī)種接口。為(wèi)實時搜索與統計需求做強有力的支撐。

0522_超萬億規模的大數據實時搜索與統計_06.png
母總認為(wèi)要實現以上(shàng)系統,核心思路(lù)在于搜索系統、計算(suàn)框架、存儲引擎、KV系統的選型。搜索系統選型Lucene,成熟穩定;計算(suàn)框架選型Spark,過千節點案例較多(duō);存儲引擎選型HDFSKV系統選型HBase。并針對上(shàng)述選型,實現了一(yī)系列重構及優化。

0522_超萬億規模的大數據實時搜索與統計_08.png


母總介紹了上(shàng)述新型數據庫在萬億大數據上(shàng)面的幾個(gè)典型應用。舉例全文檢索,對Lucene的倒排表進行重構,使無序變為(wèi)有序。針對金融交易系統查的快,查的準,萬億數據可以做到(dào)秒(miǎo)級響應;舉例統計分析業(yè)務,預先幹預數據排序分布,針對多(duō)列建立聯合索引,實現秒(miǎo)級的即席多(duō)維統計;舉例地理位置檢索業(yè)務,抛棄原生(shēng)Lucene Docvalues方式的二次驗證與剪切,針對臨近數據采取臨近存儲的方式存儲數據,在此基礎上(shàng)進行二次驗證,減低(dī)磁盤負載的同時大幅提升查詢響應的速度。

0522_超萬億規模的大數據實時搜索與統計_31.png



除此之外,母總還(hái)對上(shàng)述系統和業(yè)内同類産品的性能(néng)做了實測比較,對比結果可以發現:新型數據庫性能(néng)相(xiàng)較于其他産品,在單列檢索、多(duō)列檢索、模糊匹配、範圍查詢、單列統計、多(duō)列統計、時序檢索等方面都有很大優勢。這也佐證了新型數據庫能(néng)夠更好的支撐未來超萬億大數據實時搜索與統計業(yè)務。