技(jì)術(shù)交流
Technical
the main title
2021-04-15 1820
對比二者在性能(néng)與功能(néng)上(shàng)的差異。
l cpu: 2*10*2 Intel(R) Xeon(R) CPU E5-2680 v2 @ 2.80GHz
l 内存:512G
l 硬盤:4T*4SSD
l 數據條數:100億
l 數據樣例如下(xià):
行長(cháng):384 字節
數據:
{"copy_all" : "鄭州銀(yín)行借記卡四川","uuid_24" : "fc3e04b39c72","uuid_30" : "35c8cdeeadbbda48f3aa66aa9c9297062e16","s_mod_10" : 0,"s_mod_100" : 42,"s_mod_1000" : 341,"s_mod_wan" : 6021,"s_mod_10wan" : 34240,"s_mod_100wan" : 87597,"s_mod_1000wan" : 6899273,"s_mod_yi" : 14115907,"tradeid" : "201805161154260852","tradetime" : 20180516115426,"tradetype" : "網上(shàng)購物(wù)","tradestat" : "成功","txnamt" : 966,"product" : "華錄","ptype" : "手機(jī)","psn_id" : "511118197804198192","psn_name" : "慕容顔良","sex" : "女","age" : 40,"psn_tel" : "13450024095","psn_areaid" : "5111","psn_provname" : "四川","psn_cityname" : "樂山市(shì)","psn_gps_str" : "29.590882,103.315736","psn_gps" : "29.590882,103.315736","psn_cardid" : "6092664394750795","psn_bank" : "鄭州銀(yín)行","psn_cardtype" : "借記卡"}
本次測試針對carbondata未設置boolm, datamap,datamap在對等值查詢的列使用boolm後,速度會(huì)很快,之所以沒設置考慮到(dào)如下(xià)因素:
1. 需要driver裡(lǐ)加載boolm,耗費(fèi)内存太多(duō)
首次查詢會(huì)因加載非常慢(màn),同時boolm會(huì)耗費(fèi)很多(duō)的内存,故carbondata會(huì)要求driver給予較大的内存如200G,而實際生(shēng)産中列數較多(duō),數據也經常更新變化,數據條數也遠(yuǎn)大于100億,内存可能(néng)不夠用。
2. 隻能(néng)用于等值查詢,對于範圍,前綴檢索無效。
3. lucene datamap幫助分詞查詢,但是執行任務會(huì)卡頓,不可用。
4. bloom datamap 可以加快精确查詢,但是會(huì)有誤差,統計也會(huì)不準确。
解讀(dú):在等值檢索上(shàng),lsql的性能(néng)約是es的5~8倍,是carbondata的30~40倍
對比項 | lsql | es | carbondata |
數據存放(fàng)位置 | hdfs分布式文件(jiàn)系統 | 本地 | hdfs分布式文件(jiàn)系統 |
按時序檢索與時序統計 | 支持 | 不支持 | 不支持 |
複雜(zá)嵌套SQL,多(duō)表關聯 | 支持 | 不支持 | 支持 |
多(duō)列分組統計 | 支持 | 組數少可,組數多(duō)跑不出來 | 支持 |
全文檢索 | 支持 | 支持 | 不支持 |
地理位置檢索 | 支持 | 支持 | 不支持 |
異構存儲-索引部分存儲SSD | 支持 | 不支持 | 不支持 |
多(duō)列聯合索引 | 支持 | 不支持 | 不支持 |
上(shàng)一(yī)篇:第一(yī)篇
下(xià)一(yī)篇:最後一(yī)篇