2019-11-11 1215
在搜索領域你可能(néng)沒有聽過“錄信”,但是一(yī)定聽過Lucene。
錄信數軟CTO 母延年(nián)
“‘錄信’是‘Lucene’的諧音(yīn),我的Lucene發音(yīn)不太準。”在剛剛過去的SACC2019大會(huì)上(shàng),錄信數軟CTO母延年(nián)講到(dào)公司名字由來時臉上(shàng)滿是笑(xiào)意,那笑(xiào)意裡(lǐ)有他對Lucene十多(duō)年(nián)的熱愛與堅持,也有對萬億級數據時代到(dào)來的信心。
垂直深處有洞天
Apache Lucene被譽為(wèi)迄今為(wèi)止最先進、性能(néng)最好、功能(néng)最全的搜索引擎庫,業(yè)内耳熟能(néng)詳的Elasticsearch(ES)便是基于Lucene 的開(kāi)源搜索引擎,目前在大數據搜索領域ES基本上(shàng)一(yī)家獨大。
2018年(nián)10月(yuè)ES的母公司Elastic在大洋彼岸敲鍾上(shàng)市(shì),這被視為(wèi)技(jì)術(shù)創業(yè)者的春天來了。在此三個(gè)月(yuè)前,一(yī)家名為(wèi)錄信數軟的中國(guó)技(jì)術(shù)公司正式注冊,基于Lucene開(kāi)發支持超萬億級規模的大數據搜索與統計産品,要與ES分一(yī)杯羹。
在數據是新石油的大數據時代,創業(yè)者衆多(duō),2013年(nián)被稱為(wèi)中國(guó)大數據元年(nián),前後湧現了大批大數據創業(yè)者,有的基于業(yè)務有的偏于底層,經過7、8年(nián)的發展,當初的創業(yè)公司大浪淘沙後不少從(cóng)工(gōng)具做到(dào)了平台,而平台間的厮殺要拼技(jì)術(shù)、資源與生(shēng)态。
“如果現在做平台的話,可能(néng)機(jī)會(huì)不是特别多(duō)了。”創業(yè)初期母延年(nián)就(jiù)決定深耕垂直領域,躲開(kāi)紅(hóng)海的厮殺,發揮自(zì)己的長(cháng)處。從(cóng)新浪做搜索第一(yī)次接觸Lucene到(dào)現在十多(duō)年(nián),雖然中途輾轉過幾個(gè)公司,但是技(jì)術(shù)方向從(cóng)未變過,一(yī)直是Lucene,他了解Lucene的任何細節,明白(bái)自(zì)己的長(cháng)處是索引,錄信一(yī)開(kāi)始也定位在做一(yī)個(gè)有垂直特性的小(xiǎo)插件(jiàn)。在服務客戶的時候與更懂(dǒng)業(yè)務的行業(yè)集成商合作,發揮自(zì)己的技(jì)術(shù)優勢。
業(yè)内做索引大多(duō)是基于ES,對于一(yī)家商業(yè)公司而言無法随便更改。錄信一(yī)方面做ES沒有的特性,基于Lucene開(kāi)發可以搜人、搜圖、搜軌迹等,另一(yī)方面與ES形成互補,基于Hadoop存儲對于容災以及過載保護有獨特的優勢。此外優化改造Lucene使之支持列簇存儲,能(néng)夠根據場景存儲,實現萬億數據秒(miǎo)查。
根據IDC預測,全球數據總量預計2020年(nián)達到(dào)44個(gè)ZB,中國(guó)國(guó)數據量将達到(dào)8060個(gè)EB,占全球數據總量的18%,海量的數據帶來很多(duō)挑戰和機(jī)遇。
去年(nián)8月(yuè)份,錄信推出了檢索分析型數據庫,恰逢軍民(mín)融合的浪潮,其首個(gè)客戶也是來自(zì)軍隊,随著(zhe)國(guó)産自(zì)主可控的需求加大,海量數據的處理涉及很多(duō)特性場景ES的通(tōng)用解決方案的不足也逐漸凸顯,錄信迎來了自(zì)己的機(jī)會(huì),憑借産品的高(gāo)性能(néng)和低(dī)成本,其客戶也延伸到(dào)公安、汽車等行業(yè)。
随著(zhe)合作的深入,基于客戶的需求錄信也不斷延展自(zì)己産品,某一(yī)合作客戶有數據統計分析的需求,海外的一(yī)款産品1T數據量需要20萬元,而該客戶一(yī)個(gè)集群幾億數據成本太高(gāo),錄信自(zì)研推出了自(zì)己的統計分析型數據庫産品,将成本降到(dào)了幾百萬元,而在服務客戶的過程中發現有些客戶有一(yī)體機(jī)的需求,推出了檢索分析一(yī)體機(jī)。
目前錄信已經推出檢索分析型數據庫、統計分析型數據庫、檢索分析一(yī)體機(jī)三款産品,與行業(yè)集成商累計服務300多(duō)個(gè)項目,涵蓋公安、軍隊、汽車等垂直行業(yè)。
技(jì)術(shù)之外多(duō)修行
成立一(yī)年(nián)多(duō)來錄信目前有20多(duō)人,支撐起300多(duō)個(gè)項目已經達到(dào)了較高(gāo)的人均産出比,這離不開(kāi)母延年(nián)最初産品化發展的路(lù)線。
“我更适合做産品,ToB服務每個(gè)行業(yè)做項目都需要理解定制化的需求。如果按照(zhào)項目堆很多(duō)人,成本不合算(suàn),我們出産品,與行業(yè)集成商一(yī)起為(wèi)客戶提供整體解決方案。”現在市(shì)場的認可給了母延年(nián)更多(duō)的信心,而可以經受風雨的信心需要與現實的磨合積累。
任何公司應用新的技(jì)術(shù)都會(huì)比較謹慎,尤其是錄信服務的幾個(gè)行業(yè)可能(néng)會(huì)更慎重。一(yī)開(kāi)始從(cóng)邊緣業(yè)務和場景測試,慢(màn)慢(màn)向核心業(yè)務轉直到(dào)生(shēng)産環境中。最初第一(yī)個(gè)軍隊的客戶測試了半年(nián)多(duō)還(hái)沒有成單。賣掉股票創業(yè)的母延年(nián)對啓動資金能(néng)支撐多(duō)久心裡(lǐ)沒底,對奮鬥的小(xiǎo)夥伴也有肩上(shàng)的責任,他開(kāi)始質疑自(zì)己的這次創業(yè)。
消除質疑的最好方式是實踐,在反思與堅持中伴随著(zhe)努力、等待和希望,後來慢(màn)慢(màn)得到(dào)軍隊和公安幾個(gè)客戶的認可,“吃(chī)了一(yī)顆定心丸。”母延年(nián)回憶。
幾乎每個(gè)創業(yè)者都會(huì)經曆一(yī)個(gè)探索期,産品在探索中不斷打磨,而創業(yè)者也會(huì)以更快的速度成長(cháng)。“創業(yè)跟之前在阿裡(lǐ)、騰訊工(gōng)作完全不一(yī)樣,在阿裡(lǐ)、騰訊工(gōng)作比較單純,就(jiù)是我隻需要做這一(yī)樣事(shì)情做好就(jiù)可以,創業(yè)要教代碼、帶團隊、融資,也要制定好企業(yè)未來的方向。”沒有誰是天生(shēng)的領導者,母延年(nián)在Lucene十年(nián)如一(yī)日的積累讓他在搜索技(jì)術(shù)方面有了可以與ES一(yī)較高(gāo)下(xià)的資本,而創業(yè)需要綜合能(néng)力,木(mù)桶效應會(huì)被無情的戰場放(fàng)大,所以他快速意識到(dào)團隊的重要性,勢必要建立一(yī)支真正無往不勝的戰隊。
如今錄信以平均每天都有項目在上(shàng)線的速度增長(cháng),客戶從(cóng)測試到(dào)落地周期也縮短到(dào)三個(gè)月(yuè)。母延年(nián)相(xiàng)信随著(zhe)5G的不斷商用,萬億級數據時代會(huì)真正到(dào)來,那是錄信團隊可以一(yī)展身手的舞台。未來錄信一(yī)方面會(huì)深挖垂直領域的索引和分析場景,比如時空分析、音(yīn)波碰撞、農業(yè)圖譜等,另一(yī)方面會(huì)探索更多(duō)與特種硬件(jiàn)的結合,比如一(yī)體機(jī)與GPU結合性能(néng)可以提升一(yī)個(gè)量級,都需要從(cóng)Lucene底層架構改造,那正是他擅長(cháng)的地方。
在這次采訪過程中母延年(nián)一(yī)直強調要感謝這個(gè)時代,資本與市(shì)場都逐漸認可純技(jì)術(shù)研發創業(yè)者。創業(yè)維艱,技(jì)術(shù)之外還(hái)有很多(duō)需要錄信團隊去思考摸索,我們願意相(xiàng)信常懷感恩之心的人運氣終不會(huì)太差。
“大家一(yī)提到(dào)Lucene,除了能(néng)想到(dào)ES以外,還(hái)能(néng)想到(dào)錄信。”這是母延年(nián)最樸素的期望,他認為(wèi)對于有巨大需求的市(shì)場一(yī)家獨大不太正常,國(guó)内也需要更多(duō)的人投入到(dào)基礎研發領域。
對于技(jì)術(shù)創業(yè)者來說,這是最好的時代,沒有任何一(yī)個(gè)時期能(néng)像現在這樣對底層技(jì)術(shù)需求如此之深而迫切,這也是最壞的時代,沒有任何時代像現在這樣瞬息萬變。而對于能(néng)夠把自(zì)己喜歡的事(shì)變成事(shì)業(yè)的人來說,好和壞還(hái)那麽重要嗎(ma)?
上(shàng)一(yī)篇:錄信數軟榮獲第六屆“i創杯”三等獎,CEO孫雪平接受專訪
下(xià)一(yī)篇:母延年(nián):萬億數據庫核心存儲引擎實現與應用