12月17日,一家名叫Databricks的美國科技公司,宣布成功融資100億美元,公司的估值也因此達到620億美元。
新聞一出,引起了整個行業(yè)的關注。要知道,不久前的10月份,業(yè)界最受追捧的OpenAI公司,也只不過融了66億美元。這個Databricks的融資金額比OpenAI還高,是有史以來最大的風險投資之一,憑什么?
答案很簡單,就憑——“數據和AI”。Databricks是全球數據分析和云數據平臺巨頭。近年來,他們的數據平臺產品吸引了大量的企業(yè)用戶,用于數據價值挖掘和輔助決策,增長勢頭強勁。
那么,到底什么是數據平臺呢?在AI時代,數據平臺又能發(fā)揮怎樣的作用?
今天這篇文章,小棗君就和大家做一個詳細的解讀。
█?數據平臺的發(fā)展演進
數據平臺,顧名思義,就是用于存儲、處理和分析數據的平臺。我們常說的數據庫(Oracle、MySQL等),還有這些年來特別火的數據倉庫、數據湖,都屬于數據平臺。有了它們,我們才能更好地“玩轉”數據,挖掘其中的價值。
人類的IT技術發(fā)展史,其實說白了,就是一部數據“折騰”史。發(fā)展CPU,是為了更好地處理數據。發(fā)展硬盤,是為了更好地存儲數據。發(fā)展網絡,是為了更好地搬運數據。所有的信息通信技術,都是緊密圍繞數據開展工作的。
數據平臺,是以數據為中心的平臺。它的發(fā)展歷程,同樣也和數據的演進密切相關。
上世紀40年代至50年代,計算機剛剛誕生的早期階段,因為硬件技術不成熟,人類的數據體量較小。所以,并沒有發(fā)展出數據平臺,僅僅依靠人工進行數據的管理。
到了60年代至70年代,隨著軟硬件技術的不斷成熟,我們終于有了數據庫系統(tǒng),并且,很快開始實現(xiàn)了商業(yè)化。尤其是到了80-90年代,商業(yè)數據庫蓬勃發(fā)展,用于各種交易型(OLTP)和分析型(OLAP)場景,為人類社會的信息化浪潮做出了很大的貢獻。
那一時期,很多高精尖行業(yè)(例如航空或者國防等),因為數據量越來越龐大,所以對數據平臺的要求也越來越高。大數據這個概念,也是在那個時候開始誕生和萌芽的。1997年10月,美國宇航局(NASA)研究員發(fā)表論文,首次提到了“大數據問題”。
其實,當時的數據量在現(xiàn)在看來也不是很大。全世界加在一起的數據量,可能不會超過1 PB,還停留在TB級別。所以,傳統(tǒng)的以Oracle為代表的數據倉庫,勉強可以搞定。
進入21世紀后,互聯(lián)網的全面爆發(fā),帶來了數據量的又一次躍升。大數據時代真的到來了,傳統(tǒng)的數倉已經hold不住了。于是,以Hadoop為代表的數據平臺應運而生(2006年),扛起了大梁。
再后來,因為互聯(lián)網業(yè)務的復雜多樣性,加上數據處理的負載和實時性要求越來越高,就有了各種各樣的開源數據組件,面向不同的工作場景。
這時的數據平臺,就以基于開源的組裝式數據平臺為主流。各種數據湖、湖倉一體技術,進入了蓬勃發(fā)展的階段,勉強能夠滿足各行各業(yè)的場景需求。
時至今日,情況又發(fā)生了巨大的變化。正如大家所看到的,AI浪潮來了。
█ AI時代的數據平臺挑戰(zhàn)
從2023年開始,以ChatGPT為代表的AI大模型,掀起了一股席卷全球的AI浪潮,改變了人類社會的方方面面。
作為AI的三大要素之一,數據的重要性進一步提升。我們不僅需要更多、更可靠、更準確的數據,還需要更強大的數據平臺,能夠為業(yè)務應用(尤其是AI應用)提供支撐。
傳統(tǒng)數據平臺,一般擁有三大典型應用場景。
第一個是BI看板和離線報表。BI就是Business Intelligence,商業(yè)智能。通過BI看板和離線報表,可以將各種數據指標以可視化方式展示出來,幫助企業(yè)管理層更好地了解和分析企業(yè)運營情況。
第二個是離線數據處理。這個主要是指業(yè)界常說的ETL(Extract,Transform,Load,即提取、轉換、加載)。通過數倉分層和數據預處理,對數據做“精煉”,為后面的數據分析或BI應用做準備。
第三個是實時的交互式分析。這個主要是要實現(xiàn)毫秒級的AD-Hoc(臨時性的、非計劃性的活動或決策)實時分析。
進入AI時代,數據平臺的各方面開始發(fā)生變化。
先看看傳統(tǒng)數據工程領域的變化。
首先,場景開始有點延伸。有了大模型所提供的自然語言處理能力,用戶與數據平臺之間的交互,就可以變成自然語言交互。例如,企業(yè)管理者直接提問,自然語言理解生成分析SQL,數據平臺給出數據洞察的結果。
其次,數據平臺需要實現(xiàn)一體化。以前,一家企業(yè)的某個業(yè)務處理數據的方式只有一種,離線處理或者交互式處理。未來,可能同時需要多種處理方式,需要數據平臺能夠以一個平臺承載多種需求(例如離線數據處理+交互式處理),實現(xiàn)一體化。
第三,數據的規(guī)模急速擴張,但是高效實時處理的需求是不能打折扣的。這就要求平臺實現(xiàn)批流一體、增量計算。也就是說,批處理+實時處理也要一體化。
大數據與AI的融合,也產生了一些新的場景。數據平臺需要支持大模型的發(fā)展。
第一個場景,是數據和AI的一體化。
在大模型開發(fā)架構中,通常是數據團隊和模型團隊是分開的,各自使用各自的平臺、工具,會增加開發(fā)成本,影響開發(fā)效率。更好的解決方案,是數據平臺提供一個統(tǒng)一的接口,實現(xiàn)“DataOps+AIOps一體化”,降低運維與開發(fā)成本。
第二個場景,RAG的應用。
RAG是Retrieval-Augmented Agenerated(檢索增強生成),可以理解為大模型的一個“數據輔助外掛”。當企業(yè)搜索場景單獨采用大模型無法滿足要求時,可以基于企業(yè)數據平臺的運營數據,提供一站式的高精度全文檢索+向量檢索RAG方案,實現(xiàn)更強大的AI搜索。
第三個場景,AI Agent智能體的應用。
AIGC能思考,但AI Agent增加了行動的能力,現(xiàn)在成為AI的新焦點,相關的應用數量也急劇增加。企業(yè)基于數據平臺,將業(yè)務數據與大模型融合,可以產生更好的生成式AI應用,創(chuàng)造更多的AI Agent。
我們可以舉一個數據平臺支撐RAG、Agent應用的例子。
假如你有一個咖啡店,想要發(fā)布朋友圈廣告,進行咖啡和配套糕點的推薦。首先,你可以基于數據平臺,通過對訂單數據的大數據查詢,找到銷量最好的咖啡。然后,你可以基于數據平臺的歷史數據,訓練一個模型(這里應該小模型就夠了),找到推薦搭配的糕點。
接下來,基于數據平臺知識庫和大模型,采用RAG方案,找到一個最合適的廣告詞。大模型再基于廣告詞和咖啡糕點的圖片,生成一個廣告文案。
所有上述過程,都可以配置到Agent里面。以后,只需要一個指令,就能夠按步驟快速完成這項工作。是不是很高效?
AI時代的數據平臺,除了支持AI發(fā)展之外,也要讓AI反向賦能平臺。例如,將AI能力應用于數據平臺的資源管理與運維管理,將大幅提升工作效率。
簡單來說,AI時代的大模型應用開發(fā),核心要素就是算卡(算力)、大模型(算法)和數據。在這種應用里,最好的架構,是大模型直接和數據聯(lián)動。以數據為核心,數據平臺足夠簡單、足夠融合、足夠智能,讓大模型以最高效的方式完成訓練和推理。
█ TCHouse-X,AI時代的數據平臺創(chuàng)新解決方案
那么,數據平臺該如何重構設計,才能滿足上面提到的場景和能力需求呢?
最近,騰訊云給出了他們的解決方案——一站式數據智能平臺TCHouse-X。
TCHouse-X的核心設計理念,是一體化、智能化、高性能以及云原生。
●?一體化
前面反復提到了一體化。TCHouse-X在架構設計層面,就貫徹了一體化的思想。
它通過云原生多集群共享數據及元數據管理,打破了傳統(tǒng)數據平臺在離線計算、在線計算和AI開發(fā)之間的壁壘。用戶可以基于同一份數據,運行在線分析、離線處理、數據湖探索和機器學習等多種業(yè)務負載,無需在不同的系統(tǒng)間切換和數據的拷貝搬遷,實現(xiàn)AI、BI和Data在一個平臺上開發(fā)和共建。
對于用戶來說,數據平臺的極致簡化,不僅方便了產品的開發(fā),改善了體驗,也大大降低了產品運維的難度和成本。這是做減法帶來的優(yōu)勢。
● 智能化
智能化,是指TCHouse-X獲得了來自AI的賦能,借助AI進行技術優(yōu)化和迭代。
TCHouse-X能夠通過智能化的系統(tǒng)交互、資源管理與運維管理功能,實現(xiàn)運維“自動駕駛”,顯著提升易用性與運維效率。
以資源管理為例,TCHouse-X具備AI智能調度系統(tǒng),能夠實時感知負載并智能規(guī)劃資源,從而提高計算資源的利用率。
TCHouse-X還支持前面提到的自然語言交互。用戶可通過自然語言描述,快速查詢分析數據,無需SQL相關的專業(yè)培訓與學習。
● 高性能
一款優(yōu)秀的數據平臺,當然在性能上不能拉垮。
TCHouse-X基于騰訊云自研核心引擎技術(數據平臺三大件,包括優(yōu)化器、計算引擎、存儲引擎,騰訊云都是從零到一進行自研),在計算、存儲、網絡等多維度優(yōu)化,能夠為用戶提供全鏈路極致性能。在效率層面,TCHouse-X能夠支持實時加工處理源頭數據,并且具備毫秒級的在線分析能力。
同時,TCHouse-X支持多種彈性策略,無論是應對突發(fā)流量高峰還是處理大規(guī)模查詢,都能有效幫助企業(yè)實現(xiàn)資源的靈活配置,降低成本并提高效率。
● 云原生
云原生,是TCHouse-X的核心基因。它帶來的優(yōu)勢,是可以提供極致的資源彈性。基于云原生,可以實現(xiàn)存算分離,可以對計算和存儲進行彈性配置,增加靈活性。這也是前面一體化開放的前提條件。
彈性可以體現(xiàn)在多個場景。例如分時段(白天/夜晚)的資源分配,資源使用量的智能預測,突發(fā)負載的智能彈性伸縮,等等。可以看出,設計理念(云原生和智能化)之間,也是有相互關聯(lián)的。
█ TCHouse-X的實際落地表現(xiàn)
我們可以看出,TCHouse-X是騰訊云精心打造的一款大數據數倉產品。
它大幅提升了平臺的性能,簡化了傳統(tǒng)數據平臺的復雜架構,并引入了智能化系統(tǒng)交互、資源管理與運維管理能力,能夠為大模型時代的應用創(chuàng)新提供一站式數據處理能力。
根據測算,TChouse-X的在線查詢性能優(yōu)于市場同類產品50%,而離線批處理的綜合性價比則提升了10倍之多。在計算資源層面,采用TCHouse-X,企業(yè)計算資源成本最高也能降低50%。
目前,TCHouse-X已在騰訊內部多個業(yè)務線以及多個外部企業(yè)客戶場景中得到應用,具體包括大模型AIGC應用、車聯(lián)網數據平臺、安全廠商、CRM平臺、跨境電商企業(yè)、物流平臺和手游公司等。
在實際應用中,TCHouse-X充分展示了自身的強大性能和成本效益。特別是在大規(guī)模數據處理和實時分析方面,表現(xiàn)非常出色。
以騰訊會議應用為例。采用TCHouse-X后,該應用實現(xiàn)了顯著的性能提升和存儲優(yōu)化。
在進行會議質量分析和日志分析時,TCHouse-X相比于原來的Presto/Trino查詢性能提升了5到10倍,日均查詢數約40萬,顯示了其在高并發(fā)查詢處理方面的強大能力。同時,存儲從原來的4份減少到1份,大幅降低了存儲成本。與原Spark相比,性能提升了2倍,進一步證明了TCHouse-X在處理復雜查詢時的高效率。
█ 結語
TCHouse-X的發(fā)布,是騰訊云在大數據領域長期深耕和積累的成果。
很多人可能不知道,作為騰訊云基于海量業(yè)務打造的世界領先級大數據平臺,騰訊云大數據目前的算力規(guī)模已經超過千萬核,是全球最大規(guī)模的大數據平臺之一。平臺每天實時計算量數百萬億次,每天運行容器數數億個,每天計算數據量數百PB,量級位居國內第一。
TCHouse-X是企業(yè)打造數據基座的一個神器。隨著AI浪潮的愈演愈烈,相信越來越多的行業(yè)用戶會開始采用TCHouse-X,享受它帶來的效率提升和成本節(jié)約。AI數智時代的數據價值挖掘,將進入一個全新的階段!