從 Hadoop 到 Snowflake,2023 年數(shù)據(jù)平臺(tái)路在何方? 世界最新
時(shí)間:2023-06-24 07:10:49
作者 | 流縈
策劃 | 張俊寶
【資料圖】
隨著大數(shù)據(jù)技術(shù)的融合發(fā)展,企業(yè)對(duì)數(shù)據(jù)平臺(tái)的要求越發(fā)多元:不僅要能夠整合集成、存儲(chǔ)、管理海量的多源異構(gòu)數(shù)據(jù),還要能夠提供連通業(yè)務(wù)的多樣化數(shù)據(jù)服務(wù)能力,并且能夠支持不同應(yīng)用、不同場(chǎng)景中的落地。從 Hadoop 到 Snowflake ,數(shù)據(jù)平臺(tái)的發(fā)展呈現(xiàn)出清晰的路徑,在與云的結(jié)合上也探索了豐富的技術(shù)實(shí)踐。
那么,數(shù)據(jù)平臺(tái)的下一次“潮涌”何時(shí)到來(lái)?中國(guó)版 Snowflake 何時(shí)出現(xiàn)?為了探討問(wèn)題的答案,我們策劃了《極客有約》特別版——《再談數(shù)據(jù)架構(gòu)》系列直播。第一期,我們邀請(qǐng)到了云器科技聯(lián)合創(chuàng)始人 & CTO 關(guān)濤、Bolt 高級(jí)技術(shù)副總裁 Xiao Guo 和 RisingWave 創(chuàng)始人 & CEO 吳英駿博士,分別從平臺(tái)服務(wù)商、用戶以及投資方的不同視角分享各自的觀點(diǎn)。
InfoQ:數(shù)據(jù)平臺(tái)經(jīng)歷了一個(gè)怎樣的發(fā)展過(guò)程?
關(guān)濤 :大數(shù)據(jù)大概是從 2003 年開(kāi)始發(fā)展的,開(kāi)始的標(biāo)志是《MapReduce》《GFS》《BigTable》三篇 paper 的發(fā)表。如果從時(shí)間維度上對(duì)比來(lái)看, 數(shù)據(jù)庫(kù)從七十年代起步,至今大概是 50 年的歷史;大數(shù)據(jù)至今的歷史是 20 年;深度學(xué)習(xí)是 2013 年左右開(kāi)始發(fā)展的,至今剛好 10 年 。
大數(shù)據(jù)技術(shù)的發(fā)展是個(gè)典型的“ 規(guī)模帶來(lái)突破 ”的例子。如果你把兩個(gè)數(shù)量級(jí)以上的數(shù)據(jù),以相對(duì)低的成本計(jì)算起來(lái),形成的效果可能跟以前完全不一樣。這種突破是“跳變型”突破。這種模式非常多見(jiàn),比如最近特別流行的大語(yǔ)言模型, 其本質(zhì)上也屬于“海量數(shù)據(jù)加海量模型規(guī)模“組成的一個(gè)跳變。
我通常會(huì)把大數(shù)據(jù)的發(fā)展分成 3 個(gè)階段:孕育期、發(fā)展期和普惠期 。
第一階段,從 2003 年到 2013 年是孕育期。大家只聽(tīng)過(guò)一些耳熟能詳?shù)拇髲S在做大數(shù)據(jù)相關(guān)的建設(shè),比如谷歌做搜索引擎后臺(tái)數(shù)據(jù)處理。2006 年,我加入微軟做的微軟第一代 KV 系統(tǒng),也是為了支持搜索業(yè)務(wù)。
第二階段,之后 8-10 年的時(shí)間是發(fā)展期(2013-2023)。發(fā)展期有兩個(gè)關(guān)鍵事項(xiàng)推動(dòng)了大數(shù)據(jù)的發(fā)展:其一是以 Hadoop 為核心的開(kāi)源技術(shù);其二是云計(jì)算。云計(jì)算相關(guān)技術(shù)的發(fā)展極大程度上降低了大數(shù)據(jù)平臺(tái)的建設(shè)門(mén)檻。所以,大家可以看到目前主流的大數(shù)據(jù)平臺(tái)都是在 2012 年前后開(kāi)始發(fā)展的,比如說(shuō)剛才提到的 Redshift 是云上數(shù)倉(cāng)的典型代表,Snowflake 在那時(shí)候成立,阿里巴巴大概那個(gè)時(shí)候開(kāi)始做阿里云和飛天大數(shù)據(jù)平臺(tái)等。
第三個(gè)階段,我個(gè)人將其稱作普惠期。普惠期的特點(diǎn)有兩個(gè):其一是千帆競(jìng)發(fā)后,大部分企業(yè)被淘汰,少數(shù)企業(yè)通過(guò)競(jìng)爭(zhēng)最終占領(lǐng)市場(chǎng),然后逐步形成規(guī)模;其二從技術(shù)角度來(lái)看,部分技術(shù)的發(fā)展趨于成熟,如批計(jì)算、流計(jì)算和分析的一些范式被固定并廣泛應(yīng)用。同時(shí),一些外延的技術(shù)比如跟 AI 相關(guān)技術(shù)的會(huì)持續(xù)發(fā)展。
我認(rèn)為,美國(guó)市場(chǎng)可能在普惠期的早期(Snowflake 等核心廠商仍然保持高速增長(zhǎng),年化增長(zhǎng)率 60% 以上);中國(guó)的市場(chǎng)已經(jīng)到了發(fā)展期向普惠期轉(zhuǎn)換的階段 。
吳英駿 :數(shù)據(jù)平臺(tái)是從數(shù)據(jù)庫(kù)演化出來(lái)的。
上個(gè)世紀(jì)六七十年代有了數(shù)據(jù)庫(kù)后,大家自然而言會(huì)考慮怎么用這些數(shù)據(jù)進(jìn)行分析?比如 IBM 的 DB2 是不是能夠變成一個(gè)可以做分析的平臺(tái)?最早一批數(shù)據(jù)平臺(tái)都是這樣慢慢發(fā)展過(guò)來(lái)的。當(dāng)時(shí)相對(duì)獨(dú)立的數(shù)據(jù)倉(cāng)庫(kù)有 Teradata,它是全球最大的數(shù)據(jù)倉(cāng)庫(kù)公司之一,在上個(gè)世紀(jì)七八十年代就已經(jīng)開(kāi)始做了。
我覺(jué)得數(shù)據(jù)平臺(tái)發(fā)展的一個(gè)核心標(biāo)志是 Google 在 2004 年發(fā)表的 MapReduce 這篇文章。這篇文章發(fā)表之后,大家對(duì)這個(gè)領(lǐng)域非常關(guān)注。每個(gè)公司內(nèi)部都有大量的閑置機(jī)器,那么,能不能使用這些閑置的機(jī)器、大量的閑置計(jì)算資源去做大規(guī)模的數(shù)據(jù)分析?2010 年前后,很多創(chuàng)業(yè)公司因此想做 MapReduce。另一方面,MapReduce 是 Google 做的一個(gè)產(chǎn)品,這個(gè)產(chǎn)品在 Uber 等公司是沒(méi)有辦法用的。那怎么辦?開(kāi)源。所以當(dāng)時(shí)就有幾個(gè)非?;鸬捻?xiàng)目,如 Hadoop、Hive、Impala、Spark。2010 年之后,云時(shí)代來(lái)了。Snowflake 也是在云時(shí)代火起來(lái)的。因此,我覺(jué)得數(shù)據(jù)平臺(tái)在美國(guó)的發(fā)展,是從單機(jī)時(shí)代開(kāi)始,往上一點(diǎn)點(diǎn)發(fā)展到 MapReduce,再發(fā)展到開(kāi)源,然后再發(fā)展到云上的一個(gè)過(guò)程。
Xiao Guo :我主要從應(yīng)用層面說(shuō)一下我的一些見(jiàn)解。
第一, 現(xiàn)在自建數(shù)據(jù)中心的公司比較少 。Bolt 使用的數(shù)據(jù)倉(cāng)庫(kù)是 Google BigQuery。以前 LinkedIn,Uber 早期的時(shí)候還要自建數(shù)據(jù)中心,現(xiàn)在基本都上云了。 現(xiàn)在大部分公司都是用的這三家的數(shù)據(jù)倉(cāng)庫(kù),即:Amazon Redshift、Google BigQuery、Snowflake 。
第二, 實(shí)時(shí)數(shù)據(jù)分析對(duì)應(yīng)用層面來(lái)說(shuō)非常重要 。通常來(lái)說(shuō)我們會(huì)把線上數(shù)據(jù)庫(kù)中的數(shù)據(jù) Stream Replication 到數(shù)據(jù)倉(cāng)庫(kù)里面,使用統(tǒng)一的數(shù)據(jù)倉(cāng)庫(kù)便于進(jìn)行實(shí)時(shí)數(shù)據(jù)分析。有時(shí)候我們還需要工程師在數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行人工排錯(cuò)等等。因?yàn)檫@樣就能不影響線上運(yùn)行,成本也相對(duì)比較低。
第三, AI 和 Machine Learning。現(xiàn)在大部分的公司都會(huì)或多或少做一些 AI 和 Machine Learning 的應(yīng)用, 這就要求 data platform 要考慮到 AI 和 Machine Learning platform 的集成 。
第四, Experimentation Platform。企業(yè)做增長(zhǎng)、做應(yīng)用要不停地進(jìn)行實(shí)驗(yàn),不停地嘗試。在這種情況下, data platform 跟 experimentage platform 能否很好地集成非常關(guān)鍵 。
第五,數(shù)據(jù)的運(yùn)營(yíng)。我們有個(gè)機(jī)構(gòu)專門(mén)投數(shù)據(jù)相關(guān)的早期的 a 輪公司。在與眾多創(chuàng)業(yè)公司的交流中,我們發(fā)現(xiàn)持續(xù)的數(shù)據(jù)一體化和高質(zhì)量交付越來(lái)越受到企業(yè)重視。雖然行業(yè)內(nèi)在這方面還處在比較早期的階段,但我們的確看到了一些嘗試。
InfoQ:普惠的意義就是大家在做技術(shù)方案選型的時(shí)候,不管是大企業(yè)、中型企業(yè)還是小企業(yè),都有一套可以選的技術(shù)路線方案,并且門(mén)檻不太高。那么,目前行業(yè)內(nèi)有哪些不同的數(shù)據(jù)平臺(tái)技術(shù)路線或者說(shuō)發(fā)展方向?
關(guān)濤 :從企業(yè)客戶視角看,目前行業(yè)內(nèi)的技術(shù)路線有 開(kāi)源組裝自建 和 購(gòu)買商業(yè)化服務(wù) ,分別代表著兩類技術(shù)方向。技術(shù)路線的選擇也是企業(yè)客戶在技術(shù)方案選型時(shí)面臨的選擇題。
開(kāi)源自建的技術(shù)路線,指的是用不同的開(kāi)源組件拼接在一起,形成一個(gè)完整的生態(tài)。開(kāi)源組件可以隨業(yè)務(wù)需求修改,定制化程度高。
購(gòu)買商業(yè)服務(wù)的技術(shù)路線,通常意味著企業(yè)希望數(shù)據(jù)平臺(tái)做到一體化、更簡(jiǎn)單、免運(yùn)維。這條技術(shù)路線比較典型的技術(shù)產(chǎn)品就是 Snowflake。Snowflake 統(tǒng)一管理企業(yè)所有的數(shù)據(jù),提供所有通用的功能,給用戶一體化的體驗(yàn),對(duì)于實(shí)現(xiàn)降低門(mén)檻做普惠非常關(guān)鍵。
Xiao Guo :我所在 Bolt 這種獨(dú)角獸的公司,一般來(lái)說(shuō)都是比較傾向于第二條路線,即購(gòu)買 SaaS 平臺(tái)的服務(wù)。對(duì)于 小型公司 而言 ,SaaS 平臺(tái)是比較理想的一個(gè)選擇。 因?yàn)檫@樣的平臺(tái)比較好用,可能很快地部署。企業(yè)可以做自己想做的產(chǎn)品,還不需要花費(fèi)很多資源深度定制、維護(hù)平臺(tái)。
隨著公司增大,定制需求越來(lái)越多,一些大公司可能更傾向于自己開(kāi)源,然后自己組裝,這樣的話會(huì)更加方便控制。
吳英駿 :在 Uber 那個(gè)年代成立的公司選擇自建的一個(gè)很重要的原因是,那時(shí)候技術(shù)還沒(méi)有很成熟。在那個(gè)年代,他們選擇自建數(shù)據(jù)平臺(tái)成本很高。最近十年成立的公司,尤其 2015 年之后成立公司,已經(jīng)很少選擇自建數(shù)據(jù)平臺(tái)了。一方面,技術(shù)已經(jīng)更加成熟;另一方面,市場(chǎng)環(huán)境的原因?qū)е伦越ǔ杀静豢煽亓?。在這樣的情況下,企業(yè)怎么會(huì)選擇每年花幾百萬(wàn)美元還都不確定能做出什么東西,而不是去買一個(gè)市面上已經(jīng)有的成熟產(chǎn)品呢?
InfoQ:企業(yè)對(duì)數(shù)據(jù)平臺(tái)的需求及需求的演進(jìn)是怎樣的?
Xiao Guo :首先,過(guò)去一年,美國(guó)整個(gè)經(jīng)濟(jì)比較疲軟,所以大部分企業(yè)的業(yè)務(wù)重心從不惜一切代價(jià)求發(fā)展變成了更關(guān)注收入和成本控制。所有的公司都在要求削減成本。公司技術(shù)負(fù)責(zé)人需要看人力成本和軟件成本,其中軟件成本對(duì)大部分的創(chuàng)業(yè)公司而言,指的是云上的成本、data platform 或者 data warehouse 成本。
其次,削減成本是 bottom line,增加收入 top line 相較而言更重要。企業(yè)在選擇項(xiàng)目時(shí)的標(biāo)準(zhǔn)是不能天馬行空、不能在幾年之后才會(huì)產(chǎn)生營(yíng)收,必須要聚焦、要關(guān)注接下來(lái)的 12 個(gè)月左右能夠看到營(yíng)收。
再次,現(xiàn)在 AI 和大模型都非常非?;穑蠹覍?duì) AI 有非常大的興趣。我們看到大公司比如 Amazon,他們?cè)谟么竽P图夹g(shù)提高、優(yōu)化現(xiàn)有的一些模型、一些業(yè)務(wù)。小公司像我們還沒(méi)有完全用上大模型,不過(guò)也在考慮這件事情了。小公司一般不會(huì)建設(shè)自己的 machine learning platform,而是會(huì)采購(gòu)已有產(chǎn)品。
最后,美國(guó)企業(yè)對(duì)于數(shù)據(jù)的安全性和隱私的關(guān)注度是越來(lái)越高的。
吳英駿 :我們分 技術(shù)層面 和 商業(yè)化層面 來(lái)講。
從技術(shù)層面來(lái)講,大數(shù)據(jù)已經(jīng)發(fā)展挺久了,我認(rèn)為并不存在什么真的難點(diǎn)。
從商業(yè)化角度來(lái)講,我覺(jué)得現(xiàn)在一個(gè)很大的發(fā)展方向是效率,企業(yè)需要更加高效。高效的標(biāo)志有多種,比如企業(yè)不需要自己建機(jī)房、買機(jī)器、聯(lián)機(jī)調(diào)試等,只需要付錢(qián)買服務(wù)立刻就能用,方便快捷是高效;隨著技術(shù)發(fā)展,原本昂貴的服務(wù)、較差的性能逐漸優(yōu)化,價(jià)格便宜的同時(shí)性能越來(lái)越好,性價(jià)比高是高效;實(shí)時(shí)服務(wù)也是高效的一個(gè)標(biāo)志;所有的數(shù)據(jù)平臺(tái)都在往 SQL 方向發(fā)展進(jìn)而提升開(kāi)發(fā)效率。
總的來(lái)說(shuō),我認(rèn)為目前技術(shù)層面很多問(wèn)題都已經(jīng)被解答了;從商業(yè)化層面,或者說(shuō)從市場(chǎng)發(fā)展規(guī)律來(lái)講的話,未來(lái)肯定是往效率方向去講這個(gè)故事。
關(guān)濤 :數(shù)據(jù)平臺(tái)的技術(shù)從孕育期到發(fā)展期再到開(kāi)始進(jìn)入普惠期,這三個(gè)階段的變化跟客戶的變化也是相輔相成的。技術(shù)發(fā)展分成三個(gè)階段,客戶也分成三大類。
在 孕育期 ,客戶通常是 early-adopter,不一定是大公司,而是技術(shù)能夠做到極致的玩家,人數(shù)很少,可以稱作是金字塔塔尖上的那一群人。他們有很高的技術(shù)水平和動(dòng)手能力,能修改開(kāi)源代碼,能推動(dòng)技術(shù)做迭代,這是 early-adopter。
到 發(fā)展期 ,我們把客戶歸類為 Early majority。技術(shù)理念初步深入人心,市場(chǎng)上一大批對(duì)新技術(shù)有渴望的人會(huì)把這個(gè)技術(shù)用起來(lái),然后會(huì)催生很多技術(shù)型的平臺(tái)服務(wù)提供商。
然后是 普惠期 ,我們把客戶歸類為 late majority。大家覺(jué)得用這個(gè)技術(shù)已經(jīng)是一個(gè)公認(rèn)的事情了。
客戶需求就像一個(gè)金字塔,從最頂尖的客戶需求開(kāi)始向下一層一層地?cái)U(kuò)展。最開(kāi)始的 adopter 側(cè)重于 0-1,要滿足從來(lái)沒(méi)見(jiàn)過(guò)的新場(chǎng)景,要通過(guò)技術(shù)帶來(lái)競(jìng)爭(zhēng)的獨(dú)特的差異化優(yōu)勢(shì),要構(gòu)建競(jìng)爭(zhēng)門(mén)檻,所以那些技術(shù)的創(chuàng)新和變化是非常非常多的。在這種變化里面,開(kāi)源的眾籌迭代模式很重要。
再往下一點(diǎn),模式就會(huì)變得固定一些,大家都這么用,然后 形成了最佳實(shí)踐。最佳實(shí)踐累積沉淀成平臺(tái),然后平臺(tái)慢慢就打磨起來(lái),能滿足多樣的客戶需求,讓更多企業(yè)能用起來(lái)這些平臺(tái) 。
結(jié)合我之前的經(jīng)驗(yàn),我們會(huì)更細(xì)致地把客戶大概分成四類。
第一類,我們叫做 一線大型科技公司 ,在過(guò)去通常是互聯(lián)網(wǎng)公司為主。比如市值排名前 30 的企業(yè)通常有很大的規(guī)模,有很強(qiáng)的技術(shù)創(chuàng)新的訴求,會(huì)有很多定制化的需求。 這些企業(yè)一般會(huì)去選擇自建 。
第二類,我們叫做 digital native,就是數(shù)據(jù)原生的公司 ,這種類型的公司通常規(guī)模中等,可能在 100-1000 臺(tái)物理服務(wù)器的這樣的一個(gè)規(guī)模。這些企業(yè)我們能看到他們?cè)絹?lái)越不考慮自建了,他們會(huì)覺(jué)得自建反而不劃算。舉個(gè)例子,之前國(guó)內(nèi)有一家公司 A,大概需要 100 臺(tái) 物理服務(wù)器做數(shù)據(jù)平臺(tái),硬件成本年化大約 300 萬(wàn) / 年,如果選擇自建的方式,企業(yè)要把一整套數(shù)據(jù)體系做起來(lái)大概需要 10 個(gè)模塊組件,需要 4-5 人的團(tuán)隊(duì)來(lái)維護(hù),人力成本大概也需要 300 萬(wàn)元一年。如果購(gòu)買 SaaS 服務(wù),含硬件成本也就 400 萬(wàn)。企業(yè)發(fā)現(xiàn)自建人力成本幾乎和硬件成本一樣高,所以 這類企業(yè)慢慢開(kāi)始轉(zhuǎn)向購(gòu)買平臺(tái)服務(wù) 。
第三類,我們叫做 有技術(shù)能力的傳統(tǒng)企業(yè) ,典型代表比如說(shuō)銀行、保險(xiǎn),現(xiàn)在包括新制造比如造車企業(yè),他們有很多的數(shù)據(jù)需求。他們技術(shù)能力很強(qiáng),也有很強(qiáng)的付費(fèi)意愿。 這類型客戶大部分選擇購(gòu)買數(shù)據(jù)平臺(tái) ,像銀行通常不太會(huì)選擇自建數(shù)據(jù)平臺(tái),一定會(huì)選擇購(gòu)買,因?yàn)橛X(jué)得買來(lái)的商業(yè)化產(chǎn)品可能從安全性、穩(wěn)定性的角度是有廠商負(fù)責(zé)的,有人兜底的,這個(gè)對(duì)他們很重要。
第四類企業(yè),我們叫做 傳統(tǒng)企業(yè) ,還有數(shù)字政府類的,這些企業(yè)通常是個(gè)純粹的使用者,他們甚至都不具備構(gòu)建數(shù)據(jù)平臺(tái)的能力。不同類型的客戶要的不一樣。 第一類,可能是自建和極致的定制化,中間兩類的可能會(huì)購(gòu)買平臺(tái)型的服務(wù)。最后一類,可能他不會(huì)買平臺(tái),也不會(huì)建平臺(tái),要的是個(gè)解決方案 。
InfoQ:在需求這方面,中美之間有差異嗎?
吳英駿 :我覺(jué)得肯定是有差異的。美國(guó)企業(yè)可能更加 care 的是易用性方面,而中國(guó)企業(yè)看重的是性能。
還有另外一個(gè)點(diǎn)是,中國(guó)的用戶更加偏向于大一統(tǒng)的系統(tǒng)需求,可能是需要用一套架構(gòu)解決所有問(wèn)題。比如我們用微信的時(shí)候,我可能不太想希望去跳到其他平臺(tái),微信小程序就類似于轉(zhuǎn)化系統(tǒng);但美國(guó)由于產(chǎn)品實(shí)在太多了,而且它產(chǎn)品分工非常明確、非常細(xì),所以對(duì)于美國(guó)來(lái)說(shuō)最優(yōu)的解決辦法是去把這些東西拼裝起來(lái),只要你能給我一個(gè)非常簡(jiǎn)單的拼裝方式,我就非常滿意了。
關(guān)濤 :先說(shuō)技術(shù),技術(shù)上中國(guó)和美國(guó)幾乎拉平的,得益于非常頻繁的技術(shù)交流,比如說(shuō)今天這樣的一個(gè)圓桌。
在商業(yè)生態(tài)上,國(guó)內(nèi)跟美國(guó),不同的企業(yè)可能不一樣,大概有 3-7 年的差別,美國(guó)的商業(yè)生態(tài)上更關(guān)注的事情,國(guó)內(nèi)可能要再晚幾年才會(huì)關(guān)注到,比如安全和隱私保護(hù),這是我個(gè)人的視角。
除此之外,中美還有 幾個(gè)差異點(diǎn) :
第一點(diǎn)是 付費(fèi)意愿 的問(wèn)題,美國(guó)企業(yè)更愿意為知識(shí)、為軟件來(lái)付費(fèi)。在國(guó)內(nèi)你會(huì)發(fā)現(xiàn)很多小公司愿意開(kāi)源自建,原因就在于軟件的費(fèi)用就省掉了。當(dāng)然,后來(lái)大家越來(lái)越明白,可能人力資源的那部分成本比一般軟件還要貴。
第二點(diǎn)是 遷移方向 的問(wèn)題。剛才嘉賓舉了個(gè)例子,大家覺(jué)得 Snowflake 太貴了,然后轉(zhuǎn)移到自建上去,我這看到正好相反,我這邊看到的在國(guó)內(nèi)的特點(diǎn)是說(shuō),國(guó)內(nèi)大多數(shù)公司把自建平臺(tái)轉(zhuǎn)向了 SaaS 托管化的平臺(tái),這件事的核心是公司要削減成本,公司會(huì)把那些維護(hù)這個(gè)平臺(tái)的人轉(zhuǎn)移到業(yè)務(wù)上去。
第三點(diǎn)不同是對(duì) 安全 的要求不相同。美國(guó)對(duì)數(shù)據(jù)隱私安全合規(guī)的要求要高一點(diǎn)。
第四點(diǎn),我個(gè)人認(rèn)為國(guó)內(nèi)公司的 技術(shù)好奇心 更強(qiáng),也更開(kāi)放。你跟他談一些新技術(shù),給他一些新的產(chǎn)品,他非常愿意嘗試,并能快速迭代給你。但國(guó)外可能門(mén)檻要高一點(diǎn),你不達(dá)到一些成熟的標(biāo)準(zhǔn),比如說(shuō)不達(dá)到合規(guī)和穩(wěn)定性的標(biāo)準(zhǔn),很多美國(guó)的企業(yè)一定打不進(jìn)去。這也是國(guó)內(nèi)的技術(shù)生態(tài)發(fā)展迭代快的一個(gè)因素。
InfoQ:Snowflake 現(xiàn)在在大數(shù)據(jù)里面做得非常成功,這個(gè)平臺(tái)它這么受歡迎的原因是什么?
Xiao Guo :作為用戶,我覺(jué)得它最好的一點(diǎn)就是你用它的時(shí)候不用去特別去想它背后的細(xì)節(jié)。它可以提供很多功能,能幫助企業(yè)進(jìn)行基礎(chǔ)設(shè)施的復(fù)雜管理和優(yōu)化。
并且,Snowflake 也是 SQL based。engineer,product,manager,product analyst 甚至 customer,所有人都可以用 Snowflake 很簡(jiǎn)單地去查詢想要的內(nèi)容,看到業(yè)務(wù)數(shù)據(jù)的一些表現(xiàn)。同時(shí)它可以支持任何云廠商,企業(yè)不用擔(dān)心自己因?yàn)樵谀膫€(gè)云平臺(tái)上而得到有限的服務(wù)。
Snowflake 也會(huì)有一些安全的標(biāo)準(zhǔn),在數(shù)據(jù)的加密上做得很好。再就是查詢響應(yīng)速度。作為一個(gè)用戶來(lái)說(shuō),我最關(guān)心的是一個(gè) query 能不能很快反饋,能不能支持很多用戶同時(shí)訪問(wèn)等。總而言之,作為一個(gè)終端的客戶,我更關(guān)注的是我自己的產(chǎn)品,而不是去花很多時(shí)間去想數(shù)據(jù)平臺(tái)如何構(gòu)建。如果一個(gè)平臺(tái)讓你不用去想它就能用,能讓你有更多時(shí)間專注于做對(duì)自己公司而言重要的事情,還能滿足公司需求,就是一個(gè)很好的平臺(tái)。
吳英駿 :我們經(jīng)過(guò)長(zhǎng)期訪談發(fā)現(xiàn),用戶用 Snowflake 是越用越爽的。用戶一開(kāi)始沒(méi)有想付那么多錢(qián),但是這個(gè)平臺(tái)實(shí)在太好用了,所以他就一直發(fā) query,就導(dǎo)致這個(gè)平臺(tái)越用越貴,賬單才會(huì)越來(lái)越高。但是如果要去問(wèn)用戶說(shuō),Snowflake 到底好在哪?他們都說(shuō)不清。另外,Snowflake 的用戶模型,或者說(shuō)它的收費(fèi)模式也非常好,好處在于說(shuō)你不用去選機(jī)器,你只要告訴我你選的一個(gè) T-shirt Size,其他東西都幫你搞定了。Snowflake 現(xiàn)在在往 DataCloud 方向改良,集成了相當(dāng)多的東西,這些東西能讓客戶使用產(chǎn)品時(shí)一鍵搞定所有事情。
關(guān)濤 :前面嘉賓提了很多形容詞,我用一個(gè)詞來(lái)形容它,叫 一體化 。
Snowflake 的一體化的能力其實(shí)做得非常好,使得它很容易能被很多人用起來(lái)。如果一個(gè)公司的平臺(tái)建設(shè)完,但這個(gè)平臺(tái)只有數(shù)據(jù)開(kāi)發(fā)的那幾個(gè)同學(xué)能用起來(lái),別人要用的時(shí)候都要經(jīng)過(guò)這幾個(gè)人,整體效率就很低。Snowflake 的一個(gè)好處就在于也許你不是特別懂系統(tǒng),也許你只是會(huì)寫(xiě) SQL,你也可以把它很好地用起來(lái)。剛才說(shuō)的擴(kuò)展性的問(wèn)題、調(diào)優(yōu)的問(wèn)題都被系統(tǒng)屏蔽到系統(tǒng)底層之下,你不需要管它。
這種 一體化的能力,是提升業(yè)務(wù)效率,降低使用門(mén)檻的關(guān)鍵 。讓那些并不太懂技術(shù)的人,也能夠很好地使用數(shù)據(jù)平臺(tái),就是 Snowflake 成功的第一個(gè)關(guān)鍵點(diǎn)。
多云或者叫云中立是 Snowflake 成功的第二個(gè)點(diǎn) 。很多客戶、特別是大客戶特別看重?cái)?shù)據(jù)平臺(tái)是否會(huì)綁定在一家云上。
第三個(gè)關(guān)鍵點(diǎn)是 Snowflake 面向云原生彈性的收費(fèi)能力。 對(duì)于小企業(yè)來(lái)講, Snowflake 起步非常便宜。
所以讓我總結(jié) Snowflake 這個(gè)平臺(tái)受歡迎的點(diǎn),一個(gè)是一體化的能力,一個(gè)系統(tǒng)解決大多數(shù)問(wèn)題;第二個(gè)是多云和云中立;第三個(gè)是彈性的收費(fèi)能力降低了用戶使用的門(mén)檻。
InfoQ:從投資人的角度,你如何看待數(shù)據(jù)平臺(tái)技術(shù)的發(fā)展?
Xiao Guo :目前我們?cè)诳匆恍┥墒?AI 的項(xiàng)目,因?yàn)槲覀冇X(jué)得 數(shù)據(jù)是接下來(lái)十年或者更長(zhǎng)久的一個(gè)巨大的最本質(zhì)的推動(dòng)力 。大家都說(shuō)接下來(lái)的十年 AI、生成式 AI 會(huì)為社會(huì)的生產(chǎn)力帶來(lái)極大提升,而 驅(qū)動(dòng) AI 最底層的就是數(shù)據(jù) 。所以我覺(jué)得在接下來(lái)的十年之內(nèi),數(shù)據(jù)還有 AI 都是非常大的一個(gè)浪潮。
InfoQ:一家初創(chuàng)公司需要具備什么樣的特性,你才會(huì)考慮投資?
Xiao Guo :很多方面。
早期公司我們很看重創(chuàng)始人的背景 ,因?yàn)槲覀兺兜木褪瞧夹g(shù)的公司,創(chuàng)始人及創(chuàng)始團(tuán)隊(duì)需要有很強(qiáng)的技術(shù)實(shí)力。
第二,看 產(chǎn)品是不是能解決市場(chǎng)上的一些痛點(diǎn) 。要么企業(yè)自身已經(jīng)有用戶,要么市場(chǎng)上跟他同類型的不同階段的公司已經(jīng)有用戶。初創(chuàng)企業(yè),就看他們有沒(méi)有愿意付費(fèi)的人;比較后期的話,我們就看他有多少付費(fèi)的用戶。公司產(chǎn)品是否能解決具體的問(wèn)題,擁有哪些具體的客戶,對(duì)我們來(lái)說(shuō)很重要。
第三,我們還要看 這個(gè)賽道有多大,這個(gè)市場(chǎng)有多大 。有的企業(yè)不僅面向科技企業(yè)推薦產(chǎn)品,還會(huì)向一些傳統(tǒng)企業(yè)推銷產(chǎn)品。隨著對(duì)數(shù)據(jù)的需求不斷增加,傳統(tǒng)企業(yè)也會(huì)增加軟件的采購(gòu)需求。我們投資的時(shí)候,一般除了跟這個(gè)團(tuán)隊(duì)聊,我們也會(huì)跟他們的客戶聊,問(wèn)客戶的使用的體驗(yàn),對(duì)整個(gè)產(chǎn)品有什么反饋等。
InfoQ:不管是從使用方的角度,還是從創(chuàng)業(yè)者的角度,行業(yè)內(nèi)對(duì)中國(guó)版 Snowflake 的呼聲從未停止。各位嘉賓怎么看這樣的一個(gè)浪潮呢?
吳英駿 :這個(gè)我覺(jué)得應(yīng)該說(shuō)是叫眾望所歸。
現(xiàn)在大家都可以看到國(guó)內(nèi)有很多云平臺(tái),比如說(shuō)像阿里云、騰訊云、華為云包括像天翼云,包括像其他一些各種各樣云平臺(tái),有這么多云平臺(tái)。但是 中國(guó)似乎沒(méi)有一家類似于像 Snowflake 這樣的獨(dú)立的云平臺(tái) 。我相信這個(gè)賽道有很多玩家,但是我們沒(méi)有見(jiàn)到過(guò)一家有 Snowflake 這種影響力,或者說(shuō)有很多人認(rèn)可的獨(dú)立第三方的公司,現(xiàn)在目前沒(méi)有。
在跟國(guó)內(nèi)用戶聊的時(shí)候,我發(fā)現(xiàn) 國(guó)內(nèi)用戶他們都希望用多云,他們不太希望被一家云綁定 。他們甚至?xí)约鹤鲆恍┻w移,就是為了防止被一家云綁定。
所以,如果這時(shí)候出現(xiàn)一個(gè)第三方的產(chǎn)品,足夠好用,價(jià)格相對(duì)來(lái)說(shuō)比較合理,一定有其存在的合理性。
關(guān)濤 :我聽(tīng)到的呼聲蠻多的,從我在阿里云做阿里云平臺(tái)的數(shù)據(jù)平臺(tái)產(chǎn)品的時(shí)候就能聽(tīng)到。主要原因大概我覺(jué)得可能分成三類。
第一,快速發(fā)展的中國(guó)云市場(chǎng),帶來(lái)更多需求 。中國(guó)是個(gè)大市場(chǎng),有很多的用戶和海量數(shù)據(jù),但是中國(guó)的云規(guī)模相對(duì)不大,中國(guó)的云跟美國(guó)的云從營(yíng)收層面比,大概有 1:7 的一個(gè)比例,這個(gè)跟中國(guó)整個(gè)經(jīng)濟(jì)的體量并不太匹配。從這個(gè)層面,我們剛才提到的數(shù)據(jù)發(fā)展三階段,就是從這個(gè)孕育期到發(fā)展期到普惠期,云本身也是在發(fā)展期后期到普惠期的前期。中國(guó)的云市場(chǎng)還有很大的發(fā)展空間。
第二,中國(guó)缺乏多云獨(dú)立的數(shù)據(jù)平臺(tái)服務(wù) 。中國(guó)云生態(tài)很分散,大家提到美國(guó)就是三朵云了,幾乎沒(méi)有第四。中國(guó)除了剛才提到的阿里、騰訊、華為以外,還有像天翼、字節(jié)等等。中國(guó)的云發(fā)展的生態(tài)更分散,這個(gè)也是技術(shù)發(fā)展期的一個(gè)特征,就是百花齊放的一個(gè)樣子。這種百花齊放對(duì)用戶來(lái)講確實(shí)是個(gè)問(wèn)題,他希望不被鎖定。
第三,從對(duì)標(biāo)廠商層面看。美國(guó)三大云數(shù)倉(cāng) + 兩個(gè)獨(dú)立數(shù)據(jù)平臺(tái)(Snowflake,Databricks) 的數(shù)據(jù)平臺(tái)格局已經(jīng)形成。相比起來(lái), 國(guó)內(nèi)做原創(chuàng)數(shù)據(jù)平臺(tái)技術(shù)的公司并不多,市場(chǎng)整體還是偏空白的狀態(tài) 。
InfoQ:如果出現(xiàn)一家中國(guó)版的 Snowflake,那這家企業(yè)應(yīng)該具備什么樣的特質(zhì)?
吳英駿 :我相信它肯定不是一個(gè)單純的 copy ,肯定是需要去做本地化。在中國(guó)市場(chǎng)做本地化,跟在美國(guó)市場(chǎng)有非常多的不同。
首先, 生態(tài)方面的差異 。整個(gè)大數(shù)據(jù)的生態(tài)兩者是不一樣的,比如說(shuō)美國(guó)市場(chǎng)是像亞馬遜云科技、GCP 這些生態(tài),在國(guó)內(nèi)可能是阿里云、騰訊云這樣的生態(tài)。
其次, 用戶需求的差異 。從國(guó)內(nèi)用戶的角度來(lái)去考慮的話,他們相比于美國(guó)用戶,對(duì)性能相信是有更高要求的。國(guó)內(nèi)企業(yè)的業(yè)務(wù)量非常大且獨(dú)特,像雙 11 這種業(yè)務(wù)場(chǎng)景的流量和獨(dú)特性肯定是秒殺美國(guó)黑五的。如果你做中國(guó)版 Snowfalke 只是去 copy 的話,可能意義不是特別大。
最后, 用戶文化的差異 。在美國(guó)文化中,美國(guó)用戶能夠接受企業(yè)做拼裝融合多種產(chǎn)品需求,但在中國(guó)不一樣,它希望最好能做成微信的樣子,一家全部能做了。
回到話題本身,我相信 如果要是中國(guó)做一家 Snowflake,它需要在本土化上面做得非常強(qiáng),肯定不是去 copy to China 這樣的一個(gè)模式 。
關(guān)濤 :如果與 Snowflake 對(duì)標(biāo)起來(lái),我覺(jué)得有五個(gè)標(biāo)準(zhǔn):
第一,它應(yīng)該是 多云 的。
第二,它是 一體化 的,能用一套系統(tǒng)能解決用戶的很多數(shù)據(jù)的問(wèn)題?;蛟S不一定解決所有問(wèn)題,但它至少應(yīng)該是一個(gè)高內(nèi)聚、低耦合的系統(tǒng)。
第三,我覺(jué)得關(guān)鍵的是 原創(chuàng)的技術(shù) 。如果今天拿開(kāi)源的技術(shù)組裝成一個(gè)系統(tǒng),它很難做到非常好一體化。無(wú)數(shù)的案例已經(jīng)證明了這一點(diǎn)。Snowflake 好就好在它是一個(gè)一體化的東西,是非常耦合一體化的東西。
第四,我很同意嘉賓剛才提到的,就是 不能照搬 ,就是如果今天照抄 Snowflake 的技術(shù),那是 8 年前的技術(shù)。Snowflake 起步大概在八九年前,讓它火起來(lái)的技術(shù)在當(dāng)年是創(chuàng)新但在現(xiàn)在已經(jīng)不是了。所以中國(guó)版 Snowflake 要有原創(chuàng)能力和面向新一代的技術(shù)的創(chuàng)新,要比 Snowflake 做得更好才可以。
第五, 好的 To B 能力或者說(shuō)本土化。 好的 To B 能力指的是基礎(chǔ)設(shè)施產(chǎn)品。除了技術(shù)以外,你要有很好的產(chǎn)品的包裝能力,讓用戶用起來(lái)很“爽”;要有很好的商業(yè)服務(wù)能力,包括現(xiàn)場(chǎng)實(shí)施、安全性合規(guī)等,能夠服務(wù)好客戶。
所以總結(jié)下來(lái), 中國(guó)版的 Snowflake 應(yīng)該有五個(gè)特征:多云、一體化、原創(chuàng)的技術(shù)、比 Snowflake 更新一代的創(chuàng)新、好的 ToB 能力 。
我覺(jué)得目前國(guó)內(nèi)還沒(méi)有一家公司可以做到這些五點(diǎn),并且已經(jīng)形成影響力。我們?cè)破飨M麡?gòu)建這樣的一些服務(wù),這也是我們的一個(gè)目標(biāo)。
InfoQ:關(guān)濤老師的公司云器科技在 的時(shí)候有一個(gè)發(fā)布會(huì),能不能請(qǐng)關(guān)濤老師給我們提前劇透一下?
關(guān)濤 :前面大家已經(jīng)聊了很多,我談下我們?yōu)槭裁匆鲞@樣的一家創(chuàng)業(yè)公司?
在美國(guó)數(shù)據(jù)平臺(tái)領(lǐng)域,三家核心云廠商都有原創(chuàng)的“主力”數(shù)據(jù)平臺(tái),還有兩個(gè)獨(dú)立的數(shù)據(jù)平臺(tái)(Snowflake、Databricks),形成 3+2 的格局。在國(guó)內(nèi),真正做原創(chuàng)的數(shù)據(jù)平臺(tái)技術(shù)的公司并沒(méi)有那么多,目前也沒(méi)有一個(gè)成規(guī)模能像 Snowflake 一樣的多云平臺(tái)獨(dú)立提供商。 所以,我們希望能夠做一個(gè)多云和一體化體驗(yàn)的數(shù)據(jù)平臺(tái),能夠普惠國(guó)內(nèi)的用戶。所以,我們做了云器科技 。
商業(yè)模式上,我們跟 Snowflake 很像,是 多云獨(dú)立設(shè)計(jì)、一體化極簡(jiǎn)的架構(gòu) 。在技術(shù)上,我們提出基于 SingleEngine 理念的湖倉(cāng)平臺(tái),很多能力會(huì)超越 Snowflake 。
我們?cè)?7 月 20 號(hào)舉辦首發(fā)發(fā)布會(huì),會(huì)正式推出我們的 Lakehouse 平臺(tái),同時(shí)會(huì)有實(shí)際的客戶案例展示出來(lái)。大家想要關(guān)注我們的話,可以搜索云器科技,能看到我們的官網(wǎng)的頁(yè)面。
7 月 20 日,云器科技將首次對(duì)外舉辦新品發(fā)布會(huì)。云器首創(chuàng)以“Single-Engine”為核心理念的湖倉(cāng)平臺(tái),目前已經(jīng)完成了數(shù)億元融資!為什么云器可以在當(dāng)下的市場(chǎng)環(huán)境中獲得投資方和企業(yè)客戶的青睞?點(diǎn)擊“報(bào)名”立刻報(bào)名發(fā)布會(huì)一探究竟!
相關(guān)稿件
從 Hadoop 到 Snowflake,2023 年數(shù)據(jù)平臺(tái)路在何方? 世界最新
湖人官宣季前賽賽程!兩戰(zhàn)勇士成焦點(diǎn) 詹姆斯杜蘭特有望上演對(duì)決_焦點(diǎn)關(guān)注
快訊:蠶結(jié)繭幾天后能拿下來(lái)_蠶結(jié)繭后多久可以移動(dòng)
銀行定期存款有“講究”??jī)?nèi)部員工不建議存3年定期,原因揭曉_焦點(diǎn)精選
全日制專升本畢業(yè)證和本科畢業(yè)證的區(qū)別 天天熱消息
公務(wù)人員莫名成了老板?48 名被冒名者的困局-世界報(bào)道
鮮仙人掌炒牛肉_關(guān)于鮮仙人掌炒牛肉簡(jiǎn)述
阿富汗地震一周年丨重建艱難 美國(guó)單邊制裁加劇民眾痛苦 環(huán)球播資訊
天天快資訊丨C++面試八股文:std::vector了解嗎?
下月初,快樂(lè)一半,悲傷一半,3星座相愛(ài)卻停不下來(lái),無(wú)法自拔-環(huán)球觀焦點(diǎn)
犬科動(dòng)物和貓科動(dòng)物哪個(gè)厲害 犬科動(dòng)物
即時(shí):血壓壓差大是什么原因,如何治療 血壓壓差大是什么原因
內(nèi)江城區(qū)夜空首次無(wú)人機(jī)組團(tuán)特技表演盡顯藝術(shù)與科技的魅力 資訊
全球視訊!【端午近郊游】喜歡蜂糖李的友友千萬(wàn)別錯(cuò)過(guò)這個(gè)地方!
派對(duì)必備!超可愛(ài)的兒童萬(wàn)圣節(jié)工藝品送給女性好友,更是生日禮物的首選! 前沿資訊
意甲:米蘭不看好門(mén)將永達(dá)爾的未來(lái),決定讓其免費(fèi)加盟赫塔菲-重點(diǎn)聚焦
當(dāng)前速遞!國(guó)內(nèi)唯一沒(méi)有規(guī)劃高鐵的省會(huì):不僅成本高難度更大,風(fēng)景倒是絕美
土烏防長(zhǎng)通電話 討論黑海港口農(nóng)產(chǎn)品外運(yùn)協(xié)議問(wèn)題-環(huán)球動(dòng)態(tài)
世界熱消息:黃楚標(biāo)_關(guān)于黃楚標(biāo)的介紹
6月21日基金凈值:興業(yè)收益增強(qiáng)債券A最新凈值1.394,跌0.29%
6月21日基金凈值:嘉實(shí)穩(wěn)惠6個(gè)月持有期混合A最新凈值1.0378,跌0.21%_焦點(diǎn)熱訊
教育頻道
北京一線城市最新北京車牌出租價(jià)格一覽 當(dāng)前快看
快看:廣汽集團(tuán)(02238.HK):擬不參與如祺出行融資
全國(guó)首個(gè)“風(fēng)火儲(chǔ)”打捆外送新能源項(xiàng)目預(yù)計(jì)6月底并網(wǎng)發(fā)電 天天熱頭條
阿富汗地震一周年丨重建艱難 美國(guó)單邊制裁加劇民眾痛苦 環(huán)球播資訊
世界熱消息:黃楚標(biāo)_關(guān)于黃楚標(biāo)的介紹
宿遷好的養(yǎng)老院 宿遷三星級(jí)養(yǎng)老院名單
19時(shí)官宣,劉詩(shī)雯前往日本打球塵埃落定,小棗回應(yīng),她做最好選擇
【世界新視野】滇中經(jīng)濟(jì)區(qū)五州市政協(xié)合作機(jī)制第十五次會(huì)議將在昆舉行


