作者 | 方文三
AI的飛速發(fā)展離不開數(shù)據(jù)的支撐,而在數(shù)據(jù)被用于訓(xùn)練之前,其必須經(jīng)過嚴(yán)謹(jǐn)?shù)奶幚砗途?xì)的標(biāo)注。
在人工智能發(fā)展的三大支柱——算力、數(shù)據(jù)和算法中,Scale AI深諳數(shù)據(jù)之道,尤其是在這一領(lǐng)域尚顯空白的背景下,其成功更顯難能可貴。
而與之形成鮮明對比的是,當(dāng)前絕大多數(shù)AI創(chuàng)業(yè)公司仍處于巨額虧損的困境之中,而Scale AI卻已接近盈虧平衡的狀態(tài),這無疑為其在競爭激烈的市場中贏得了寶貴的優(yōu)勢。
Scale AI融資10億后,市值飆升至138億
在舊金山的Showplace廣場,一座曾歸屬Airbnb的商業(yè)建筑近期易主。
在當(dāng)前多數(shù)科技公司普遍縮減業(yè)務(wù)的背景下,Scale AI——一家由95后華人創(chuàng)辦的人工智能數(shù)據(jù)標(biāo)注企業(yè),毅然承租了舊金山市中心約18萬平方英尺的辦公空間。
近年來,Scale AI展現(xiàn)出強勁的發(fā)展勢頭。至2021年,其企業(yè)估值已攀升至約73億美元;
而在2024年5月完成的新一輪10億美元融資后,其估值更是飆升至驚人的138億美元。
本輪F輪融資由硅谷知名投資機構(gòu)Accel領(lǐng)投,除YC、英偉達(dá)等既有投資者外,還吸引了包括亞馬遜、Meta、AMD、高通、思科、英特爾等在內(nèi)的眾多新投資者加入,參與機構(gòu)總數(shù)高達(dá)22家。
近日,Scale AI已達(dá)成接近10億美元的年度收入,與去年同期相比,實現(xiàn)了高達(dá)四倍的增長。
而反觀OpenAI,其在去年底的年度收入僅為16億美元,預(yù)計今年方能突破35億美元大關(guān)。
AI市場何其大,Scale AI只取一瓢
在AI領(lǐng)域的廣闊版圖中,數(shù)據(jù)、算法與算力被視為三大基石。
將英偉達(dá)喻為算力領(lǐng)域的[賣鏟人],則Scale AI等專注于數(shù)據(jù)標(biāo)注的公司無疑是數(shù)據(jù)領(lǐng)域的[賣鏟者]。
大模型的研發(fā)深度依賴于英偉達(dá)提供的強大算力,而AI模型的持續(xù)進步則離不開高質(zhì)量、精心標(biāo)注的數(shù)據(jù)支持。
曾有一時,[數(shù)據(jù)是新的石油]之喻頗為流行。然而,Alexander Wang對此持有獨到見解。
他認(rèn)為,石油作為稀缺資源,其價值顯而易見;而數(shù)據(jù)則更為豐富多元,且數(shù)據(jù)之間并非等價。
真正有價值的,是那些經(jīng)過深思熟慮、精心拼接的高質(zhì)量、差異化數(shù)據(jù)。
這一理念,成為了Scale AI發(fā)展的核心理念。
Alexander Wang自豪地表示:[在生成式AI的淘金熱中,Scale AI扮演著鎬子與鏟子的角色。]
當(dāng)眾多企業(yè)競相挖掘AI領(lǐng)域的金礦時,Scale AI獨辟蹊徑,以其專業(yè)的數(shù)據(jù)標(biāo)注服務(wù)在這場激烈的競爭中占據(jù)了獨特而重要的位置。
在生成式AI的蓬勃發(fā)展時期,大模型的三大基石——數(shù)據(jù)、算法、算力,均步入了全新的發(fā)展階段。
隨著基于Transformer的算法不斷演進,以及算力的大幅提升,數(shù)據(jù)成為了限制大模型進一步發(fā)展的關(guān)鍵因素。
當(dāng)前,大模型已近乎耗盡了互聯(lián)網(wǎng)上所有易于獲取的數(shù)據(jù)資源。若缺乏高質(zhì)量數(shù)據(jù)的持續(xù)供給,大模型或?qū)⑾萑胄阅芡睦Ь场?/p>
因此,在AI的新紀(jì)元中,數(shù)據(jù)資產(chǎn)被視為亟待挖掘的寶貴金礦,而圍繞數(shù)據(jù)展開的[工具提供者](即[賣鏟人])將迎來前所未有的發(fā)展機遇。
巨頭執(zhí)著大模型訓(xùn)練,Alexander Wang退學(xué)創(chuàng)業(yè)
Alexandr Wang,出生于1997年1月19日,籍貫為新墨西哥州的洛斯阿拉莫斯。
其父母均為中國移民,且均在洛斯阿拉莫斯國家實驗室擔(dān)任物理學(xué)家之職。
Wang自高中時代便展露出卓越的編程才能,并于年僅18歲時成功考入麻省理工學(xué)院,專攻機器學(xué)習(xí)領(lǐng)域。
然而,在MIT的學(xué)術(shù)光環(huán)與廣闊前景中,他毅然做出了一個極具挑戰(zhàn)性的決定——輟學(xué)創(chuàng)業(yè)。
2016年,Wang攜手Lucy Guo共同創(chuàng)立了ScaleAI,旨在攻克人工智能領(lǐng)域中的一項關(guān)鍵難題——數(shù)據(jù)標(biāo)注。
Wang深諳數(shù)據(jù)之于AI模型成功的重要性,他堅信隨著模型規(guī)模的不斷擴大,對數(shù)據(jù)的需求也將呈現(xiàn)指數(shù)級增長。
因此,他創(chuàng)辦ScaleAI的初衷正是為了從根本上解決人工智能領(lǐng)域的數(shù)據(jù)難題。
彼時,Scale AI的愿景似乎與業(yè)界的主流趨勢背道而馳,當(dāng)眾人皆致力于以人工智能替代人力之時,Scale AI卻反其道而行之,專注于利用大量人力去完成那些人工智能尚難以勝任的任務(wù)。
盡管數(shù)據(jù)標(biāo)注業(yè)務(wù)表面上似乎門檻較低,但在2016年左右的[AI沉寂期]期間,該領(lǐng)域幾乎處于市場空白的狀態(tài),僅有谷歌、亞馬遜等少數(shù)大型公司擁有自己的數(shù)據(jù)標(biāo)注部門。
然而,這正是Scale AI的獨特優(yōu)勢所在。在人工智能公司收集的海量原始數(shù)據(jù)中,這些數(shù)據(jù)在輸入模型之前,亟需通過標(biāo)簽進行注釋。
然而,這一繁重而復(fù)雜的工作,大多數(shù)公司只能依靠手動完成。
Scale AI的出現(xiàn),則為這些公司提供了全新的解決方案。
尤為值得一提的是,Alexander Wang還敏銳地把握住了自動駕駛興起的契機。
他帶領(lǐng)團隊為自動駕駛汽車所依賴的雷達(dá)和傳感器生成的三維圖像進行精準(zhǔn)的數(shù)據(jù)標(biāo)注。
這些經(jīng)過標(biāo)注的高質(zhì)量數(shù)據(jù),無疑將極大地提升自動駕駛系統(tǒng)的性能,為自動駕駛技術(shù)的發(fā)展貢獻了一份力量。
從外包轉(zhuǎn)型,專注于提供大規(guī)模數(shù)據(jù)標(biāo)注
Scale AI在其早期發(fā)展階段,核心業(yè)務(wù)聚焦于為自動駕駛行業(yè)的企業(yè)提供數(shù)據(jù)標(biāo)注的外包服務(wù)。
2018年,Scale AI明確提出了公司的戰(zhàn)略目標(biāo),即[構(gòu)建一個可靠、經(jīng)濟高效且可擴展的基礎(chǔ)架構(gòu),以簡化并加速令人矚目的應(yīng)用程序的構(gòu)建過程]。
這一轉(zhuǎn)變標(biāo)志著Scale AI不再滿足于作為傳統(tǒng)數(shù)據(jù)標(biāo)注服務(wù)提供商的角色,而是致力于發(fā)展成為以數(shù)據(jù)標(biāo)注為核心競爭力的應(yīng)用開發(fā)平臺。
然而,自2022年以來,隨著Scaling Law理論的推動,大型模型的參數(shù)規(guī)模迅速擴大,且對訓(xùn)練數(shù)據(jù)的需求急劇增加。
在這一背景下,Scale AI積極調(diào)整戰(zhàn)略方向,與OpenAI等領(lǐng)先企業(yè)建立合作關(guān)系,逐漸轉(zhuǎn)型為專注于提供大規(guī)模數(shù)據(jù)標(biāo)注的專業(yè)服務(wù)提供商。
在此過程中,Scale AI構(gòu)建起了強大的數(shù)據(jù)標(biāo)注與治理能力,成為連接第三方大模型與客戶應(yīng)用場景的橋梁。
他們雖不直接提供大模型產(chǎn)品,但擅長于運用客戶私有數(shù)據(jù)對主流大模型進行適配與優(yōu)化,確保其在特定場景下的精準(zhǔn)應(yīng)用。
此外,Scale AI還積極拓展G端市場,業(yè)務(wù)迅速向政府部門滲透。
特別是與美國國防部等政府機構(gòu)的成功合作,不僅為公司帶來了可觀的經(jīng)濟收益(如2022年單筆2.5億美元的合同),更驗證了公司在國家安全與軍事領(lǐng)域的應(yīng)用價值。
敏銳識市場機遇,把握了AI多個重要轉(zhuǎn)折點
①在Scale AI成立后的初期階段,公司敏銳地洞察到該領(lǐng)域?qū)Υ笠?guī)模且嚴(yán)格的數(shù)據(jù)標(biāo)注需求。
自動駕駛技術(shù)的推進高度依賴于海量高精度的標(biāo)注數(shù)據(jù),涵蓋道路場景、行人及多種物體的圖像資料。汽車制造商亟需數(shù)萬小時的視頻數(shù)據(jù)以進行標(biāo)注,進而訓(xùn)練并驗證其算法。
縱觀整個自動駕駛行業(yè),彼時超過九成的數(shù)據(jù)標(biāo)注工作仍以人工操作為主導(dǎo)。
Scale AI憑借高效的數(shù)據(jù)標(biāo)注平臺,以及創(chuàng)新的模型輔助標(biāo)注與數(shù)據(jù)預(yù)處理技術(shù),有效加速了數(shù)據(jù)處理流程,顯著降低了標(biāo)注的成本與時間消耗;
從而吸引了包括Waymo、Cruise等當(dāng)時備受矚目的企業(yè)成為其客戶,并在自動駕駛數(shù)據(jù)標(biāo)注領(lǐng)域穩(wěn)固了市場地位。
②在自動駕駛領(lǐng)域取得初步成功后,Scale AI進一步將業(yè)務(wù)版圖擴展至AIaaS(AI即服務(wù))市場。
公司從單一的數(shù)據(jù)標(biāo)注服務(wù)出發(fā),逐步構(gòu)建起涵蓋數(shù)據(jù)標(biāo)記與管理、模型訓(xùn)練與評估,以及AI應(yīng)用開發(fā)與部署的全鏈條解決方案。
③面對部分行業(yè)數(shù)據(jù)稀缺的難題,Scale AI還積極向下游拓展,涉足合成數(shù)據(jù)生成領(lǐng)域。
通過利用現(xiàn)有數(shù)據(jù)資源創(chuàng)造全新的數(shù)據(jù)集,公司有效助力了模型訓(xùn)練過程。
在接下來的幾年里,Scale AI在數(shù)據(jù)領(lǐng)域?qū)崿F(xiàn)了迅速崛起,其客戶群體也拓展至醫(yī)療、國防、電商、政府服務(wù)等多個領(lǐng)域。
在公司成立兩年多的時間里,其營收已接近五千萬美元大關(guān)。
④Scale AI還精準(zhǔn)捕捉到了生成式AI崛起的契機。
早在GPT-2時代,公司便與OpenAI攜手開展了首次融入人類反饋的強化學(xué)習(xí)合作實驗,并隨后將這些先進技術(shù)拓展至InstructGPT及其他相關(guān)領(lǐng)域。
鑒于生成式AI模型對于海量訓(xùn)練數(shù)據(jù)的迫切需求,以提升其生成內(nèi)容的精準(zhǔn)度與多樣性,大語言模型的蓬勃興起極大地推動了行業(yè)對高質(zhì)量標(biāo)注數(shù)據(jù)的渴求。
Scale AI通過整合數(shù)據(jù)標(biāo)注、數(shù)據(jù)合成等服務(wù),為生成式AI的發(fā)展提供了堅實的數(shù)據(jù)支撐。
此外,公司還致力于為企業(yè)提供定制化API的快速生成服務(wù),有效降低了企業(yè)自行訓(xùn)練模型的復(fù)雜性與成本。
針對生成式AI領(lǐng)域,Scale AI已推出了一整套平臺服務(wù),涵蓋開發(fā)者工具平臺Scale Spellbook、合成數(shù)據(jù)產(chǎn)品Scale Synthetic以及企業(yè)級GenAI平臺等。
旨在確保企業(yè)在任何場景下都能獲得充足的數(shù)據(jù)支持,以推動模型的訓(xùn)練與優(yōu)化。
結(jié)尾:
盡管AI行業(yè)的蓬勃發(fā)展推動了Scale AI銷售額的顯著增長,但也加劇了行業(yè)內(nèi)的激烈競爭。
在此背景下,Alexander Wang對公司在吸引和保留關(guān)鍵人才方面可能面臨的劣勢表示關(guān)切。
值得注意的是,Scale AI在Glassdoor等職場評價平臺上的評分(3.5分)相較于OpenAI(4.3分)和Figma(4.4分)等業(yè)界同行處于較低水平,這無疑對公司的品牌形象構(gòu)成了挑戰(zhàn)。
部分資料參考:創(chuàng)業(yè)邦:《給AI公司[打雜],95后華人把估值做到138億美元》,AI科技評論:《Alexander Wang 如何用 24 萬數(shù)字游民打造數(shù)據(jù)標(biāo)注王國》,九合創(chuàng)投:《Scale AI 啟示錄》,智能超參數(shù):《硅谷投資人對話Scale AI創(chuàng)始人:模型競爭進入第三階段,純模型租賃不是好生意》,中信證券研究:《Scale AI:從數(shù)據(jù)標(biāo)注,到AI應(yīng)用落地》,新智元:《27歲華裔天才少年再獲融資,數(shù)據(jù)標(biāo)注會是下一個風(fēng)口?》, AAIA亞太人工智能學(xué)會 AIGC:《用8年將Scale AI估值從0推至138億,未來會怎樣?》