作者 |??程茜,編輯?|??漠影
百模大戰(zhàn)靠數(shù)據(jù),數(shù)據(jù)是行業(yè)場(chǎng)景落地的制勝關(guān)鍵。
智東西11月28日?qǐng)?bào)道,就在昨天,獵戶星空正式發(fā)布開源Orion-MoE 8x7B參數(shù)MoE模型,并與聚云科技共同發(fā)布大模型數(shù)據(jù)服務(wù)——AI數(shù)據(jù)寶。
獵戶星空首席科學(xué)家韓堃介紹道,AI數(shù)據(jù)寶AirDS(AI-Ready Data Service)可以為企業(yè)提供全方位的大模型數(shù)據(jù)服務(wù),涵蓋數(shù)據(jù)收集、清洗、標(biāo)注、提示詞工程以及評(píng)估等全方位環(huán)節(jié)。AI數(shù)據(jù)寶是底層模型和上層應(yīng)用之間的重要橋梁。
一直以來,數(shù)據(jù)、算法、算力作為大模型發(fā)展的三駕馬車缺一不可,如今算法、算力的差距明顯縮小,數(shù)據(jù)的重要性愈發(fā)凸顯。相比于算法和算力,數(shù)量充足、高質(zhì)量的數(shù)據(jù)是大模型效果、應(yīng)用開發(fā)的關(guān)鍵,也是AI應(yīng)用效果能拉開更大差距的核心。在大模型商業(yè)閉環(huán)中,數(shù)據(jù)明顯成為最直接影響其在垂直行業(yè)落地效果的關(guān)鍵。
因此,在AI數(shù)據(jù)寶發(fā)布之際,獵豹移動(dòng)董事長(zhǎng)兼CEO、獵戶星空董事長(zhǎng)傅盛在接受智東西等媒體采訪時(shí)提到,捅破AI行業(yè)窗戶紙,百模大戰(zhàn)靠數(shù)據(jù),數(shù)據(jù)是行業(yè)場(chǎng)景落地的制勝關(guān)鍵。
在此背景下,依托獵戶星空的大模型能力、對(duì)數(shù)據(jù)收集、標(biāo)注以及提示詞工程等全方位能力以及聚云科技對(duì)中國(guó)出海企業(yè)場(chǎng)景需求的理解,成為當(dāng)下業(yè)內(nèi)唯一一家既做大模型,又將大模型數(shù)據(jù)服務(wù)開放出來的公司。
這在當(dāng)下對(duì)于大模型產(chǎn)業(yè)發(fā)展,在技術(shù)、生態(tài)等諸多布局方面都有重要意義。
01.“煉丹”容易“修仙”難數(shù)據(jù)是場(chǎng)景落地的制勝關(guān)鍵
從去年至今,基于革命性神經(jīng)網(wǎng)絡(luò)Transformer架構(gòu)的ChatGPT引爆AI產(chǎn)業(yè),再到得算力者得天下的算力時(shí)代來臨,英偉達(dá)GPU被瘋搶……算法和算力的激烈競(jìng)爭(zhēng)已經(jīng)放緩。
伴隨著大模型產(chǎn)業(yè)競(jìng)爭(zhēng)升級(jí),應(yīng)用落地加速,算力層面大家選擇的都是同樣的卡,算法層面企業(yè)大都會(huì)選擇成熟的Transformer架構(gòu),這兩架馬車已經(jīng)無法成為企業(yè)拉開差距的關(guān)鍵,其重要性已不可同日而語,反觀數(shù)據(jù)則成為了當(dāng)下各路諸侯的制勝關(guān)鍵。
這背后的一大關(guān)鍵話題就是:“煉丹”容易“修仙”難。
更加多元的AI應(yīng)用涌現(xiàn),并已經(jīng)展現(xiàn)出在各行各業(yè)落地的價(jià)值,但這只是大模型發(fā)展的冰山一角。能真正讓大模型在各行各業(yè)發(fā)揮最大價(jià)值,真正讓企業(yè)用好大模型實(shí)現(xiàn)降本增效并不容易,數(shù)據(jù)的多少、質(zhì)量如何,是企業(yè)能否構(gòu)建一個(gè)好的AI應(yīng)用的關(guān)鍵。
不過,僅僅擁有數(shù)據(jù)就夠了嗎?答案是否定的。企業(yè)在選擇AI應(yīng)用時(shí),最關(guān)鍵的就是其不出錯(cuò)且在此基礎(chǔ)上能大幅提高業(yè)務(wù)效率。但正如獵豹移動(dòng)副總裁童寧所說,早期企業(yè)進(jìn)行大模型應(yīng)用開發(fā)時(shí),并沒有找到合適的路徑,其只能看到模型的排名高、口碑好,無法洞察到冰山之下應(yīng)用開發(fā)過程中的諸多難題。
而這些難題往往事關(guān)大模型深入企業(yè)業(yè)務(wù)的具體效果,如數(shù)據(jù)是否準(zhǔn)確、真實(shí),數(shù)據(jù)的多樣性是否足夠,是否進(jìn)行了提示詞優(yōu)化。
冰山之下的“修仙”之路任重道遠(yuǎn),企業(yè)需要對(duì)數(shù)據(jù)進(jìn)行清洗、標(biāo)注,模型微調(diào)、強(qiáng)化,以及對(duì)大量文字、圖片、視頻、音頻甚至3D等多模態(tài)數(shù)據(jù)進(jìn)行快速處理,這都與避免大模型幻覺,突破大模型識(shí)別、理解的正確率強(qiáng)相關(guān)。傅盛認(rèn)為,大模型數(shù)據(jù)服務(wù)正是產(chǎn)業(yè)鏈中決定大模型基礎(chǔ)能力的關(guān)鍵,需要和應(yīng)用高度結(jié)合,將高質(zhì)量數(shù)據(jù)找出來。
這對(duì)于企業(yè)而言是必須要解決的難題,但諸多企業(yè)當(dāng)下在數(shù)據(jù)處理方面有門檻,目前市面上的數(shù)據(jù)處理工具也各有利弊,因此,什么樣的數(shù)據(jù)服務(wù)才能將大模型的基座能力與好用的應(yīng)用承接起來,是擺在進(jìn)行大模型應(yīng)用開發(fā)的企業(yè)面前的一大難題。
02.既做大模型、又做應(yīng)用開發(fā)讓模型、數(shù)據(jù)、業(yè)務(wù)形成閉環(huán)
今年以來,百模大戰(zhàn)落下帷幕,AI應(yīng)用成各家必爭(zhēng)之地。
那么,在這之中誰來提供數(shù)據(jù)服務(wù)才是最優(yōu)解?什么樣的企業(yè)才能將模型、業(yè)務(wù)和數(shù)據(jù)串聯(lián)起來?
我們可以先從今天獵戶星空的新發(fā)布說起。
獵戶星空與聚云科技聯(lián)合發(fā)布AI數(shù)據(jù)寶AirDS,其提供了圍繞著數(shù)據(jù)的一整套服務(wù),包括數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、提示詞工程、如何評(píng)測(cè)模型等,讓企業(yè)基于大模型快速構(gòu)建好用的應(yīng)用。
事實(shí)上,數(shù)據(jù)服務(wù)這一賽道并不是新興領(lǐng)域,目前行業(yè)中已經(jīng)形成科技巨頭公司、專業(yè)基礎(chǔ)數(shù)據(jù)服務(wù)商、初創(chuàng)科技企業(yè)三足鼎立的局面。但對(duì)于目前企業(yè)的數(shù)據(jù)服務(wù)而言,這三類企業(yè)各有利弊。
此前,知名市研機(jī)構(gòu)德勤咨詢發(fā)布的《AI基礎(chǔ)數(shù)據(jù)服務(wù)白皮書》就提到,傳統(tǒng)的專業(yè)型基礎(chǔ)數(shù)據(jù)服務(wù)商是行業(yè)重要組成部分,科技巨頭企業(yè)依托其科技實(shí)力和強(qiáng)大資源,逐漸占據(jù)了競(jìng)爭(zhēng)優(yōu)勢(shì)。
其中,科技巨頭公司擁有自動(dòng)化標(biāo)注、專業(yè)數(shù)據(jù)采標(biāo)及全棧式服務(wù)能力,其綜合能力最強(qiáng),但這些服務(wù)并沒有完全開放,部分僅限于這些巨頭企業(yè)的客戶;專業(yè)型基礎(chǔ)數(shù)據(jù)服務(wù)商布局早,服務(wù)經(jīng)驗(yàn)積累深,在市場(chǎng)中占有較大份額,其最大優(yōu)勢(shì)是低成本人力服務(wù),但相比于AI標(biāo)注工具,目前人力服務(wù)在成本和效率方面已經(jīng)不占優(yōu)勢(shì);科技初創(chuàng)公司專注于通過自動(dòng)化標(biāo)注、AI標(biāo)注工具切入市場(chǎng)降低人力成本,但相比于巨頭玩家其客戶資源并不充足。
這背后,獵戶星空與聚云科技的結(jié)合,就很好將兩者的優(yōu)勢(shì)相聯(lián)動(dòng),并規(guī)避了不同類型企業(yè)的缺點(diǎn)。
相比于大模型公司和傳統(tǒng)數(shù)據(jù)標(biāo)注公司,AI數(shù)據(jù)寶AirDS擁有大模型研發(fā)、大模型數(shù)據(jù)服務(wù)、行業(yè)服務(wù)、AI應(yīng)用開發(fā)成體系的能力。童寧談道,獵戶星空既做大模型研發(fā),提供大模型數(shù)據(jù)服務(wù),同時(shí)去年以來已經(jīng)在行業(yè)內(nèi)進(jìn)行了AI應(yīng)用開發(fā)、交付等,并且聚云科技長(zhǎng)期以來服務(wù)于中國(guó)品牌企業(yè)出海,因此擁有全鏈條端到端能力,因此其既擁有結(jié)合AI和人工的數(shù)據(jù)標(biāo)注服務(wù),還有一定量的客戶資源。
這樣一來,模型、數(shù)據(jù)、業(yè)務(wù)形成閉環(huán),獵戶星空的AI數(shù)據(jù)寶商業(yè)化已經(jīng)跑通了。
目前,AI數(shù)據(jù)寶AirDS已經(jīng)應(yīng)用到了移動(dòng)通信終端、互聯(lián)網(wǎng)娛樂、新能源汽車、互聯(lián)網(wǎng)金額、消費(fèi)零售等領(lǐng)域企業(yè)中,其可以服務(wù)于多元化類型的中國(guó)品牌出海企業(yè)。
如某全球化移動(dòng)終端客戶基于AI數(shù)據(jù)寶AirDS+多語種,解決了本地化場(chǎng)景語言適配的難題,AirDS通過收集多場(chǎng)景、覆蓋20多種語言的數(shù)據(jù)完成開發(fā)測(cè)試平臺(tái),優(yōu)化提示詞工程后,使得該公司的相關(guān)評(píng)測(cè)指標(biāo)結(jié)果的準(zhǔn)確率超過95%
可以看到,大模型如何實(shí)現(xiàn)商業(yè)價(jià)值,是當(dāng)下產(chǎn)業(yè)發(fā)展的關(guān)鍵命題,獵戶星空已經(jīng)率先找到了一條可行路徑。
03.聚合AI技術(shù)+出海服務(wù)優(yōu)勢(shì)獵豹移動(dòng)整合優(yōu)勢(shì)凸顯
此次獵戶星空發(fā)布AI數(shù)據(jù)寶并率先跑通商業(yè)化背后,隱含著兩個(gè)問題,那就是為什么獵戶星空能做,以及為什么獵戶星空先做成了。
歸結(jié)起來,就是獵戶星空對(duì)于AI產(chǎn)業(yè)的專注與堅(jiān)持以及聚云科技對(duì)客戶出海需求的深刻洞察。
一方面,獵戶星空自2016年成立就堅(jiān)定自研全鏈條AI技術(shù),獵戶星空首席科學(xué)家韓堃談道,從最初豹小秘的智能語音交互系統(tǒng)、激光和視覺多模態(tài)系統(tǒng),再到招財(cái)豹智能室內(nèi)導(dǎo)航系統(tǒng),目前,獵戶星空還在進(jìn)行具身智能方面研究。
這之后,2021年底ChatGPT爆火,獵戶星空基于其多年的AI技術(shù)儲(chǔ)備快速切入,為客戶提供了AI應(yīng)用、模型微調(diào)等服務(wù)。隨后,2023年中期,該公司走上了自研大模型的道路,從頭開始訓(xùn)練了今年年初發(fā)布的“為企業(yè)應(yīng)用而生”的開源百億參數(shù)模型Orion-14B。
今年,為了滿足客戶對(duì)模型速度快和效果好的需求,獵戶星空選擇了MoE路線,并于今天推出Orion-MoE 8x7B-Base模型。
Orion-MoE 8x7B模型的總參數(shù)為48B,每次執(zhí)行任務(wù)的激活參數(shù)為14B。主要中英文測(cè)評(píng)集效果對(duì)比顯示,Orion-MoE 8x7B模型效果,日語、韓語、西班牙語等多語種能力方面表現(xiàn)整體優(yōu)于Mixtral-8x7B等同級(jí)別參數(shù)模型。
推理速度方面,與類似效果的稠密模型進(jìn)行對(duì)比,Orion-MoE 8x7B不同GPU不同并發(fā)數(shù)速度對(duì)比同級(jí)別參數(shù)模型提升可20%-30%。同時(shí),這一模型已經(jīng)完全開源,已上線GitHub、Hugging Face等平臺(tái)。
另一方面,聚云科技成立于2020年,其前身是獵豹移動(dòng)出海1.0時(shí)期的IT運(yùn)維服務(wù)部門,擁有超過10年的出海運(yùn)維經(jīng)驗(yàn),目前已服務(wù)出海中國(guó)品牌企業(yè)有上百家,是亞馬遜云科技在中國(guó)首批獲得生成式AI能力認(rèn)證的高級(jí)咨詢合作伙伴,同時(shí)在今年以滿分成績(jī)通過亞馬遜云科技MSP認(rèn)證Renewal。
此外,在大模型數(shù)據(jù)服務(wù)能力層面,獵豹移動(dòng)控股的獵戶星空對(duì)通過提升數(shù)據(jù)質(zhì)量來改善大模型效果有著充分的實(shí)踐經(jīng)驗(yàn)。
而這些都得益于獵豹移動(dòng)的業(yè)務(wù)基因以及整合優(yōu)勢(shì),近年來,獵豹移動(dòng)戰(zhàn)略轉(zhuǎn)型從傳統(tǒng)的ToC業(yè)務(wù)轉(zhuǎn)向以AI和大模型為核心的ToB業(yè)務(wù),并通過控股獵戶星空,進(jìn)一步加強(qiáng)在AI服務(wù)機(jī)器人和AI大模型領(lǐng)域的布局。此次獵戶星空和聚云科技聯(lián)手打造的AI數(shù)據(jù)寶,正是這一布局的集中體現(xiàn)。
在這一背景下,模型、業(yè)務(wù)、數(shù)據(jù)通過AI數(shù)據(jù)寶將模型和企業(yè)真正串聯(lián)起來,實(shí)現(xiàn)大模型商業(yè)化閉環(huán),加速大模型的應(yīng)用落地。
此外,獵戶星空還宣布與香港大學(xué)計(jì)算與數(shù)據(jù)科學(xué)學(xué)院簽訂了合作協(xié)議,雙方將聯(lián)合研發(fā)用于課程教學(xué)場(chǎng)景的AI應(yīng)用教育工具,并開展“專注具身智能相關(guān)的課程項(xiàng)目”,共同推動(dòng)AI技術(shù)在應(yīng)用領(lǐng)域的普及與應(yīng)用。
綜上可以看出,AI應(yīng)用創(chuàng)新探索進(jìn)入關(guān)鍵期,數(shù)據(jù)這類基礎(chǔ)設(shè)施的作用愈發(fā)重要,讓企業(yè)用好數(shù)據(jù)更為關(guān)鍵,這正是獵戶星空當(dāng)下在做的事。
04.結(jié)語:8年積淀搭建大模型發(fā)展與企業(yè)需求互通之橋
數(shù)據(jù)在大模型發(fā)展中愈發(fā)重要,豐富的數(shù)據(jù)資源可以讓模型及時(shí)學(xué)習(xí)和適應(yīng)新變化,滿足用戶在不同場(chǎng)景下的需求,AI數(shù)據(jù)服務(wù)就成為模型和上層應(yīng)用之間的重要橋梁。
將數(shù)據(jù)更好利用起來,是大模型實(shí)現(xiàn)商業(yè)閉環(huán)的重要一步。獵戶星空正依托自己在AI領(lǐng)域8年的探索,聯(lián)動(dòng)聚云科技對(duì)于出海企業(yè)核心需求的洞察,轉(zhuǎn)化為架起企業(yè)需求與大模型發(fā)展的橋梁。