加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

重磅出爐!《Omdia 中國商用大模型競爭力排名報告》

09/23 07:28
2228
閱讀需 6 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

要點(diǎn) 中國是開發(fā)GenAI最為積極的市場。據(jù) Omdia 估算,截至 2024 年 1 月,中國廠商開發(fā)的基礎(chǔ)模型總數(shù)已超過 230 個??蛻艨晒┻x擇的模型種類繁多,能力屬性各不相同。人工智能工程師和企業(yè)常常發(fā)現(xiàn),要為自己的用例確定最佳基礎(chǔ)模型是一項挑戰(zhàn)。要全面的了解、比較和識別合適的基礎(chǔ)模型變得非常困難,但是愈加無可避免。

因此,通過這份《中國商用大模型廠商競爭力排名報告》,Omdia旨在為中國商業(yè)基礎(chǔ)模型基準(zhǔn)測試提供一個全面客觀的方法,幫助企業(yè)用戶了解市場,選擇理想的解決方案和廠商。本排名是最佳廠商之間的競爭,所列出的 12 家廠商都是中國最好的基礎(chǔ)模型開發(fā)商。所有這些廠商都擁有強(qiáng)大的人工智能工程能力,是 GenAI 商業(yè)部署的堅實合作伙伴。

Omdia 主要用兩個維度來評測廠商,即模型能力和執(zhí)行能力。此次評測側(cè)重于模型對一般知識和特定領(lǐng)域知識的語言處理能力。本排名中評估的產(chǎn)品是基礎(chǔ)模型的語言能力水平和知識深度,以及基于這些基礎(chǔ)模型的相應(yīng)聊天機(jī)器人。

模型能力的評測主要借助來自主要研究和獨(dú)立第三方基準(zhǔn)的數(shù)據(jù),重點(diǎn)關(guān)注基礎(chǔ)模型以準(zhǔn)確、可預(yù)測和安全的方式執(zhí)行通用任務(wù)和特定領(lǐng)域任務(wù)的能力。

基礎(chǔ)模型能力、一致性和安全性評估完全基于著名的學(xué)術(shù)研究論文和第三方評估。這種方法可確保評估過程不受參與者的偏見和影響:用任務(wù)執(zhí)行能力:主要用CLiB、FoundaBench、Open LLM Leaderboard 2、OpenCompass 、SuperCLUE、LHMKE、AC-EVAL 、C3Bench和 Conceptmath的評測結(jié)果。同時也會考慮國際基準(zhǔn),如 MMLU、HellaSwag 和 LMSYS 等。對齊:主要用AlignBench的評測結(jié)果。

安全性:主要用CHiSafetyBench、CRiskEval、MLLMGuard 和 S-Eval。特定領(lǐng)域任務(wù)執(zhí)行能力和可信度:主要用CFLUE、 SuperCLUE-Fin 、CMB 、CS-Bench 和NewsBench的評測結(jié)果,同時也會考慮國際基準(zhǔn),如 HumanEval 和 MBPP。多樣性:?指基礎(chǔ)模型除上述評測外,還能覆蓋多種能力。

執(zhí)行力的評測主要基于Omdia自身定性的研究來評測以下七點(diǎn):

  • 創(chuàng)新力:指廠商在支持 GenAI 開發(fā)和部署的基礎(chǔ)設(shè)施方面的創(chuàng)新,如芯片、云基礎(chǔ)設(shè)施、開發(fā)平臺以及智算中心。
  • 戰(zhàn)略和路線圖:指廠商針對特定垂直需求、目標(biāo)受眾以及與合作伙伴的需求而開發(fā)的創(chuàng)新。
  • 上市戰(zhàn)略:?指廠商進(jìn)入市場的渠道以及對基礎(chǔ)模型的銷售和營銷支持。
  • 垂直行業(yè)覆蓋率:指基礎(chǔ)模型所能服務(wù)的垂直行業(yè)。
  • 客戶數(shù)量:指基礎(chǔ)模型的客戶總數(shù),尤其是大型國內(nèi)客戶和國際客戶。
  • 實施服務(wù):指廠商幫助企業(yè)實施基于基礎(chǔ)模型的定制應(yīng)用程序的能力。
  • 合作伙伴和生態(tài)系統(tǒng):指廠商在本地市場和全球渠道分銷合作伙伴及系統(tǒng)集成商的多樣性,以及對全球開源生態(tài)系統(tǒng)的貢獻(xiàn)。

市場領(lǐng)先者必須擁有頂級的通用和特定領(lǐng)域任務(wù)性能。阿里、百度和智譜這些基礎(chǔ)模型在能力、一致性和安全性方面都獲得了高分。其中,阿里在通用任務(wù)執(zhí)行能力上有著顯著的能力,領(lǐng)先于其他領(lǐng)導(dǎo)者。相比之下,百度在某些特定領(lǐng)域任務(wù)執(zhí)行能力有著卓越表現(xiàn),智譜則是在基礎(chǔ)知識能力的評測表現(xiàn)優(yōu)異。

市場挑戰(zhàn)者主要包括中國的云計算和人工智能巨頭,它們擁有強(qiáng)大的基礎(chǔ)設(shè)施和通用人工智能能力。它們并不缺乏開發(fā)強(qiáng)大基礎(chǔ)模型的資源。相反,它們將重點(diǎn)放在選定的用例或?qū)S薪鉀Q方案上。其中最明顯的例子就是騰訊。騰訊依托自身最新發(fā)布的混合專家模型的架構(gòu),將大模型結(jié)合到其用戶廣泛的軟件應(yīng)用中。

《Omdia中國大模型廠商競爭力排名報告》代表著 Omdia 對目前百模大戰(zhàn)的一個主觀判斷。阿里、百度和智譜是目前的領(lǐng)先者,而騰訊和商湯等在背后虎視眈眈。云大廠依仗其云基礎(chǔ)設(shè)施的優(yōu)勢在大模型時代大放光彩。其他廠商想在市場分一杯羹,就得依賴更顯著得差異化和對細(xì)分賽道的深耕。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜