作者 | 方文三
目前生成式AI產(chǎn)業(yè)尚處于發(fā)展的初期階段。
中國工程院院士、北京大學(xué)博雅講席教授高文指出,如果將人工智能的發(fā)展與人類成長相類比,那么通用人工智能目前可能僅處于蹣跚學(xué)步的幼兒階段。但從應(yīng)用的角度來看,人工智能已經(jīng)能夠解決生產(chǎn)、社會及服務(wù)領(lǐng)域的問題,因此可以先行投入使用,無需等待其達到完美狀態(tài)。
LiveBench榜單公布,階躍星辰位居國內(nèi)首位
國際權(quán)威榜單LiveBench官網(wǎng)最新公布的排名顯示,階躍星辰自主研發(fā)的萬億參數(shù)語言大模型Step-2在榜單中位居國產(chǎn)基座大模型之首。
其成績與OpenAI的o1-mini-2024-09-12模型相近,且超越了GPT-4o-2024-08-06、gemini-1.5-pro-002等國際知名模型。
目前,僅OpenAI和Anthropic的模型成績位于階躍星辰之上。
在評測中,Step-2取得了86.57的平均分,而gemini-1.5-flash-002則獲得了84.55分,這兩個模型是唯二超過80分的。
緊隨其后的是meta-llama-3.1-70b-instruct-turbo,其得分為79.08分。
以推理能力著稱的o1-preview-2024-09-12也取得了77.72分。
在本次榜單中,階躍星辰是唯一躋身前十名的中國語言大模型,全球排名第五。
同時上榜的其他大模型公司包括通義千問和深度求索,但均未能進入前十名,分別位于第十三和第二十三名。
在榜單所包含的多項評估標準中,Step-2在IF Average(指令跟隨)的評估上以86.57分的成績位居榜首,超越了所有國內(nèi)外的語言大模型。
LiveBench是由AI科學(xué)家楊立昆(Yann LeCun)聯(lián)合Abacus.AI、紐約大學(xué)等機構(gòu)共同推出的評估平臺。
該榜單專門為大型模型設(shè)計,從數(shù)學(xué)、推理、編程、語言理解、指令遵循和數(shù)據(jù)分析等多個復(fù)雜維度對模型進行評估,包含6個類別的17個不同任務(wù),每月更新新問題。
根據(jù)歷史榜單數(shù)據(jù),上榜者通常為國外科技巨頭,國內(nèi)大模型能夠進入前十名的情況極為罕見,大多數(shù)甚至難以上榜。
截至2024年,每個月的排名中,僅有通義千問的開源大模型Qwen2-72B在6月14日發(fā)布的LiveBench評估中上榜,位列第八。
自主研發(fā)萬億參數(shù)MoE大型語言模型
今年三月,階躍星辰推出了Step-2語言大模型的預(yù)覽版,此舉標志著國內(nèi)首個由創(chuàng)業(yè)公司推出的萬億參數(shù)模型的誕生。
Step-2在語義理解、指令遵循、內(nèi)容創(chuàng)作等多個方面表現(xiàn)出色。
目前,階躍星辰面向消費者的智能助手[躍問]已經(jīng)集成了Step-2這一萬億參數(shù)語言大模型。
在六項類別任務(wù)中,step-2-16k-202411在指令遵循(IF Average)評分上位居榜首,超越了OpenAI的o1-preview-2024-09-12。
具體而言,Step-2展現(xiàn)了卓越的理解能力,能夠從上下文中推斷用戶需求,精確捕捉用戶在模糊指令中的真實意圖,提供更準確、個性化的響應(yīng);
在知識覆蓋范圍和深度方面,Step-2不僅能夠處理常見領(lǐng)域的知識,還能深入理解和回答特定領(lǐng)域或邊緣分布中的復(fù)雜問題;
在生成高質(zhì)量、富有創(chuàng)意的文字內(nèi)容的同時,Step-2還具備出色的細節(jié)控制能力,能夠根據(jù)用戶的指令對文本進行精確調(diào)整和優(yōu)化。
Step-2僅用四個月時間便與GPT-4并駕齊驅(qū),又經(jīng)過四個月,它在部分能力上實現(xiàn)了對Gemini-1.5和GPT-o1的超越,進步之快令人矚目。
然而,這一成就并不令人意外,因為Step-2自誕生之初便因其特殊的MoE架構(gòu)而被視為極具成長潛力的基礎(chǔ)模型。
從零開始構(gòu)建和訓(xùn)練MoE模型
階躍星辰之所以能在首次參與LiveBench評測時取得如此卓越的成績,與其自主研發(fā)的Step-2大型語言模型的兩個關(guān)鍵特性。
與其擁有萬億級別的參數(shù)量和采用的Mixture of Experts(MoE)架構(gòu)密切相關(guān)。
在大規(guī)模語言模型(LLM)的發(fā)展歷程中,MoE架構(gòu)因其獨特優(yōu)勢而受到越來越多的關(guān)注。
該架構(gòu)通過選擇性地激活部分專家網(wǎng)絡(luò),不僅提升了模型性能,同時保持了較高的計算效率。
目前,MoE模型的訓(xùn)練主要有兩種策略:一種是基于現(xiàn)有模型的upcycle(向上復(fù)用)訓(xùn)練,另一種則是從零開始訓(xùn)練。
Upcycle訓(xùn)練利用現(xiàn)有模型進行訓(xùn)練,其優(yōu)勢在于對計算資源的需求較低,訓(xùn)練效率高。
由于可以復(fù)用已有的模型參數(shù),訓(xùn)練過程更為迅速。這種方法適合在資源有限的情況下快速開發(fā)和驗證模型。
然而,upcycle訓(xùn)練的缺點在于模型性能的上限較低。
基于現(xiàn)有模型的拷貝可能導(dǎo)致專家網(wǎng)絡(luò)同質(zhì)化,限制了模型的多樣性和最終性能。
相比之下,從零開始構(gòu)建和訓(xùn)練MoE模型雖然面臨更高的訓(xùn)練難度和更大的資源投入,但能夠帶來更高的模型性能上限。
這種方法允許開發(fā)者設(shè)計更為復(fù)雜和多樣化的專家網(wǎng)絡(luò),使得每個專家網(wǎng)絡(luò)都能學(xué)習(xí)到更加獨特和專門化的特征。
同時,它也提供了更大的靈活性,開發(fā)者可以根據(jù)具體需求對模型架構(gòu)進行精細的調(diào)整和優(yōu)化。
在研發(fā)階段,階躍星辰對算法架構(gòu)的創(chuàng)新成為Step-2制勝的關(guān)鍵。
在Step-2訓(xùn)練階段,階躍星辰的系統(tǒng)團隊成功攻克了6D并行、極致顯存管理、完全自動化運維等關(guān)鍵技術(shù)難題。
在構(gòu)建Step-2 MoE架構(gòu)的過程中,階躍星辰并未沿用upcycle(向上復(fù)用)的策略,而是選擇從零開始進行訓(xùn)練。
通過采用部分專家參數(shù)共享、異構(gòu)化專家設(shè)計等創(chuàng)新手段,對MoE架構(gòu)設(shè)計進行了革新。
這也意味著Step-2每次訓(xùn)練或推理所激活的參數(shù)量都超過了市面上大部分Dense模型。
通常而言,更大參數(shù)的語言模型意味著更佳的交付效果,特別是在指令遵循、內(nèi)容創(chuàng)作和語義理解方面。
半年時間Step系列通用大模型完成疊代
2024年3月,階躍星辰推出了具有千億參數(shù)的多模態(tài)大模型的初始版本Step-1V。
到了7月的WAIC期間,階躍星辰連續(xù)發(fā)布了三款Step系列通用大模型新品。
相較于階躍星辰自主研發(fā)的千億參數(shù)級語言大模型Step-1,Step-2在綜合能力上提升了近50%,在編程、邏輯推理、數(shù)學(xué)以及知識等多個維度上均能更有效地解決問題。
除了正式推出的Step-2萬億參數(shù)語言大模型外,還包括了Step-1V的迭代版本Step-1.5V多模態(tài)理解大模型,以及Step-1X圖像生成大模型。
在短短半年內(nèi),階躍星辰從萬億參數(shù)的語言大模型出發(fā),迅速實現(xiàn)了語言模型與多模態(tài)模型的并行發(fā)展。
得益于Step-2萬億參數(shù)大模型的支持,Step-1.5V多模態(tài)模型在圖像感知和理解能力上得到了全面的提升,并具備了卓越的視頻理解能力。
它能夠精確地識別視頻中的物體、人物和環(huán)境,并理解視頻的整體氛圍與人物情緒。
除此之外,Step-1.5V擁有非??捎^的推理能力,能夠根據(jù)圖像內(nèi)容解答數(shù)學(xué)題、編寫代碼、創(chuàng)作詩歌等高級推理任務(wù)。
基于這款模型,階躍星辰還在C端智能助手[躍問]上線了智能視覺搜索功能[拍照問],用戶可以即拍即問,例如拍攝美食圖計算卡路里、拍攝場景學(xué)習(xí)英文單詞等。
Step-1X采用了全鏈路自研的DiT(Diffusion Models with transformer)模型架構(gòu),支持600M、2B、8B三種不同的參數(shù)量,能夠滿足不同場景的需求。
此外,Step-1X 具備強大的語義對齊和指令跟隨能力,并針對中國元素和文化進行了深度優(yōu)化,更具有中國風(fēng)格。
除了在基座模型層面布局全面、快速迭代之外,階躍星辰在產(chǎn)品化上也迅速推進:智能助手[躍問]和AI開放世界平臺[冒泡鴨],是階躍星辰面向C端用戶推出的兩款產(chǎn)品。
[含著金湯匙]出生的AI公司
據(jù)信息顯示,階躍星辰成立于2023年4月,至今僅一年多的時間,是一家相對低調(diào)的初創(chuàng)公司。
然而,其創(chuàng)始人姜大昕是一位在行業(yè)內(nèi)具有重要地位的人物,曾擔(dān)任微軟全球副總裁,在機器學(xué)習(xí)、數(shù)據(jù)挖掘、自然語言處理和生物信息學(xué)等領(lǐng)域擁有超過十年的研究和工程經(jīng)驗。
特別是在數(shù)據(jù)挖掘和行業(yè)自然語言處理方面有深入的研究,發(fā)表了近200篇相關(guān)論文。
階躍星辰可以說是[含著金湯匙]出生的公司,不僅創(chuàng)始團隊實力雄厚,還受到資本市場的熱烈追捧。
早在成立初期,階躍星辰就獲得了多家風(fēng)險投資公司的青睞,其中包括啟明創(chuàng)投、五源資本等一線風(fēng)投,均參與了該公司早前幾輪融資。
今年上半年,有消息稱階躍星辰正在進行一輪估值20億美元的新融資,阿里巴巴也在投資者名單之列。
如果此輪融資成功,階躍星辰將直接晉升為頭部AI獨角獸企業(yè)。
階躍星辰開放平臺逐漸構(gòu)建了一個大型模型的[生態(tài)伙伴圈]。
在金融財經(jīng)、內(nèi)容創(chuàng)作、消費娛樂等多個領(lǐng)域,領(lǐng)先機構(gòu)紛紛與階躍星辰建立了技術(shù)合作關(guān)系。
例如,財聯(lián)社與階躍星辰共同研發(fā)了國內(nèi)首個千億參數(shù)的多模態(tài)金融大模型——[財躍F1金融大模型]。
大型模型的算法結(jié)構(gòu)極為復(fù)雜,對計算能力的需求極高,同時對數(shù)據(jù)量的要求也相當(dāng)龐大。
此外,大型語言模型與多模態(tài)大型模型在技術(shù)路徑上也展現(xiàn)出顯著的差異性。
鑒于這些挑戰(zhàn),眾多企業(yè)采取了集中資源、專精一域的策略,專注于發(fā)展大型語言模型或多模態(tài)模型中的某一個方向。
在國內(nèi)眾多模型制造商中,階躍星辰公司是少數(shù)幾個同時在大型語言模型和多模態(tài)模型兩個領(lǐng)域進行深入布局、并行推進的公司之一。
與業(yè)界其他公司通常每半年或每年推出一個新版本相比,階躍星辰的更新迭代速度顯然更為迅速。
階躍星辰的創(chuàng)始人兼首席執(zhí)行官姜大昕先生堅信,要達到通用人工智能(AGI)的終極目標,必須遵循一條特定的發(fā)展路徑,即從單模態(tài)到多模態(tài),再到多模態(tài)理解和生成的統(tǒng)一,進而構(gòu)建世界模型,最終實現(xiàn)AGI。
結(jié)尾:
根據(jù)國際數(shù)據(jù)公司(IDC)的最新研究報告顯示,預(yù)計至2028年,全球人工智能產(chǎn)業(yè)的支出將達到6320億美元,幾乎是目前水平的兩倍,其五年間的復(fù)合年增長率(CAGR)預(yù)計為29%。
在這一領(lǐng)域中,生成式人工智能被視為主要的增長動力,預(yù)計到2028年,該領(lǐng)域的投資支出將高達2020億美元,占整個人工智能支出的32%,其CAGR高達59.2%。
部分資料參考:階躍星辰:《LiveBench 最新榜單:階躍星辰位列中國大模型第一》,雷鋒網(wǎng):《超越 GPT-4o 和 Gemini-1.5,階躍星辰拿下中國大模型第一》,智東西:《在[全球最難糊弄榜單]里,階躍星辰拿下國產(chǎn)第一》,新智元:《[全球最嚴榜單],階躍拿下中國TOP 1!殺入世界前五,超過GPT-4o緊跟o1-mini》,極客公園:《權(quán)威榜單登頂國內(nèi)第一,階躍星辰Step-2是如何煉成的》,AI科技評論:《超越 GPT-4o 和 Gemini-1.5,階躍星辰拿下中國大模型第一》,甲子光年:《登上[最不可能作弊]的榜單,階躍星辰Step-2位列中國大模型第一》