加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 01.大模型時代的“摩爾定律”:高效才能可持續(xù)
    • 02.兵分多路:閉源價格戰(zhàn)熱火朝天,開源中美歐三足鼎立
    • 03.大模型界的省錢小能手,是怎么煉成的?
    • 04.結語:開啟不瘋狂燒錢的大模型競賽
  • 推薦器件
  • 相關推薦
  • 電子產業(yè)圖譜
申請入駐 產業(yè)圖譜

大模型風向變了,OpenAI蘋果掉頭布陣

07/23 10:20
868
閱讀需 18 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者 |??ZeR0,編輯?|??漠影

大模型邁入“小而強”時代。

生成式AI似乎有個隱形規(guī)律:每隔一段時間,就會上演一場令人瞠目的大型“撞車”事件。

僅是今年,就有谷歌Gemini 1.5 Pro模型發(fā)布撞期OpenAI視頻生成模型Sora推出、OpenAI GPT-4o發(fā)布撞期谷歌I/O開發(fā)者大會,讓全球圍觀群眾都能嗅到大模型爭霸的濃濃火藥味。如果說之前種種巧合有OpenAI刻意截胡谷歌之嫌,那么上周4天內Hugging Face、OpenAI、Mistral、蘋果連珠炮般相繼發(fā)布自家最強輕量級模型,絕對是AI產業(yè)最新趨勢的顯形。

現(xiàn)在,AI大模型不再只競速“做大做強”,還猛烈地卷起“做小做精”。超越GPT-4o已經不是唯一KPI,大模型進入爭奪市場的關鍵博弈期,要打動用戶,不能只靠曬技術實力,還要力證自家模型更具性價比——同等性能下模型更小,同等參數(shù)下性能更高更省錢。

事實上,這股“大模型反卷小型化”的技術風向,在去年下半年已經開始醞釀。游戲規(guī)則的改變者是兩家公司。一家是法國AI創(chuàng)企Mistral AI,去年9月用70億參數(shù)大模型擊敗有130億參數(shù)的Llama 2技驚四座,在開發(fā)者社區(qū)一戰(zhàn)成名;一家是中國AI創(chuàng)企面壁智能,今年2月推出更加濃縮的端側模型MiniCPM,用僅僅24億參數(shù)實現(xiàn)了超過Llama 2 13B的性能。

兩家創(chuàng)企都在開發(fā)者社區(qū)有口皆碑,多款模型登頂開源熱榜。特別是從清華大學自然語言處理實驗室孵化出的面壁智能,今年其多模態(tài)模型被美國頂級高校團隊“套殼”引起軒然大波,面壁的原創(chuàng)性工作在國內外學術圈都得到認可,令國產開源AI模型揚眉吐氣。

蘋果也從去年開始研究能更好適配手機的端側模型。一直走粗放式暴力擴張路線的OpenAI,倒是個相對令人意外的新入場者。上周推出輕量級模型GPT-4o mini,意味著大模型一哥主動走下“神壇”,開始順應業(yè)界趨勢,試圖用更廉價易得的模型來撬動更廣泛的市場。2024年,將是大模型“小型化”的關鍵之年!

01.大模型時代的“摩爾定律”:高效才能可持續(xù)

當前大模型研發(fā)正陷入一種慣性:大力出奇跡。2020年,OpenAI的一篇論文驗證了模型表現(xiàn)與規(guī)模存在強相關。只要吞下更多的高質量數(shù)據,訓出更大體量的模型,就能收獲更高的性能。

沿著這種簡單但奏效的路徑,近兩年全球掀起一場狂飆追擊更大模型的疾速競賽。這埋下了算法霸權的隱患,只有資金和算力充裕的團隊,才具備長期參與競賽的資本。去年OpenAI CEO薩姆·阿爾特曼曾透露,訓練GPT-4的成本至少有1億美元。

在尚未探出高利潤商業(yè)模式的情況下,即便是財大氣粗的科技大廠,也很難承受長期不計成本的投入。生態(tài)環(huán)境更無法容忍允許這種無底洞式的燒錢游戲。頂尖大語言模型之間的性能差距正在肉眼可見地縮小。GPT-4o雖然穩(wěn)居第一,但與Claude 3 Opus、Gemini 1.5 Pro的基準測試分數(shù)之差并未斷層。

在一些能力上,百億級大模型甚至能取得更出色的表現(xiàn)。模型大小已經不是影響性能的唯一決定性因素。倒不是頂級大模型缺乏吸引力,實在是輕量級模型更有性價比。

下圖是AI工程師Karina Ngugen今年3月底在社交平臺上分享的一張AI推理成本趨勢圖,清晰繪制出了從2022年以來大語言模型在MMLU基準上的性能與其成本的關系:隨著時間推移,語言模型獲得更高的MMLU精度分數(shù),相關成本大幅下降。新模型的準確率達到80%左右,而成本能比幾年前低幾個數(shù)量級。

世界變化相當之快,這幾個月又有一大波經濟高效的輕量級模型上新。

“大語言模型尺寸的競爭正在加劇——倒退!”AI技術大神Andrej Karpathy打賭:“我們將看到一些非常非常小的模型‘思考’的非常好且可靠?!?strong>模型能力÷參與計算的模型參數(shù)=知識密度,這個衡量維度可以用來代表同等參數(shù)規(guī)模的模型能具備強的智能。2020年6月發(fā)布的GPT-3大模型有1750億個參數(shù)。今年2月, 實現(xiàn)同等性能的面壁智能MiniCPM-2.4B模型,參數(shù)規(guī)模已經降到24億,相當于知識密度提高了約86倍

根據這些趨勢,清華大學計算機系長聘副教授、面壁智能首席科學家劉知遠最近提出了一個有意思的觀點:大模型時代有自己的“摩爾定律。具體而言,隨著數(shù)據-算力-算法協(xié)同發(fā)展,大模型知識密度持續(xù)增強,平均每8個月翻一番。

通過提高芯片上的電路密度,推動實現(xiàn)同等算力的計算設備從好幾間屋子才裝得下的超級計算機進化到能揣進口袋里的手機,接下來大模型的發(fā)展也會遵循類似的規(guī)律。劉知遠將他提出的指導性規(guī)律命名為“面壁定律”。以此趨勢下去,訓練一個千億參數(shù)模型,它所具備的能力,8個月后500億個參數(shù)的模型就能實現(xiàn),再過8個月只需250億個參數(shù)就能做到。

02.兵分多路:閉源價格戰(zhàn)熱火朝天,開源中美歐三足鼎立

目前進入大模型輕量化競賽的玩家兵分多路。OpenAI、谷歌、Anthropic都走了閉源路線。它們的GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro等旗艦模型把控著最強性能檔,這些模型的參數(shù)規(guī)模高達千億級乃至萬億級。輕量級模型則是其旗艦模型的精簡版。在上周OpenAI上新后,GPT-4o mini憑借超過Gemini Flash和Claude Haiku的性能,成為市場上10B以下最具性價比的選項,To C取代GPT-3.5供用戶免費使用,ToB把API價格猛降一把,讓采用大模型技術的門檻變得更低。

機器學習工程》作者Andriy Burkov根據價格推斷GPT-4o mini的參數(shù)規(guī)格在7B左右。面壁智能CEO李大海推測GPT-4o mini是一個專家數(shù)量較多的“寬MoE”模型,而非端側模型,以一個高性價比云端模型的定位,來極大降低大模型落地產業(yè)成本。

開源輕量級模型的陣營則更為龐大,中美歐各有代表玩家。國內阿里、面壁智能、商湯和上海人工智能實驗室等均已開源一些輕量級模型。其中阿里Qwen系列模型是輕量級模型基準測試對比的??停姹谥悄艿腗iniCPM系列模型亦是用小參數(shù)越級秒掉大模型的典范,在開源社區(qū)好評度很高。面壁智能是個前瞻性很強的創(chuàng)業(yè)團隊,2020年在國內率先走大模型路線,很早開始探索如何用高效微調技術降低訓練成本,去年年初開展對AI Agent的探索并于8月發(fā)布千億多模態(tài)大模型,把大模型與Agent技術落地到金融、教育、政務、智能終端等場景,年末制定端云協(xié)同方向,然后今年密集推出多款高效、低能耗的端側模型。

過去半年,面壁智能已經發(fā)布了基座模型MiniCPM 2.4B、MiniCPM 1.2B,長文本模型MiniCPM-2B-128k,多模態(tài)模型MiniCPM-V 2.0、GPT-4V性能水準的MiniCPM-Llama3-V 2.5,混合專家模型MiniCPM-MoE-8x2B等。截至目前,MiniCPM系列的整體下載量達到近95萬,有1.2萬個星標。這家創(chuàng)企還通過高效稀疏架構實現(xiàn)了更高能效的MiniCPM-S 1.2B模型:知識密度達到同規(guī)模稠密模型MiniCPM 1.2B的2.57倍、Mistral-7B的12.1倍,進一步演繹“面壁定律”,推動大模型推理成本大幅降低。

美國輕量級開源模型陣營中,科技大廠的參與度較高,有Meta、微軟、谷歌、蘋果、Stability AI等,而且高頻上演“后浪把前浪拍倒在沙灘上”的劇情。Hugging Face也在上周推出135M、360M、1.7B三種參數(shù)規(guī)格的SmolLM模型,與同等尺寸模型相比性能很有競爭力,其中1.7B版本在多項基準測試的分數(shù)超過了微軟Phi-1.5、谷歌MobileLLM-1.5B和阿里Qwen2-1.5B。

以“封閉”聞名的蘋果,在AI領域卻是知名的開源派:去年10月發(fā)布Ferret多模態(tài)模型;今年4月發(fā)布參數(shù)量從27億到300億的4款OpenELM預訓練模型;還有最新推出的DCLM模型,其中6.9B版本性能超過Mistral 7B,1.4B版本MMLU分數(shù)超過了SmolLM-1.7B。

歐洲的代表玩家則非法國大模型獨角獸Mistral AI莫屬。它在上周剛發(fā)布Mistral Nemo 12B小杯模型,支持128k上下文處理,性能超過谷歌Gemma 2 9B和Llama 2 8B,推理、世界知識和代碼能力都是同量級開源模型中最強的。

這些進步正展現(xiàn)出大模型小型化的應用潛力。Hugging Face聯(lián)合創(chuàng)始人兼CEO Clem Delangue預言道:“更小、更便宜、更快、更個性化的模型將覆蓋99%的用例。你不需要一輛100萬美元的F1方程式來每天上班,你也不需要一款銀行客戶聊天機器人來告訴你生活的意義!”

03.大模型界的省錢小能手,是怎么煉成的?

大模型反卷小型化,是AI普惠的必然走向。不是所有應用都要用最強性能的大模型。商業(yè)競爭考量性價比,講究物美價廉,不同場景、業(yè)務對輸出質量與成本效益的需求迥乎不同。超大規(guī)模的模型會給開發(fā)者帶來陡峭的學習成本,從訓練到部署都大費周折。更精簡的模型則能夠拉低投入產出比,用更少的資金、數(shù)據、硬件資源和訓練周期來構建有競爭力的模型,從而降低基礎設施成本,有助于提高可訪問性,加快模型部署與應用落地。

面向特定應用,輕量級模型需要的數(shù)據更少,因此能更輕松地針對特定任務進行微調,實現(xiàn)滿足需求的性能和效率。由于架構更精簡,這類模型需要的存儲容量和計算能力更少,針對端側硬件優(yōu)化設計后,能夠在筆記本電腦智能手機或其它小型設備上本地運行,具備低延時、易訪問、保護隱私安全等優(yōu)勢,確保個人數(shù)據不會外傳。

輕量級高性能模型雖小,但要做到“用有限的算力、能耗,把知識濃縮到更小參數(shù)的模型中”,技術門檻不低。其訓練過程是先變大,再變小,從復雜大模型中蒸餾出知識的精華。例如谷歌的小杯多模態(tài)模型Gemma-2,就是用27B模型的知識提煉而成的。但在具體技術路線上,不同玩家做法各不相同。

比如在訓練數(shù)據方面,Meta豪氣地給Llama 3喂了15T tokens訓練數(shù)據。微軟、蘋果等則將重心放在優(yōu)化訓練數(shù)據集和數(shù)據方法的創(chuàng)新上,微軟Phi-3只用了3.3T tokens,蘋果DCLM 7B只用了2.6T tokens。根據蘋果DataComp-LM論文,改進訓練數(shù)據集能在計算和性能間取得平衡,降低訓練成本。上周新發(fā)布的Mistral NeMo通過使用先進的Tekken標記器,能比以前的模型更加有效地壓縮文本和代碼。

“變小”還需要架構創(chuàng)新。比如蘋果OpenELM模型面向硬件瓶頸來做模型分層精調設計,以提高在端側的運行效率;面壁智能的MiniCPM-S 1.2B高效稀疏模型實現(xiàn)了近88%的稀疏度,讓全鏈接層能耗降低至84%,解碼速度相比對應的稠密模型提高2.8倍,同時不折損性能。

大模型是一項系統(tǒng)工程,需要探索“人工智能科學化”方向,也就是通過算法、架構、數(shù)據治理、多模態(tài)融合等技術方案的持續(xù)迭代,更可靠、更可預測、更高質量地訓練模型,以不斷提升大模型的知識密度。要做到快速訓練和優(yōu)化模型,需要建立高效的生產線,既要構建全流程工具套件平臺,又要形成高效可擴展的模型訓練策略。比如面壁的模型沙盒機制通過用小模型預測大模型性能、大小模型共享超參數(shù)方案,實現(xiàn)模型能力快速形成。

為了加速大模型賦能智能終端,面壁智能最新開源了業(yè)內首個開箱即用的端側大模型工具集 "MobileCPM ",并提供保姆式教程,幫助開發(fā)者一鍵集成大模型到App。

恰逢今年是端側AI爆發(fā)元年,從英特爾、英偉達、AMD、高通等芯片巨頭到AI PC、智能手機大廠,都在力推豐富的端側AI應用。終端廠商開始與通用模型廠商聯(lián)手,推動輕量級模型在廣泛的端側設備中落地。隨著端側芯片性能變強和模型知識密度的增加,端側設備本地能運行的模型變得越來越大、越來越好。現(xiàn)在GPT-4V已經能在端側運行,劉知遠預測未來一年內可將GPT-3.5水平的模型放到端側運行,未來兩年內可將GPT-4o水平的模型放到端側運行

04.結語:開啟不瘋狂燒錢的大模型競賽

在科技世界,變小、變便宜、變好用的歷史潮流總是不斷復現(xiàn)。大型機時代,電腦是富豪和精英才能接觸到的高精尖奢侈品。進入小型機時代,技術進步把計算設備變得越來越便攜好用,PC和手機才進入普羅大眾的日常工作與生活。就像我們需要有龐大算力的超級計算機,也需要普通人能塞進口袋的手機,生成式AI時代需要極致智能的大模型,也需要離用戶更近、更具成本效益、能滿足特定應用需求的經濟型模型。

OpenAI GPT-4o仍然站在最強AI大模型的峰頂,但它不再像以前那般舉世無敵,多款GPT-4級大模型已經實現(xiàn)了相近的性能。同時,更加緊湊、高效的大模型正在挑戰(zhàn)“越大越好”的觀念,“以小博大”的新趨勢有望改變AI開發(fā)方式,為AI在企業(yè)及消費環(huán)境中的落地開辟新可能。卷向小型化的轉變,標志著AI產業(yè)的重大變革,大模型競賽開始從專注于提升性能轉向關注現(xiàn)實世界更細致的需求。

在這股熱潮之中,以面壁智能為代表的中國開源力量正在盎然生長,通過一系列技術創(chuàng)新,以更加經濟可行的方式來驗證大模型知識密度定律,最終推動大模型在實際應用場景中的落地進程。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據手冊 ECAD模型 風險等級 參考價格 更多信息
MKL02Z32VFG4R 1 Freescale Semiconductor RISC MICROCONTROLLER

ECAD模型

下載ECAD模型
暫無數(shù)據 查看
DS3234SN# 1 Maxim Integrated Products Real Time Clock, Non-Volatile, 1 Timer(s), CMOS, PDSO20, 0.300 INCH, ROHS COMPLIANT, SOP-20
$10.19 查看
AT89C51CC03UA-SLSUM 1 Atmel Corporation Microcontroller, 8-Bit, FLASH, 8051 CPU, 60MHz, CMOS, PQCC44, GREEN, PLASTIC, LCC-44

ECAD模型

下載ECAD模型
$8.45 查看

相關推薦

電子產業(yè)圖譜