加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 01.AI視覺擁抱“大一統(tǒng)”曠視駛向多模態(tài)
    • 02.聚焦行業(yè)大模型企業(yè)共創(chuàng)抵達(dá)“最后一公里”
    • 03.軟硬結(jié)合布局“大模型+機(jī)器人”
    • 04.結(jié)語:視覺走向大一統(tǒng)曠視推動多模態(tài)落地行業(yè)
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

AI視覺的“大一統(tǒng)”:從CV到多模態(tài),從行業(yè)大模型到機(jī)器人,曠視如何布局?

04/05 10:55
2251
閱讀需 12 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者?|??三北,編輯?|??漠影

聚焦行業(yè)大模型,企業(yè)共創(chuàng)抵達(dá)“最后一公里”。

智東西4月2日報道,當(dāng)前,大模型技術(shù)正在加速滲透到行業(yè)數(shù)字化進(jìn)程中,賦能新的應(yīng)用場景,為各行各業(yè)創(chuàng)造價值。

近期,在北京市召開的人工智能企業(yè)代表座談會上,曠視科技聯(lián)合創(chuàng)始人、CEO印奇表示,曠視將基于對行業(yè)的深入理解,推動多模態(tài)大模型的技術(shù)創(chuàng)新和行業(yè)應(yīng)用。同時,曠視將發(fā)揮在軟硬結(jié)合方面的優(yōu)勢,圍繞“大模型+機(jī)器人”的發(fā)展方向,推動人工智能為實體產(chǎn)業(yè)創(chuàng)造更大價值。

曠視布局大模型的實際進(jìn)展如何?公司高層對大模型研發(fā)和產(chǎn)業(yè)落地有什么樣的見解?

智東西獲悉,多模態(tài)行業(yè)大模型具身智能,是曠視圍繞大模型進(jìn)行布局的一個主邏輯。

當(dāng)下正值新的AI視覺浪潮興起,從去年爆火的ChatGPT到今年的Sora,從機(jī)器人Figure01的誕生到呼之欲出的GPT-5,產(chǎn)業(yè)的關(guān)注重心正從文本轉(zhuǎn)向視覺,從單模態(tài)轉(zhuǎn)向多模態(tài)。作為深耕深度學(xué)習(xí)技術(shù)超十年的曠視科技,也正從一家AI視覺公司,進(jìn)化成一家多模態(tài)大模型公司。

在業(yè)內(nèi)不少人士看來,當(dāng)下AI發(fā)展脈絡(luò)可分為AI 1.0及AI 2.0,但印奇認(rèn)為,AI的演進(jìn)是一個連續(xù)的過程。從CNN、ResNet到Transformer,在上面的視覺、語音、NLP,都在從獨立發(fā)展走向融合,從量變走向質(zhì)變

按照印奇的規(guī)劃,曠視將面向AGI(通用人工智能)目標(biāo),基于其在視覺模型及軟硬結(jié)合方面的優(yōu)勢,聚焦多模態(tài)大模型領(lǐng)域,逐步實現(xiàn)具身智能的價值主張;同時基于行業(yè)大模型,堅定走通2B(面向企業(yè)的)商業(yè)變現(xiàn)路徑。

01.AI視覺擁抱“大一統(tǒng)”曠視駛向多模態(tài)

盡管視頻生成模型Sora風(fēng)靡全球,但AI視頻領(lǐng)域的頭部國產(chǎn)玩家曠視志不在此。OpenAI做的Sora是它們走向AGI的一個很重要的技術(shù)節(jié)點,隨之產(chǎn)生了文生視頻潛在應(yīng)用,但更多是為了推動GPT-5。因此,重點是要理解其底層的技術(shù)框架,而不是Sora應(yīng)用本身。同時,在圖像視頻的領(lǐng)域,要將“生成”和“理解”分開來看。

如果將Sora作為獨立應(yīng)用來看的話,它聚焦視覺生成領(lǐng)域,核心應(yīng)用場景更偏C端;曠視聚焦視覺感知理解側(cè),其多模態(tài)大模型是一個對圖片、視頻、文字等各種模態(tài)綜合識別理解和做邏輯推理的引擎。因此,曠視不會去做Sora,不會涉足太多生成式AI領(lǐng)域,而是專注于理解能力上,面向2B業(yè)務(wù)打造行業(yè)應(yīng)用?;谶@樣的考慮,曠視對自己的定位是打造數(shù)十億至數(shù)百億參數(shù)之間的多模態(tài)大模型。

曠視在視覺模型領(lǐng)域的多年積累,是其打造多模態(tài)大模型的基礎(chǔ)。同時,數(shù)十億至數(shù)百億參數(shù)規(guī)模屬于中大型模型,已具備較好的通用屬性,且在行業(yè)部署成本、硬件適配度等方面是一個較好的區(qū)間。當(dāng)前,視覺模型領(lǐng)域呈現(xiàn)出“大”“統(tǒng)一”的趨勢?!按蟆币馕吨?a class="article-link" target="_blank" href="/tag/%E5%A4%A7%E6%95%B0%E6%8D%AE/">大數(shù)據(jù)、大算力和大參數(shù)量,“統(tǒng)一”體現(xiàn)在NLP、視覺、語音等模態(tài)的融合,以及感知、理解和生成能力的融合。

印奇表示,曠視做多模態(tài)大模型,本質(zhì)上在視覺走向大一統(tǒng)路徑的背景下,補全了語言模型方面的能力,并把它們結(jié)合在一起,以符合現(xiàn)在這種多模態(tài)大模型新的技術(shù)趨勢。本質(zhì)上,曠視正在從一家AI視覺公司,進(jìn)化成一家多模態(tài)大模型公司。

從視覺大模型,到生物識別、計算攝影、自動駕駛等垂類算法,是曠視近十年來長期投入研發(fā)的領(lǐng)域。曠視本身在關(guān)于視覺的技術(shù)、數(shù)據(jù)和底層框架上都擁有很深的積累,并在此基礎(chǔ)上補齊了在語言方面的能力,布局多模態(tài)大模型,是順理成章的。

從資源投入角度來看,曠視研究院目前聚焦兩大方向:一是堅定投入多模態(tài)大模型的研發(fā),二是做機(jī)器人和大模型的結(jié)合。曠視已從傳統(tǒng)意義上基于AI視覺的垂類算法研發(fā),進(jìn)化到了與大模型深度結(jié)合的研發(fā)賽道。

縱觀當(dāng)下多模態(tài)大模產(chǎn)業(yè),市面上主要有三類玩家,分別是從文本、從視頻或是直接從多模態(tài),切入多模態(tài)大模型領(lǐng)域做技術(shù)研發(fā)和落地。業(yè)內(nèi)人士告訴智東西,圖像是一個比文本更難的問題,因此曠視從視覺模型切入多模態(tài),或許要比市面上的文本模型玩家切入多模態(tài)更容易。

02.聚焦行業(yè)大模型企業(yè)共創(chuàng)抵達(dá)“最后一公里”

當(dāng)下我國大模型發(fā)展如火如荼,已居于全球大模型發(fā)展前列。但同時,大模型產(chǎn)業(yè)仍面臨數(shù)據(jù)、人才、安全等方面挑戰(zhàn),與全球最先進(jìn)水平存在較大差距。在這種背景下,發(fā)展行業(yè)大模型成為一條可能的捷徑。曠視科技是這一觀點的支持者?;A(chǔ)大模型與行業(yè)結(jié)合,是要讓大模型在高價值的行業(yè)里不斷迭代和進(jìn)化。

一方面,大模型已經(jīng)能夠解決不少的需求碎片化問題。據(jù)悉,曠視目前大量行業(yè)客戶的需求都可以用大模型解決,包括知識庫、文案總結(jié)、圖像視頻事件分析等多個方面。比如,有客戶提出通過大量視頻監(jiān)測火情等情況,支持用自然語言描述進(jìn)行系統(tǒng)交互;有客戶提出建立支持文檔、法條、行業(yè)經(jīng)驗等搜索的知識庫,這些場景都可以通過大模型技術(shù)來實現(xiàn)降本增效。

另一方面,要讓大模型真正攻破“最后一公里”并不容易,還需要在行業(yè)大模型上下功夫。為此,曠視基于自研可控的基礎(chǔ)大模型,疊加行業(yè)里面的數(shù)據(jù)閉環(huán),去打造行業(yè)垂直模型。如何讓大模型攻破行業(yè)落地的“最后一公里”?按照印奇的觀點,

第一步,是要把基礎(chǔ)模型疊加行業(yè)知識,讓它變成金融模型、運營商模型等。因為基礎(chǔ)大模型基本上無法覆蓋這些行業(yè)本身的語料和數(shù)據(jù);

第二步,行業(yè)大模型需要與行業(yè)中的場景和終端聯(lián)動,這就意味著在云端大模型以外,還需要配套一個能在端側(cè)實現(xiàn)部署的附屬模型。

曠視主張通過行業(yè)共創(chuàng)發(fā)展行業(yè)大模型。在行業(yè)大模型落地的過程中,大模型企業(yè)需要與行業(yè)從業(yè)者坐在一起,通過梳理需求并評估技術(shù)可行性,確保業(yè)務(wù)價值大于技術(shù)實施成本。

基于多年在AIoT(智能物聯(lián))行業(yè)的積累,曠視從深度行業(yè)理解商業(yè)化積累軟硬結(jié)合技術(shù)三大方面建立布局行業(yè)大模型的護(hù)城河。

1、深度理解行業(yè)。做行業(yè)模型,需要以行業(yè)真正深度的行業(yè)應(yīng)用和場景理解為驅(qū)動,才能不光是做一個簡單的技術(shù)中臺,或者是一個PaaS層,更重要的是要做到行業(yè)有價值的行業(yè)應(yīng)用層SaaS層。

2、商業(yè)客戶及經(jīng)驗積累。大模型的行業(yè)落地強調(diào)產(chǎn)品和商業(yè)化“一體兩面”,只有擁有非常好的行業(yè)、客戶和商業(yè)化能力資源積累,才能持續(xù)在行業(yè)里做迭代。

3、軟硬結(jié)合技術(shù)積累。大模型與行業(yè)的結(jié)合往往需要大模型的云側(cè)和端側(cè)的聯(lián)動,也就是軟硬結(jié)合。曠視多年來積累的“云+端”技術(shù)能力,也會幫助行業(yè)大模型的產(chǎn)業(yè)化落地。

總的來說,要真正將行業(yè)大模型的商業(yè)模式打磨出來,一定不是簡單拿開源模型改一改就行了,還要有端到端的大模型能力,打造能基于行業(yè)需求靈活調(diào)節(jié)的大模型。同時,行業(yè)大模型的本質(zhì)上還是要以客戶為中心,只有真的在行業(yè)浸泡很長時間,找到行業(yè)痛點,且能讓需求方和供應(yīng)方同時獲得收益,才能讓行業(yè)大模型成功抵達(dá)“最后一公里”。

03.軟硬結(jié)合布局“大模型+機(jī)器人”

如果說行業(yè)大模型是曠視的現(xiàn)在,那么“大模型+機(jī)器人”就是曠視的未來。

在過去十年里,曠視已將AI落地到了智慧城市、智能制造、智慧物流、消費電子等多個行業(yè),這些都可能是未來機(jī)器人的核心應(yīng)用場景。在這個領(lǐng)域布局行業(yè)大模型將為曠視提供自我造血能力,從而支持其進(jìn)一步探索“大模型+機(jī)器人”的研發(fā)與落地。印奇表示,曠視的發(fā)展歷史清晰地表明,最初其專注于傳感器和其運動部件,這些可以看作是機(jī)器人的“眼睛”。隨后,曠視在物流領(lǐng)域開發(fā)了類似機(jī)器人“腿”的自動化系統(tǒng)。

目前,曠視正在預(yù)研機(jī)器人的“手臂”,包括工業(yè)機(jī)械臂和靈巧手。未來,曠視期望將眼、手、腳三者結(jié)合,打造泛機(jī)器人產(chǎn)品。當(dāng)前,曠視科技的重點有兩個:一是物流領(lǐng)域的機(jī)器人,它們在搬運和腿部功能上表現(xiàn)出色;二是輔助和自動駕駛領(lǐng)域,曠視將提供核心的感知-決策-控制系統(tǒng)部件。

按照曠視的規(guī)劃,其“大模型+機(jī)器人”戰(zhàn)略是將愿景與能力結(jié)合,追求AGI(通用人工智能)和機(jī)器人技術(shù),以實現(xiàn)與人類生活的深度互動和世界本質(zhì)的美好變化。

在商業(yè)模式上,AI與新硬件結(jié)合帶來巨大商業(yè)機(jī)會,類比從PC到手機(jī)的變革,機(jī)器人行業(yè)潛力巨大。技術(shù)發(fā)展需長期積累和成本控制,實現(xiàn)規(guī)?;茝V。曠視致力于軟硬結(jié)合和商業(yè)化,通過短期盈利閉環(huán)逐步擴(kuò)大商業(yè)規(guī)模,目標(biāo)成為AI機(jī)器人領(lǐng)域的全球領(lǐng)先企業(yè)。

04.結(jié)語:視覺走向大一統(tǒng)曠視推動多模態(tài)落地行業(yè)

當(dāng)下,隨著AI成為發(fā)展新質(zhì)生產(chǎn)力的重要引擎,AI視覺技術(shù)也正走向新的大一統(tǒng)。透過曠視科技在大模型領(lǐng)域的布局,我們看到視覺大模型正與文本模型加快融合,從而進(jìn)入多模態(tài)大模型新階段。布局行業(yè)大模型是當(dāng)下我國“AI+”發(fā)展的有效路徑之一。

在過去的十幾年的時間里,曠視從技術(shù)長期堅持、迭代演進(jìn)到商業(yè)模式不斷探索,其技術(shù)積累及經(jīng)驗教訓(xùn)都有望促進(jìn)其在行業(yè)大模型落地中,與企業(yè)共創(chuàng)攻破“最后一公里”。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
ATXMEGA128A3U-AU 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 64TQFP

ECAD模型

下載ECAD模型
$8.03 查看
ATXMEGA128A3U-AUR 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 64TQFP
$5.3 查看
STM32F407IGT6 1 STMicroelectronics High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC

ECAD模型

下載ECAD模型
$13.79 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜