憑借一段簡單的文字描述,便能生成畫質(zhì)極高的60秒視頻。
繼ChatGPT之后,OpenAI再一次讓世界沸騰?。?!而背后更火的是……
Sora問世,AGI提速近10年
2月16日,當(dāng)全中國還沉浸在或搶紅包,或搶回程票,或噼里啪啦放鞭炮的濃郁新春氛圍中時,大洋彼岸的OpenAI悄無聲息地發(fā)布了其首個文生視頻模型Sora。此時距離ChatGPT的推出,不過一年光景。
目前,OpenAI在官網(wǎng)上公布了多個演示視頻,均由Sora根據(jù)提示詞生成,時長可達1分鐘,比如近期刷屏的“東京街道時尚女郎”。
提示詞:一位時尚女性走在充滿溫暖霓虹燈和動畫城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,涂著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。
根據(jù)上述提示詞,Sora生成一段視頻,視頻中不僅還原了文字內(nèi)容,人物、背景、光影效果等細(xì)節(jié)也都極為真實,堪比實景拍攝。除此之外,包括踏雪而來的猛犸象、緩緩前進的舞龍隊伍等演示視頻也在多個社交媒體平臺反復(fù)轉(zhuǎn)發(fā)播放,登頂各大熱搜榜。
從Demo來看,無論是視頻的分辨率、文字理解,還是穩(wěn)定性、保真度等方面,Sora都堪稱為當(dāng)前最優(yōu)。在這之前,業(yè)內(nèi)主流的AI生成視頻時長只能做到4-16秒,部分甚至“卡成PPT”。
兩相對比下,Sora帶來的驚艷不言而喻。據(jù)OpenAI介紹,Sora可根據(jù)文本生成復(fù)雜的場景,不僅包括多個角色,還有特定的動作類型,以及對角色和背景的細(xì)節(jié)描繪,也可以直接輸入圖片或視頻進行編輯調(diào)整。其他驚人的本領(lǐng)還有跟隨對象移動鏡頭、多機位融合轉(zhuǎn)換不相干的場景等。
盡管OpenAI并未在其技術(shù)報告中提及與Sora訓(xùn)練成本、模型架構(gòu)等相關(guān)的內(nèi)容,但卻強調(diào)了一點——Sora不是單純的視頻生成模型,也不只是視頻行業(yè)顛覆者,而是“世界的模擬器”,它打開了一條通往模擬物理世界的有效路徑。
面對如此驚人的表現(xiàn),連特斯拉的CEO馬斯克也禁不住感嘆:“人類認(rèn)賭服輸?!?60創(chuàng)始人周鴻祎更是在微博發(fā)文表示:Sora意味著AGI(通用人工智能)實現(xiàn)將從10年縮短到1年。
圖源:截自@周鴻祎新浪微博
對于周鴻祎的這一預(yù)測,我們大概可以這么拆解:
Sora結(jié)合了文本和圖像處理的能力,這種多模態(tài)學(xué)習(xí)正是AGI發(fā)展的一個重要方向;同時,Sora展示了AI在理解世界運動和物理規(guī)律方面的能力,這是邁向AGI的關(guān)鍵一步——AGI要求機器能夠理解并模擬真實世界;
理解了過后,Sora根據(jù)自己的理解生成高質(zhì)量的視頻,這不僅僅是簡單的圖像拼接,更多涉及到AI的自主創(chuàng)作能力,這是AGI的重要組成部分;Sora的出現(xiàn)也將推動算力基礎(chǔ)設(shè)施、多模態(tài)大模型等相關(guān)技術(shù)的發(fā)展,預(yù)示著AI技術(shù)將在理解和模擬現(xiàn)實世界、提升創(chuàng)造力、拓展應(yīng)用場景等方面取得更大的進步,為AGI的到來逐漸鋪平道路。
簡單總結(jié),Sora推出后之所以能迅速爆火,主要歸于以下幾點:
1、學(xué)習(xí)能力:Sora通過大量數(shù)據(jù)進行學(xué)習(xí),理解和模仿視頻內(nèi)容,這種學(xué)習(xí)能力使其能夠生成栩栩如生的視頻內(nèi)容,且內(nèi)容長度及質(zhì)量遠超市面上其他AI視頻模型;
2、進化速度:Sora的學(xué)習(xí)能力標(biāo)志著AI進化速度的加快。通過視頻學(xué)習(xí)可快速吸收和理解世界各種復(fù)雜場景和動態(tài)過程,這對于AI技術(shù)的發(fā)展具有重要意義;
3、AGI加速到來:Sora的出現(xiàn)被業(yè)內(nèi)視為通往通用人工智能的一步。AGI即能夠執(zhí)行任何智能任務(wù)的AI系統(tǒng),而Sora在視頻理解和生成方面的表現(xiàn),似乎預(yù)示著AGI的到來比預(yù)期的要快;
4、潛在應(yīng)用:隨著Sora后續(xù)不斷優(yōu)化成熟,未來或應(yīng)用于多個領(lǐng)域,包括但不限于娛樂、教育、監(jiān)控、虛擬現(xiàn)實等,這些應(yīng)用都將對社會產(chǎn)生深遠影響。
多方因素的共同作用下,Sora成為了AI視頻生成領(lǐng)域的一個重要里程碑。不過,Sora目前也并非完美,OpenAI的技術(shù)報告中提到,Sora還存在不準(zhǔn)確的物理建模和非自然物體“變形”的例子,以及在模擬對象和多個角色之間的復(fù)雜交互,對模型來說通常具有挑戰(zhàn)性等。
比Sora更火的,是“Sora賣課人”
毫無疑問,Sora真的很火,它又一次讓人們感受到了AI技術(shù)的魅力。與此同時,另一波清奇的景象也誕生了——之所以用“清奇”這個詞來形容,是因為在朋友圈以及各大電商平臺上,Sora已經(jīng)“被”開啟或免費或付費的課程教學(xué)了,然而OpenAI至今都還沒對公眾開放Sora的測試權(quán)限。
聞風(fēng)趕來的投機者們,迅速掀起一波“Sora賣課潮”。
“全球物聯(lián)網(wǎng)觀察”在多個電商或社交平臺上搜索Sora相關(guān)的關(guān)鍵詞發(fā)現(xiàn),已有不少Sora教程上線,課程形式有視頻講解教學(xué),也有紙質(zhì)文檔資料或電子文檔資料,價格從幾元至上百元不等,部分電商平臺店鋪信息顯示,購買課程的人還不少。
而近期最為出圈的,當(dāng)屬其中的李一舟——一位在抖音、小紅書直播賣AI課程的自媒體博主。據(jù)業(yè)內(nèi)流傳的數(shù)據(jù),其通過賣課已經(jīng)實現(xiàn)收入過億。網(wǎng)上甚至有人做出“神圖”,把李一舟和OpenAI的CEO Sam Altman并稱為“中美兩大AI巨頭”,一位靠AI技術(shù),一位靠AI賣課。
另據(jù)《新京報》報道,記者還發(fā)現(xiàn)有以“免費贈送Sora資料”為由,但疑似進群拉新并誘導(dǎo)付費的“套路”。報道指出,在購買課程時,有AI“講師”直言不諱地表示,懂得AI的技術(shù)人員不一定能通過AI賺到錢,因為AI在B端落地很難,但不懂AI技術(shù)的人照樣可以通過賣課賺到錢,“我們的作用是抹平AI‘信息差’,我自己懂不懂AI不重要?!?/strong>
更為“清奇”的是,所謂的“Sora教程”,主要內(nèi)容包括Sora的介紹、生成的視頻、以及部分媒體平臺發(fā)布的對Sora進行分析解讀的文章,其中90%的內(nèi)容都是能在OpenAI官網(wǎng)或其他公開平臺上找到的資料。也就是說,教程中只是對這些公開的資料進行整理匯總。
怎么說呢!用之前的一個網(wǎng)絡(luò)熱詞來形容,真是妥妥的一波“割韭菜”。
然而就是這尚未開啟公測的Sora,已經(jīng)讓一波賣課人賺的盆滿缽滿了。據(jù)多家媒體報道,Sora出來后,有人賣了2w多份課程,一天到手200萬元。
顯然,在文生視頻這一市場未及成熟之時,掘金者們已經(jīng)通過知識付費挖來了第一桶金。這一現(xiàn)象背后折射出的,正是當(dāng)下人們對AI的加速進化感到焦慮。人工智能的大時代已經(jīng)真正到來,每個人都切實感受著這波AI熱潮,生怕一不留神就被時代的浪潮拍落。
Sora怎么又沒出現(xiàn)在中國?
從ChatGPT到Sora,兩度驚艷世界的AI模型,均誕生自美國。這熟悉的光景,距離上一次出現(xiàn)僅過去一年。所以,國內(nèi)探討的熱度話題,在繼“ChatGPT為何沒誕生在中國?”之后,出現(xiàn)了龍年版本的“Sora為何沒誕生在中國?”。
中美作為世界居前的兩大經(jīng)濟體,各自在AI領(lǐng)域的發(fā)展日益成為全球關(guān)注的焦點。聊到這里,我們首先要做的是客觀地正視中美兩國人工智能發(fā)展的現(xiàn)狀及差距。就當(dāng)前的AI發(fā)展現(xiàn)狀來看,美國在該領(lǐng)域的發(fā)展得益于其強大的科研實力、創(chuàng)新生態(tài)和政策支持。
尤其在科研力量方面,美國擁有眾多頂尖的AI研究機構(gòu)和企業(yè),如斯坦福大學(xué)、麻省理工學(xué)院、谷歌、微軟、OpenAI等,這些高校和企業(yè)在機器學(xué)習(xí)、自然語言處理、計算機視覺等領(lǐng)域已經(jīng)取得了一系列突破性成果。
以爆火的大模型為例,公開數(shù)據(jù)顯示,截至2023年5月,美國擁有10億級參數(shù)規(guī)模以上的基礎(chǔ)大模型已超100個。高盛方面預(yù)計,到2025年,美國大模型方面相關(guān)的投資可達千億美元,約占全球份額的一半。另外,在大模型的行業(yè)應(yīng)用方面,美國的大模型主要應(yīng)用在金融、教育、醫(yī)療等領(lǐng)域,其成熟的商業(yè)環(huán)境提供了不少優(yōu)勢。
國內(nèi)的起步時間相對更晚,在算法創(chuàng)新、芯片設(shè)計、軟件開發(fā)等方面,優(yōu)勢并不明顯。但從發(fā)展速度來說,中國絕對不慢。
據(jù)《金融時報》報道,目前在全球排名前10的大模型研發(fā)機構(gòu)中,中國的百度、清華大學(xué)、阿里巴巴達摩院、BAAI智源研究院已占據(jù)其中四席。國內(nèi)的科大訊飛、騰訊、華為等也正展露出強勁的發(fā)展勢頭,特別是在語音識別、圖像識別、智能推薦等方面取得了顯著成就。
SuperCLUE的2023年中文大模型基準(zhǔn)測評報告顯示,自ChatGPT發(fā)布以來,AI大模型在全球范圍內(nèi)掀起了有史以來規(guī)模最大的人工智能浪潮。2023年大模型技術(shù)步入快速發(fā)展階段,全國范圍內(nèi)大模型產(chǎn)品已超過100種。其中包括百度的文心一言、阿里的通義千問、科大訊飛的星火大模型等。
此次Sora引爆的文生視頻賽道,去年就已在國內(nèi)發(fā)酵。
2023年11月,字節(jié)跳動推出文生視頻模型PixelDance,用戶提供一張指導(dǎo)圖片+文本描述,PixelDance 就能生成有高度一致性且有豐富動態(tài)性的視頻;阿里巴巴上線Animate Anyone模型,只需人物照片配合骨骼動畫引導(dǎo),即可生成自然的動畫視頻;百度發(fā)布文生視頻工具“度加剪輯”,號稱“可以一鍵獲取最新熱點、AI生成文案、一鍵生成視頻”。
而就在近幾日Sora引發(fā)大眾探討中美AI發(fā)展?fàn)顩r之際,更多有關(guān)國內(nèi)文生視頻賽道的進展頻頻涌出。
據(jù)《中國基金報》報道,一位接近科大訊飛人士透露,科大訊飛目前內(nèi)部已經(jīng)開始文生視頻進一步攻關(guān)研發(fā)。該人士表示,此前的訊飛星火大模型已經(jīng)擁有相對基礎(chǔ)的文生視頻功能。
2月19日,虹軟科技方面宣布,其核心大模型技術(shù)引擎——虹軟ArcMuse再次升級。而此次升級將支持面向商拍的商業(yè)視頻自動生成。
云從科技也表示,其從容大模型已實現(xiàn)利用diffusion、GAN等生成式技術(shù)圍繞人物圖像、人物視頻數(shù)據(jù)進行建模,通過文本和音頻實現(xiàn)對圖像和視頻內(nèi)容進行生成、控制、編輯。
在人工智能的發(fā)展上,國內(nèi)的方向并沒有錯,各大企業(yè)的執(zhí)行力也很強。所以,國產(chǎn)Sora必會出現(xiàn),只是時間問題,百花齊放的畫面已經(jīng)可以預(yù)見。
全員回答2024:擁抱AI的大時代
人工智能作為引領(lǐng)未來科技革命和產(chǎn)業(yè)變革的關(guān)鍵力量,已成為全球科技創(chuàng)新的競爭高地。尤其在剛過去的2023年及眼下的2024年,大眾對這股關(guān)鍵力量的感受更為深刻。春節(jié)后輔一開工,魅族、OPPO、吉利等相繼宣布最新的AI計劃,全員擁抱AI的大幕,已然開啟。
OPPO創(chuàng)始人、首席執(zhí)行官陳明永發(fā)表致全體員工的內(nèi)部信。他表示,2024年是AI手機元年。未來五年,AI對手機行業(yè)的影響,完全可以比肩當(dāng)年智能手機替代功能機。OPPO今年的一大重要舉措便是成立AI中心,加速資源向AI集中;
魅族宣布將All in AI,停止傳統(tǒng)“智能手機”新項目開發(fā),將全力投入明日設(shè)備AI For New Generations,將面向AI時代全新打造的手機端操作系統(tǒng)進行更新;
小鵬汽車董事長兼CEO何小鵬在開工內(nèi)部信中指出,2024年是小鵬率先邁向高階智駕、并從中國走向全球的第一年,其計劃今年在“以智駕為核心的AI技術(shù)”方面投入35億元的研發(fā)資源;
吉利汽車集團CEO淦家閱在開工日發(fā)布的新春寄語中提到:沒有AI的只是出行工具,具備AI的才是智能伙伴。堅信接下來AI技術(shù)對汽車的關(guān)鍵作用;
聯(lián)想的開工首條微博就是圍繞AI PC對新款發(fā)布進行預(yù)熱,其2024款全系搭載AMD Ryzen 7 8845H,冠以“AI銳龍版”稱號。
2024年開年就掀起的這波AI大浪潮,讓這個世界止不住興奮。不過在興奮之余,我們要警惕,AI技術(shù)的出現(xiàn),也帶來了前所未有的挑戰(zhàn)和隱患。人工智能生成導(dǎo)致的虛假信息和“詐騙”案例,層出不窮。在此基礎(chǔ)上,關(guān)于AI監(jiān)管的韁繩更要緊緊拽住。
據(jù)悉,目前“數(shù)據(jù)獲取+應(yīng)用方式”是AI監(jiān)管的兩大問題。這兩個核心問題如果處理不當(dāng),將會嚴(yán)重影響人工智能的發(fā)展和利用。從數(shù)據(jù)獲取方面看,采集和獲取不僅涉及到數(shù)據(jù)的產(chǎn)權(quán)問題,還涉及到國家安全和個人隱私。
從人工智能的應(yīng)用方式來看,AI所展示出的強大的信息處理能力,本質(zhì)上是提升人類對信息的利用效率和效果。而人類社會有其基于特定國家和文化的法律法規(guī)和道德約束,AI發(fā)展也要充分遵從法律法規(guī)和道德倫理。
寫在最后
央視新聞在報道中指出,從某種意義上講,對人工智能的利用將會在國家之間、機構(gòu)之間,甚至包括人與人之間形成新的代差和新的數(shù)字鴻溝,并推動人類從農(nóng)業(yè)文明、工業(yè)文明走向數(shù)字文明。因此,能否充分學(xué)習(xí)和利用人工智能會對人類產(chǎn)生分化,甚至對人類文明產(chǎn)生巨大影響。
毫無疑問,今年將是一個“AI大年”,人工智能背后所蘊含的巨大潛力與價值正在凸顯,新一輪的智能革命來臨,這一次,將是真真正正的“AI平民化”。