分享嘉賓|寧鯤鵬 元空AI技術(shù)聯(lián)合創(chuàng)始人
在過(guò)去一年里,AI話題熱度持續(xù)升溫,在大模型百家爭(zhēng)鳴的今天,涌現(xiàn)出分門(mén)別類的人工智能體,誰(shuí)會(huì)是下一個(gè)風(fēng)口?本文從“ Web Agent?自動(dòng)化解決方案”和“北大Open Sora生成能力增強(qiáng)”為各位帶來(lái)AI技術(shù)前瞻。
01、Web Agent自動(dòng)化解決方案
我們希望讓 AI 成為真正的生產(chǎn)力,利用 Agent 幫我們干活,幻想中最完美的畫(huà)面,就是流程中有 Master Agent,發(fā)起任意需求,他會(huì)去幫你生成一系列工作流。比如投后診斷、小紅書(shū)達(dá)人分析、電商精品分析,自動(dòng)生成工作流,在云主機(jī)上進(jìn)行實(shí)時(shí)執(zhí)行,幫助相應(yīng)工作的完成,同時(shí)將結(jié)果、分析結(jié)論、數(shù)據(jù)報(bào)表,實(shí)時(shí)同步,讓使用者感受到自己真正擁有了 AI agent 團(tuán)隊(duì)。落實(shí)到實(shí)際營(yíng)銷場(chǎng)景中,我們完成了從品牌的用戶洞察、輿情監(jiān)控、內(nèi)容制作、達(dá)人營(yíng)銷、賬號(hào)矩陣自動(dòng)化運(yùn)營(yíng)、智能客服等一整套全鏈路AI產(chǎn)品場(chǎng)景矩陣。
從技術(shù)層面來(lái)看,具體會(huì)涉及到LAM,該概念最早在 Rabbit 中提到。通過(guò)描述任務(wù),比如:分析精致貴婦的生活KOL,LAM具備兩個(gè)功能。1、自我規(guī)劃能力2、自我反省能力。針對(duì)任務(wù),做相應(yīng)的思考與規(guī)劃。去小紅書(shū)蒲公英上搜索相應(yīng)的關(guān)鍵詞,找到相應(yīng)博主,分析對(duì)應(yīng)的帖子內(nèi)容與文案,最后產(chǎn)生report,以郵件的方式反饋。一步步的流程形成工作流,只要描述內(nèi)容,讓多模態(tài)大模型生成工作流,后面只需要安排他干活就行了,發(fā)布指令就能完成系列工作。
舉一個(gè)簡(jiǎn)單版的學(xué)術(shù)上的例子,我想在學(xué)術(shù)網(wǎng)頁(yè)上查找學(xué)者的引用量,首先發(fā)起任務(wù),“幫我查找 Hinton 的引用量是多少”。Agent會(huì)自動(dòng)思考,模擬人的行為把學(xué)者名字輸入到搜索框里,完成相應(yīng)的點(diǎn)擊操作。這個(gè)模式跟自動(dòng)駕駛類似,人可以從中間介入,他會(huì)綜合思考兩個(gè)東西,人類給的提示與 Agent 自己的思考,得出結(jié)論。最終會(huì)形成對(duì)應(yīng)的工作流沉淀下來(lái),相當(dāng)于已經(jīng)訓(xùn)練好了一個(gè)員工,后續(xù)只需執(zhí)行,他就會(huì)按照操作幫你完成接下來(lái)的工作。具體包含兩個(gè)內(nèi)容1、通過(guò) task 驅(qū)動(dòng),只需要描述task,它可以自動(dòng)完成且形成工作流,下一次也可以接著用。2、用戶可隨時(shí)介入,覺(jué)得回答不準(zhǔn)或不達(dá)意,可實(shí)時(shí)溝通調(diào)整,修改相應(yīng)的工作流。技術(shù)細(xì)節(jié)方面,我們發(fā)現(xiàn) AI 能完全理解你的需求,也知道該如何執(zhí)行。難點(diǎn)在于對(duì)于常人來(lái)說(shuō)是一個(gè)非常簡(jiǎn)單的問(wèn)題,直接把需求輸入到搜索框里面就可以了,但 AI 怎么轉(zhuǎn)換成對(duì)應(yīng)的指令且準(zhǔn)確地輸入,這是比較困難的。
第一,首先有一個(gè)大屏幕做全局掃描,可理解成分割,把網(wǎng)頁(yè)的 HTML 代碼對(duì)應(yīng)的葉子節(jié)點(diǎn)拿出來(lái),搜索框、logo、圖片都是葉子節(jié)點(diǎn), html 是樹(shù)形結(jié)構(gòu),我們只需要最下面一批就足夠。第二,圖像分割之后我們可以知道所有的東西。第三,剩下事情就變成了召回和 ranking 的過(guò)程,任務(wù)跟什么相關(guān),只需要進(jìn)行排序,再去輸入指令就夠了。
02、北大Open Sora生成能力增強(qiáng)
目前非?;鸬捻?xiàng)目視頻生成( open Sora )。Open AI很早發(fā)布了Sora,雖然沒(méi)有對(duì)外開(kāi)放,但效果非常炸裂驚艷。我們團(tuán)隊(duì)希望用開(kāi)源的力量復(fù)現(xiàn)出Sora,成為視覺(jué)版LLaMA。因?yàn)?a class="article-link" target="_blank" href="/tag/%E7%AE%97%E5%8A%9B/">算力有限,希望以開(kāi)源的方式讓更多的算力進(jìn)來(lái),讓Sora能力越來(lái)越強(qiáng),這是團(tuán)隊(duì)的初衷。
具體的實(shí)現(xiàn)方式包含三個(gè)部分。1、壓縮和解壓過(guò)程。2、 Diffusion 。3、Condition 線路?,F(xiàn)在的 AI 技術(shù),包括 GPT、視頻生成、文生圖。技術(shù)都是大道至簡(jiǎn)的感覺(jué),對(duì)技術(shù)方案上較為統(tǒng)一。拼的更多是數(shù)據(jù)上的沉淀,細(xì)節(jié)訓(xùn)練、修改。
比較標(biāo)準(zhǔn)的方案具體有三部分,第一部分是視頻的壓縮和解壓,形象點(diǎn)來(lái)說(shuō)在電腦上把所有視頻壓縮成zip 包,然后再進(jìn)行解壓。中間部分可以理解成 zip 包,只不過(guò)由編碼方式來(lái)進(jìn)編碼,VAE是經(jīng)典的模型,把原始視頻輸進(jìn)去,能達(dá)到一分鐘 720P 的重建Demo,壓縮率目前可達(dá)到 256 倍,個(gè)人也認(rèn)為,只要把信息壓縮得足夠多,生成效果會(huì)越好。這并不是用文本生成視頻,這是重構(gòu),意味著把原視頻輸進(jìn)去,通過(guò)壓縮再解壓,是否能還原。
DiT 在圖文生圖領(lǐng)域很常見(jiàn),包括 Midjourney 與其他的文生圖都是通過(guò)這種該方法,Diffusion也是做視頻生成的常用方案。它具體如上圖所示,框架內(nèi)訓(xùn)練了一個(gè)壓縮器和解壓器,可以理解成就把視頻打包成zip,可將他看做向量,然后這個(gè)向量里面我們會(huì)給它不斷地加隨機(jī)噪聲,直到變成完全隨機(jī)噪聲,這是整體輸入的過(guò)程。Diffusion 可起到去噪的效果,能夠還原之前的視頻,同時(shí)把 Condition 加進(jìn)去,按照這些條件進(jìn)行生成,都是一樣的道理。Condition 包括草圖、深度、關(guān)鍵點(diǎn),只按照規(guī)定的幾個(gè)關(guān)鍵點(diǎn)去做相應(yīng)的生成,但文本還是目前主流方式。最后提出一個(gè)問(wèn)題供大家思考討論:文生視頻這個(gè)事情離商業(yè)化比較遙遠(yuǎn),大家會(huì)不會(huì)愿意為一個(gè)“閑聊”的玩具買(mǎi)單?
以上就是本次分享,如需獲取專家完整版視頻實(shí)錄和課件可掃碼領(lǐng)取。