亚洲一级片,99热最新网址

分享嘉賓｜寧鯤鵬元空AI技術(shù)聯(lián)合創(chuàng)始人

在過去一年里，AI話題熱度持續(xù)升溫，在大模型百家爭(zhēng)鳴的今天，涌現(xiàn)出分門別類的人工智能體，誰(shuí)會(huì)是下一個(gè)風(fēng)口？本文從“ Web Agent?自動(dòng)化解決方案”和“北大Open Sora生成能力增強(qiáng)”為各位帶來AI技術(shù)前瞻。

01、Web Agent自動(dòng)化解決方案

我們希望讓 AI 成為真正的生產(chǎn)力，利用 Agent 幫我們干活，幻想中最完美的畫面，就是流程中有 Master Agent，發(fā)起任意需求，他會(huì)去幫你生成一系列工作流。比如投后診斷、小紅書達(dá)人分析、電商精品分析，自動(dòng)生成工作流，在云主機(jī)上進(jìn)行實(shí)時(shí)執(zhí)行，幫助相應(yīng)工作的完成，同時(shí)將結(jié)果、分析結(jié)論、數(shù)據(jù)報(bào)表，實(shí)時(shí)同步，讓使用者感受到自己真正擁有了 AI agent 團(tuán)隊(duì)。落實(shí)到實(shí)際營(yíng)銷場(chǎng)景中，我們完成了從品牌的用戶洞察、輿情監(jiān)控、內(nèi)容制作、達(dá)人營(yíng)銷、賬號(hào)矩陣自動(dòng)化運(yùn)營(yíng)、智能客服等一整套全鏈路AI產(chǎn)品場(chǎng)景矩陣。

從技術(shù)層面來看，具體會(huì)涉及到LAM，該概念最早在 Rabbit 中提到。通過描述任務(wù)，比如：分析精致貴婦的生活KOL，LAM具備兩個(gè)功能。1、自我規(guī)劃能力2、自我反省能力。針對(duì)任務(wù)，做相應(yīng)的思考與規(guī)劃。去小紅書蒲公英上搜索相應(yīng)的關(guān)鍵詞，找到相應(yīng)博主，分析對(duì)應(yīng)的帖子內(nèi)容與文案，最后產(chǎn)生report，以郵件的方式反饋。一步步的流程形成工作流，只要描述內(nèi)容，讓多模態(tài)大模型生成工作流，后面只需要安排他干活就行了，發(fā)布指令就能完成系列工作。

舉一個(gè)簡(jiǎn)單版的學(xué)術(shù)上的例子，我想在學(xué)術(shù)網(wǎng)頁(yè)上查找學(xué)者的引用量，首先發(fā)起任務(wù)，“幫我查找 Hinton 的引用量是多少”。Agent會(huì)自動(dòng)思考，模擬人的行為把學(xué)者名字輸入到搜索框里，完成相應(yīng)的點(diǎn)擊操作。這個(gè)模式跟自動(dòng)駕駛類似，人可以從中間介入，他會(huì)綜合思考兩個(gè)東西，人類給的提示與 Agent 自己的思考，得出結(jié)論。最終會(huì)形成對(duì)應(yīng)的工作流沉淀下來，相當(dāng)于已經(jīng)訓(xùn)練好了一個(gè)員工，后續(xù)只需執(zhí)行，他就會(huì)按照操作幫你完成接下來的工作。具體包含兩個(gè)內(nèi)容1、通過 task 驅(qū)動(dòng)，只需要描述task，它可以自動(dòng)完成且形成工作流，下一次也可以接著用。2、用戶可隨時(shí)介入，覺得回答不準(zhǔn)或不達(dá)意，可實(shí)時(shí)溝通調(diào)整，修改相應(yīng)的工作流。技術(shù)細(xì)節(jié)方面，我們發(fā)現(xiàn) AI 能完全理解你的需求，也知道該如何執(zhí)行。難點(diǎn)在于對(duì)于常人來說是一個(gè)非常簡(jiǎn)單的問題，直接把需求輸入到搜索框里面就可以了，但 AI 怎么轉(zhuǎn)換成對(duì)應(yīng)的指令且準(zhǔn)確地輸入，這是比較困難的。

第一，首先有一個(gè)大屏幕做全局掃描，可理解成分割，把網(wǎng)頁(yè)的 HTML 代碼對(duì)應(yīng)的葉子節(jié)點(diǎn)拿出來，搜索框、logo、圖片都是葉子節(jié)點(diǎn)， html 是樹形結(jié)構(gòu)，我們只需要最下面一批就足夠。第二，圖像分割之后我們可以知道所有的東西。第三，剩下事情就變成了召回和 ranking 的過程，任務(wù)跟什么相關(guān)，只需要進(jìn)行排序，再去輸入指令就夠了。

02、北大Open Sora生成能力增強(qiáng)

目前非?；鸬捻?xiàng)目視頻生成（ open Sora ）。Open AI很早發(fā)布了Sora，雖然沒有對(duì)外開放，但效果非常炸裂驚艷。我們團(tuán)隊(duì)希望用開源的力量復(fù)現(xiàn)出Sora，成為視覺版LLaMA。因?yàn)?a class="article-link" target="_blank" href="/tag/%E7%AE%97%E5%8A%9B/">算力有限，希望以開源的方式讓更多的算力進(jìn)來，讓Sora能力越來越強(qiáng)，這是團(tuán)隊(duì)的初衷。

具體的實(shí)現(xiàn)方式包含三個(gè)部分。1、壓縮和解壓過程。2、 Diffusion 。3、Condition 線路?，F(xiàn)在的 AI 技術(shù)，包括 GPT、視頻生成、文生圖。技術(shù)都是大道至簡(jiǎn)的感覺，對(duì)技術(shù)方案上較為統(tǒng)一。拼的更多是數(shù)據(jù)上的沉淀，細(xì)節(jié)訓(xùn)練、修改。

比較標(biāo)準(zhǔn)的方案具體有三部分，第一部分是視頻的壓縮和解壓，形象點(diǎn)來說在電腦上把所有視頻壓縮成zip 包，然后再進(jìn)行解壓。中間部分可以理解成 zip 包，只不過由編碼方式來進(jìn)編碼，VAE是經(jīng)典的模型，把原始視頻輸進(jìn)去，能達(dá)到一分鐘 720P 的重建Demo，壓縮率目前可達(dá)到 256 倍，個(gè)人也認(rèn)為，只要把信息壓縮得足夠多，生成效果會(huì)越好。這并不是用文本生成視頻，這是重構(gòu)，意味著把原視頻輸進(jìn)去，通過壓縮再解壓，是否能還原。

DiT 在圖文生圖領(lǐng)域很常見，包括 Midjourney 與其他的文生圖都是通過這種該方法，Diffusion也是做視頻生成的常用方案。它具體如上圖所示，框架內(nèi)訓(xùn)練了一個(gè)壓縮器和解壓器，可以理解成就把視頻打包成zip，可將他看做向量，然后這個(gè)向量里面我們會(huì)給它不斷地加隨機(jī)噪聲，直到變成完全隨機(jī)噪聲，這是整體輸入的過程。Diffusion 可起到去噪的效果，能夠還原之前的視頻，同時(shí)把 Condition 加進(jìn)去，按照這些條件進(jìn)行生成，都是一樣的道理。Condition 包括草圖、深度、關(guān)鍵點(diǎn)，只按照規(guī)定的幾個(gè)關(guān)鍵點(diǎn)去做相應(yīng)的生成，但文本還是目前主流方式。最后提出一個(gè)問題供大家思考討論：文生視頻這個(gè)事情離商業(yè)化比較遙遠(yuǎn)，大家會(huì)不會(huì)愿意為一個(gè)“閑聊”的玩具買單？

以上就是本次分享，如需獲取專家完整版視頻實(shí)錄和課件可掃碼領(lǐng)取。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
DSPIC33EP512MU814-E/PH	1	Microchip Technology Inc	16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP144, 16 X 16 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-144	ECAD模型下載ECAD模型	$11.85	查看
STM32F030C8T6TR	1	STMicroelectronics	Mainstream Arm Cortex-M0 Value line MCU with 64 Kbytes of Flash memory, 48 MHz CPU	ECAD模型下載ECAD模型	$3.41	查看
ATMEGA88PA-MMHR	1	Atmel Corporation	RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PQCC28, 4 X 4 MM, 1 MM HEIGHT, 0.45 MM PITCH, GREEN, PLASTIC, VQFN-28		$2.43	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

DSPIC33EP512MU814-E/PH

Microchip Technology Inc

16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP144, 16 X 16 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-144