精品无码大爆乳在线视频,丰满少妇人妻无码

論文 VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation 提出了一種基于視覺上下文提示（VCP）的CLIP模型（VCP-CLIP），用于解決零樣本異常分割（ZSAS）問題。

現(xiàn)有基于CLIP的方法與VCP-CLIP的對比。VCP-CLIP引入了Pre-VCP模塊和Post-VCP模塊，相較于現(xiàn)有基于CLIP的方法提供了顯著的增強(qiáng)。(a) 現(xiàn)有基于CLIP的方法。(b) VCP-CLIP。

不同文本提示方法的比較。(a) 任務(wù)設(shè)置。(b) 手動定義的文本提示。(c) 設(shè)計(jì)的統(tǒng)一文本提示。(d) 設(shè)計(jì)的預(yù)視覺上下文提示。

主要貢獻(xiàn)

提出VCP-CLIP模型：該模型通過視覺上下文提示來激活CLIP的異常語義感知能力，能夠在有限的已知產(chǎn)品集上訓(xùn)練后，定位任何未知產(chǎn)品中的異常，即使產(chǎn)品類別未知。與現(xiàn)有的文本提示方法相比，VCP-CLIP利用視覺上下文提示來充分激活CLIP的異常語義感知能力。

引入視覺上下文信息：首次揭示了視覺上下文為ZSAS任務(wù)中的文本提示提供了額外信息。具體來說，設(shè)計(jì)了Pre-VCP和Post-VCP模塊，分別利用全局和細(xì)粒度的圖像特征來優(yōu)化文本空間。

實(shí)驗(yàn)驗(yàn)證：在十個真實(shí)工業(yè)異常分割數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn)，展示了VCP-CLIP在ZSAS任務(wù)中的最先進(jìn)性能。

VCP-CLIP的框架。我們的方法通過使用Pre-VCP模塊和Post-VCP模塊，將更豐富的視覺知識融入文本空間，并實(shí)現(xiàn)文本特征和視覺特征之間的跨模態(tài)交互。

模型結(jié)構(gòu)

Pre-VCP模塊：通過引入全局圖像特征來優(yōu)化文本空間，使用深度文本提示（DTP）技術(shù)來細(xì)化文本空間，從而減少提示設(shè)計(jì)的成本。與基線模型相比，Pre-VCP模塊使得從統(tǒng)一提示過渡到圖像特定提示，顯著降低了提示設(shè)計(jì)的成本。

Post-VCP模塊：基于細(xì)粒度的視覺特征調(diào)整輸出文本嵌入，增強(qiáng)不同模態(tài)特征的相互理解，進(jìn)一步提升模型對新產(chǎn)品的泛化能力。Post-VCP模塊通過調(diào)整輸出文本嵌入來增強(qiáng)CLIP準(zhǔn)確分割異常區(qū)域的能力。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集和評估指標(biāo)：使用了包括MVTec-AD、VisA、BSD、GC、KSDD2、MSD、Road、RSDD、BTech、DAGM在內(nèi)的十個工業(yè)異常分割數(shù)據(jù)集。由于VisA中的產(chǎn)品與其他數(shù)據(jù)集不重疊，使用VisA作為訓(xùn)練數(shù)據(jù)集來評估其他數(shù)據(jù)集的性能。對于VisA本身，在MVTec-AD上訓(xùn)練后進(jìn)行評估。評估指標(biāo)包括像素級AUROC（接收者操作特征曲線下面積）、PRO（每區(qū)域重疊）和AP（平均精度）。

實(shí)現(xiàn)細(xì)節(jié)：默認(rèn)采用OpenAI預(yù)訓(xùn)練的CLIP模型（ViT-L-14-336），圖像分辨率調(diào)整為518×518，使用Adam優(yōu)化器，初始學(xué)習(xí)率為4e-5，訓(xùn)練10個epoch，批量大小為32。圖像編碼器包含24個transformer層，從第6、12、18和24層提取圖像特征。可學(xué)習(xí)類別向量的長度r和每個文本編碼器層中可學(xué)習(xí)文本嵌入的長度n分別設(shè)置為2和1。Post-VCP模塊中的注意力頭數(shù)M設(shè)置為8。不同異常圖的融合權(quán)重α默認(rèn)設(shè)置為0.75。

實(shí)驗(yàn)結(jié)果

與現(xiàn)有方法的對比：VCP-CLIP在所有評估指標(biāo)上均優(yōu)于其他方法，特別是在AP指標(biāo)上表現(xiàn)突出。與訓(xùn)練自由的方法（如WinCLIP、AnVoL、SAA/SAA+）和需要訓(xùn)練的方法（如APRIL-GAN、CLIP-AD、AnomalyCLIP、AnomalyGPT）相比，VCP-CLIP展示了更好的性能。

與現(xiàn)有最先進(jìn)方法的比較。(a, b, c) 分別表示像素級AUROC（%）、PRO（%）和AP（%）。用 ? 標(biāo)記的方法是無需訓(xùn)練的，而其他方法則需要訓(xùn)練。

定性分割結(jié)果。前五列使用的是來自MVTec-AD數(shù)據(jù)集的圖像，最后五列使用的是來自VisA數(shù)據(jù)集的圖像。

消融實(shí)驗(yàn)：

去除Pre-VCP和Post-VCP的影響：去除Post-VCP對性能的影響更大，說明Post-VCP在細(xì)粒度視覺特征的文本嵌入調(diào)整中起到了關(guān)鍵作用。

不同圖像編碼器層的特征影響：中間層（第12和18層）的圖像特征對最終分割結(jié)果貢獻(xiàn)更大，低層（第6層）特征過于低級，高層（第24層）特征過于抽象。綜合考慮，采用第6、12、18和24層的特征。

文本提示設(shè)計(jì)的影響：不同狀態(tài)詞（如“perfect/flawed”）對性能影響不大，驗(yàn)證了模型對狀態(tài)詞的魯棒性。默認(rèn)使用的模板（“a photo of a [state] [z(x, v)]”）整體表現(xiàn)優(yōu)于另一種模板（“this is a [state] photo of [z(x, v)]”）。

不同預(yù)訓(xùn)練模型和分辨率的影響：適度增加輸入圖像分辨率有助于更精確的分割，但偏離原始預(yù)訓(xùn)練分辨率（3362到7982）會導(dǎo)致模型性能下降。ViT-L-14-336在所有預(yù)訓(xùn)練模型中表現(xiàn)最佳，因此選擇其作為默認(rèn)骨干網(wǎng)絡(luò)。

結(jié)論

VCP-CLIP通過將豐富的視覺知識引入文本空間，并實(shí)現(xiàn)文本和視覺特征的跨模態(tài)交互，能夠在沒有任何先驗(yàn)知識的情況下直接對新產(chǎn)品進(jìn)行異常分割。實(shí)驗(yàn)結(jié)果表明，VCP-CLIP在ZSAS任務(wù)中表現(xiàn)出色。

限制

過度檢測：對于一些小的異常區(qū)域，可能會導(dǎo)致過度檢測，分割結(jié)果通常比真實(shí)值稍大。這可能是由于預(yù)訓(xùn)練骨干網(wǎng)絡(luò)（ViT-L-14-336）使用的小輸入分辨率（3362）和大補(bǔ)丁大?。?42）所致。

特定異常區(qū)域定位不準(zhǔn)確：對于必須依賴正常圖像進(jìn)行識別的異常區(qū)域，定位不準(zhǔn)確。這是因?yàn)樵赯SAS任務(wù)設(shè)置中，VCP-CLIP直接對新產(chǎn)品進(jìn)行異常分割，而不引入任何正常圖像的先驗(yàn)信息。未來計(jì)劃探索利用少樣本技術(shù)來解決這一問題，利用VCP-CLIP的基礎(chǔ)工作。

相關(guān)信息

代碼：https://github.com/xiaozhen228/vcp-clip

論文：https://arxiv.org/abs/2407.12276v1

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
MPC5554MZP132	1	Freescale Semiconductor	32-BIT, FLASH, 132MHz, MICROCONTROLLER, PBGA416, 27 X 27 MM, 1 MM PITCH, PLASTIC, MS-034AAL-1, TEBGA-416		$80.8	查看
MK66FN2M0VLQ18	1	NXP Semiconductors	FLASH, 180MHz, RISC MICROCONTROLLER, PQFP144	ECAD模型下載ECAD模型	$48.66	查看
ATSAMA5D35A-CN	1	Atmel Corporation	RISC Microprocessor, 536MHz, CMOS, PBGA324, 15 X 15 MM, 1.40 MM HEIGHT, 0.80 MM PITCH, GREEN, MO-275KAAE-1, LFBGA-324		$13.79	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險(xiǎn)等級

參考價格

更多信息

MPC5554MZP132

Freescale Semiconductor

32-BIT, FLASH, 132MHz, MICROCONTROLLER, PBGA416, 27 X 27 MM, 1 MM PITCH, PLASTIC, MS-034AAL-1, TEBGA-416

$80.8

查看

MK66FN2M0VLQ18

NXP Semiconductors

FLASH, 180MHz, RISC MICROCONTROLLER, PQFP144

$48.66

查看

ATSAMA5D35A-CN

Atmel Corporation

RISC Microprocessor, 536MHz, CMOS, PBGA324, 15 X 15 MM, 1.40 MM HEIGHT, 0.80 MM PITCH, GREEN, MO-275KAAE-1, LFBGA-324

$13.79

查看

VCP-CLIP：一種用于零樣本異常分割的視覺上下文提示模型