加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 三維重建的概念
    • 三維重建的應(yīng)用
    • 三維重建的方法
    • NeRF的提出與發(fā)展
    • NeRF整體框架
    • 輻射場
    • 體渲染
    • 總結(jié)
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

淺談基于NeRF的三維重建技術(shù)

09/27 12:40
6.8萬
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者:程耀

單位:中國移動智慧家庭運營中心

當今,三維重建技術(shù)在計算機視覺和計算機圖形學領(lǐng)域扮演著越來越重要的角色,它們有助于將物理世界中的實體轉(zhuǎn)換為數(shù)字模型。三維重建技術(shù)的應(yīng)用范圍非常廣泛,包括增強現(xiàn)實、虛擬現(xiàn)實、建筑設(shè)計、游戲開發(fā)等領(lǐng)域。本文將介紹三維重建技術(shù)的概念、方法,重點關(guān)注神經(jīng)輻射場(NeRF)算法。

三維重建的概念

三維重建是一種將物理世界中的實體轉(zhuǎn)換為數(shù)字模型的計算機技術(shù)。其基本概念是通過對物理世界中的物體或場景進行掃描或拍攝,并使用計算機算法將其轉(zhuǎn)換為三維數(shù)字模型。抽象意義上的三維模型指的是:形狀和外觀的組合,并且可以渲染成不同視角下真實感強烈的RGB圖像。

三維重建技術(shù)可以應(yīng)用于許多領(lǐng)域,如建筑設(shè)計、游戲開發(fā)、虛擬現(xiàn)實等。通過三維重建技術(shù),可以快速、準確地獲取物體的幾何形狀、紋理、顏色等信息,從而實現(xiàn)更高質(zhì)量的渲染和呈現(xiàn)效果。

三維重建技術(shù)的實現(xiàn)方式有很多種,如通過多視角立體重建、激光掃描、結(jié)構(gòu)光掃描等方式進行。近年來,隨著深度學習等技術(shù)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于三維重建技術(shù)中,取得了令人矚目的成果。三維重建技術(shù)的發(fā)展和應(yīng)用將進一步推動數(shù)字化建設(shè)的發(fā)展和普及。這些突破性進展為三維重建技術(shù)的持續(xù)演進提供了強大動力,進一步推動了數(shù)字化建設(shè)的普及和發(fā)展。

三維重建的應(yīng)用

三維重建生成的應(yīng)用非常廣泛,其中一項重要的應(yīng)用是生成新視角的圖片或視頻。通過三維重建技術(shù),我們可以從已有的視角獲取物體的幾何形狀和表面紋理等信息,并生成具有真實感的RGB圖像及視頻。

例如,三維重建技術(shù)可以用于視頻增強,即從已有的視頻中生成新的視角,從而改善視頻的觀感和交互性。例如,觀眾可以根據(jù)自己的喜好選擇不同的視角觀看物體、環(huán)境,實現(xiàn)全景觀看,達成更好的用戶交互體驗。如下圖所示,我們可以從照片中推斷出當前的三維環(huán)境,供用戶從多角度觀看,但通常情況下,這需要多張照片。

圖1 三維重建的應(yīng)用

另外,三維重建技術(shù)也可以用于視頻編輯和特效制作,例如在電影中添加虛擬場景。

三維重建的方法

掃描三維重建和多視角立體重建(Multi-View Stereo, MVS)是常見的兩種傳統(tǒng)三維重建方法。其流程如下圖所示:

圖2 三維重建的流程

掃描三維重建是指使用專業(yè)掃描儀等設(shè)備,對物體進行多角度、高精度的掃描,獲取物體表面的點云數(shù)據(jù),之后,通過點云重建算法生成物體的三維模型。這種方法對物體形狀和細節(jié)的重建精度較高,適用于文物保護、工業(yè)設(shè)計等領(lǐng)域。但是,掃描儀的價格昂貴,需要較高的技術(shù)和操作水平,同時掃描過程需要一定的時間,不適用于消費級或工業(yè)級產(chǎn)品。

MVS三維重建是指使用多個視角的圖像,通過多視角幾何原理和圖像匹配算法,計算出場景中物體表面的深度和法向信息,最終生成三維模型。這種方法無需特殊設(shè)備,只需使用相機等普通設(shè)備即可實現(xiàn),適用于復(fù)雜場景的三維重建。但是,MVS方法對圖像質(zhì)量和視角的要求較高,需要處理視角重疊度不足、陰影等問題,同時圖像匹配算法的準確度也對重建效果有很大影響。

圖3 三維重建示意圖(左邊為輸入圖片,右邊為生成的三維模型)

除了傳統(tǒng)的三維重建方法,三維模型的隱式重建近幾年也在不斷發(fā)展,其主要思想是使用神經(jīng)網(wǎng)絡(luò)建立場景或物體的三維模型,從而實現(xiàn)高質(zhì)量的重建。三維隱式重建并不顯性地產(chǎn)生例如三維曲面的模型,而是通過數(shù)學表達式來隱式地表達場景中每一個點的顏色、深度。也就是說,隱式重建省略了圖1的中間過程,從輸入物體照片直接得到了新視角下圖片。

三維物體的隱式表達一般有,有向距離函數(shù)(SDF,Signed Distance Function)、占用場(OF,Occupancy Field)來表示一個點距離附近三維物體的有向距離或者該點是否在三維物體內(nèi)部。

與傳統(tǒng)的MVS相比,隱式重建可以從較少的觀測數(shù)據(jù)中構(gòu)建高質(zhì)量的三維模型,并且可以更好地處理遮擋、反射和光照等復(fù)雜情況,重建效果相比MVS更加光滑。另外,相比傳統(tǒng)顯式重建得到的離散面片構(gòu)成的三維模型,由于函數(shù)的連續(xù)性,隱式模型能更好的適應(yīng)高分辨率的情況。但同時,隱式重建方法需要大量的訓練數(shù)據(jù),并且它難以處理具有復(fù)雜結(jié)構(gòu)和幾何形狀的物體,無法重現(xiàn)物體的高頻特征,在細節(jié)方面比較粗糙。

神經(jīng)輻射場(NeRF,Neural Radiance Field)是另一種隱式三維重建技術(shù),使用一個神經(jīng)網(wǎng)絡(luò)來預(yù)測從一個視點看到的場景中每個像素的顏色和深度值。這個神經(jīng)網(wǎng)絡(luò)使用輻射場以學習從一系列觀察視角拍攝的圖像中重建場景的表面形狀和紋理?;谏窠?jīng)網(wǎng)絡(luò)輸出的編碼后的信息,采用體渲染輸出指定視角下的二維圖片。

相比于另外兩種隱式三維重建方法,NeRF只需要少量的二維圖像和對應(yīng)的深度值用于訓練,并且在高頻特征上具有更好的表現(xiàn)。

NeRF的提出與發(fā)展

NeRF的概念首次被提出于2020年,由美國加州大學伯克利分校(UC Berkeley)和谷歌研究的Ben Mildenhall、Pratul P. Srinivasan、Matthew Tancik和Jonathan T. Barron等人在論文《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》中闡述。NeRF的核心思想源于物理學、計算機圖形學、深度學習等多個領(lǐng)域的結(jié)合。他們提出了一種新穎的神經(jīng)網(wǎng)絡(luò)架構(gòu),通過學習一個連續(xù)的三維空間中的輻射場來從有限的二維圖像中重建高質(zhì)量的三維場景。

NeRF自提出后也持續(xù)在生成范圍、生成效果、所需基礎(chǔ)數(shù)據(jù)上進行改進。例如包含光影變化效果NeRV、動態(tài)NeRF HyperNeRF接近實時生成Instant NGP和Instant NeRF全場景NeRF mip NeRF 360。

圖4 NeRF示意圖

NeRF整體框架

NeRF算法的整體訓練架構(gòu)如下圖所示:

圖5 NeRF訓練框架

首先通過神經(jīng)網(wǎng)絡(luò)學習場景的輻射場函數(shù)來實現(xiàn)對三維信息的編碼,輸入為三維空間中的坐標和方向,輸出為對應(yīng)點的顏色和透明度值。

第二步體渲染,首先將場景分成小的體素,然后對每個體素內(nèi)的光線進行采樣,通過對所有采樣點的輻射場函數(shù)進行加權(quán)平均,得到最終的像素顏色值。相當于對體素中的輻射場進行了積分,從而得到了最終的圖像。直觀來說,一個點的透明度越高,這點在射線下的顏色反應(yīng)在像素上的權(quán)重越小。

NeRF還使用了一些技巧來提高重建質(zhì)量和效率。例如,位置編碼(Positional Encoding)技術(shù)將輸入坐標進行編碼,使得模型可以更好地處理坐標信息。此外,分層體素采樣(Hierarchical Volume Sampling)技術(shù)通過對采樣分層,可以減少渲染時間,提高渲染效率。

輻射場

輻射場是一個五維函數(shù),用來描述輻射在空間中的傳播行為和相互作用,在計算機圖形學和計算機視覺領(lǐng)域,輻射場常用于表示三維場景中的光照和顏色信息,可以用于實現(xiàn)渲染、重建、紋理合成等任務(wù)。

輻射場包含三個空間維度和兩個方向維度,分別表示輻射在空間中的位置和光線的方向。輻射場可以用來描述光線在介質(zhì)中的傳播、反射、折射、散射等現(xiàn)象,以及介質(zhì)中的吸收、發(fā)射等能量轉(zhuǎn)換過程。神經(jīng)輻射場可以看作是從空間位置和視角方向到顏色和透明度的映射。

圖6 輻射場示意圖

輻射場用數(shù)學公式可以表達為:

在NeRF中,輻射場被表示為一個神經(jīng)網(wǎng)絡(luò)模型,用于從相機位置和方向計算出每個像素點的顏色和透明度,從而實現(xiàn)高質(zhì)量的三維重建和渲染。此時函數(shù)可以表達為:

其中是一個神經(jīng)網(wǎng)絡(luò)模型,是模型參數(shù)。

神經(jīng)網(wǎng)絡(luò)架構(gòu)如下圖所示,這里采用的是全連接的形式,綠色為輸入,紅色為輸出,其中代表輸入位置、角度映射出的維向量,這里我們可以看出,透明度和視角無關(guān)而顏色和視角有關(guān):

圖7 輻射場神經(jīng)網(wǎng)絡(luò)示意圖

體渲染

體渲染是一種用于可視化三維數(shù)據(jù)的方法,將數(shù)據(jù)中的體素(Voxel)轉(zhuǎn)換為圖像,以顯示其內(nèi)部結(jié)構(gòu)和特征。體渲染通常涉及到光線傳播、顏色合成和光照計算等過程,可以通過各種算法和技術(shù)來實現(xiàn)高質(zhì)量的體渲染效果。

體渲染中最基本的方法是基于光線投影(Ray Casting)的體積光線渲染(Volume Ray Casting),其核心思想是在三維體素數(shù)據(jù)上投射光線,并計算沿光線傳播過程中體素的透明度和顏色,從而生成渲染圖像。

圖8 渲染示意圖

光線傳播過程中,透明度和顏色的計算通常基于體素的密度和光線與體素交點的位置和方向等信息。在體渲染中,常用的透明度傳輸函數(shù)(Opacity Transfer Function)和顏色傳輸函數(shù)(Color Transfer Function)可以用于調(diào)整渲染效果。

在NeRF中,體渲染可以用以下公式來表示:

其中代表投影點的顏色,代表光線從物體到觀測點沿途的透明度的累和,分別代表神經(jīng)輻射場輸出的三維空間的顏色和透明度,表示光線與數(shù)據(jù)集的最大交點,表示光線的方向。

總結(jié)

隨著智能交互技術(shù)的發(fā)展,圖形學領(lǐng)域近年來發(fā)展迅速,從傳統(tǒng)的MVS重建到基于神經(jīng)網(wǎng)絡(luò)的隱式重建,都在為更好的顯示、交互效果不斷演變。自NeRF發(fā)布以來,基于NeRF的新模型也層出不窮,例如HeadNeRF重建三維人臉,PixelNeRF只需輸入極少量的目標圖片,即可產(chǎn)生新視角圖片。圖形學必將為我們帶來更好的智能交互體驗。

 

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
NUD4700SNT1G 1 onsemi LED Shunt, POWERMITE, 3000-REEL
$0.68 查看
50079-8100 1 Molex Wire Terminal, LEAD FREE

ECAD模型

下載ECAD模型
$0.17 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

移動Labs是中國移動的社交化新媒體平臺,是面向外部行業(yè)及產(chǎn)業(yè)鏈合作伙伴的信息發(fā)布、業(yè)務(wù)發(fā)展和產(chǎn)業(yè)推進門戶。