LiDAR 數(shù)據(jù)融合(二)
實現(xiàn) LiDAR 數(shù)據(jù)與其他傳感器數(shù)據(jù)的有效融合,時空校準(zhǔn)是重要前提。空間校準(zhǔn)通過手眼標(biāo)定(Hand-Eye Calibration)確定傳感器間的外參(旋轉(zhuǎn)矩陣 R + 平移向量 t),其公式為 P_target = R?P_source + t,其中 P_source 為源傳感器坐標(biāo),P_target 為目標(biāo)傳感器坐標(biāo),常用的標(biāo)定方法包括基于棋盤格的張氏標(biāo)定法(適用于視覺 - LiDAR)、基于平面特征的 ICP 迭代法(適用于 LiDAR-IMU)。時間同步則可通過硬件與軟件兩種方式實現(xiàn),硬件同步借助 PTP(Precision Time Protocol)實現(xiàn)傳感器時鐘的毫秒級對齊;軟件同步基于時間戳進行插值補償,對于運動狀態(tài)劇烈的場景(如車輛急轉(zhuǎn)),則采用二次曲線擬合進行修正。
LiDAR 數(shù)據(jù)融合架構(gòu)可劃分為不同層次,各層次有著不同的原理與方法。數(shù)據(jù)級融合(早期融合)的核心是將原始傳感器數(shù)據(jù)轉(zhuǎn)換至統(tǒng)一坐標(biāo)系后直接融合,以保留完整信息。典型的方法包括點云 - 圖像投影,即把 LiDAR 點云投影至相機圖像平面,生成帶深度信息的彩色點云,其坐標(biāo)轉(zhuǎn)換公式為 u = fx?(x/z) + cx,v = fy?(y/z) + cy(其中 u,v 為圖像像素坐標(biāo),fx,fy 為相機內(nèi)參焦距,cx,cy 為主點坐標(biāo));還有點云補全,利用相機圖像的稠密像素預(yù)測 LiDAR 稀疏區(qū)域的深度值,如基于 Transformer 的 Cross-Attention 補全網(wǎng)絡(luò)便屬于此類。
特征級融合(中期融合)則是提取各傳感器的高層特征后進行融合,以此減少數(shù)據(jù)冗余。LiDAR 的特征包括點云法向量、曲率、體素特征(VFE)、鳥瞰圖(BEV)特征等;視覺特征則有 CNN 卷積特征、Transformer 注意力圖、邊緣 / 角點特征等。常用的融合策略有特征拼接(Concat),這種方法簡單高效但易引入噪聲;注意力機制,通過權(quán)重分配突出有效特征,如 LiDAR - 視覺交叉注意力模塊;以及特征金字塔融合,實現(xiàn)多尺度特征匹配,解決目標(biāo)尺度變化問題。
決策級融合(晚期融合)的原理是獨立處理各傳感器數(shù)據(jù)得到?jīng)Q策結(jié)果后,通過投票、加權(quán)等方式進行融合,其優(yōu)勢在于傳感器故障時具有容錯性,適合異構(gòu)系統(tǒng)集成。常用的算法包括 D-S 證據(jù)理論,用于處理不確定性決策的信任函數(shù)組合;以及貝葉斯推理,基于后驗概率進行決策融合,其公式為 P (class|LiDAR, Camera) ∝ P (LiDAR|class)?P (Camera|class)?P (class)。
隨著深度學(xué)習(xí)的發(fā)展,出現(xiàn)了多種驅(qū)動融合的模型。單階段融合模型如 PointPillars++,將 LiDAR 點云轉(zhuǎn)換為柱狀體(Pillar)特征,與相機圖像的 BEV 特征在骨干網(wǎng)絡(luò)中融合,實現(xiàn)端到端目標(biāo)檢測,其優(yōu)勢在于速度快(可達 50fps),適合實時系統(tǒng)。雙階段融合模型如 F-PointNet,第一階段利用 LiDAR 點云生成目標(biāo)候選框,第二階段將候選框投影至圖像提取視覺特征,聯(lián)合優(yōu)化分類與定位,具有精度高的特點,在 KITTI 測試集上車輛檢測 AP@IoU=0.7 達 92%。Transformer 融合架構(gòu)如 DETR3D,通過 3D 位置編碼將 LiDAR 點云與圖像特征映射至統(tǒng)一語義空間,利用自注意力機制實現(xiàn)全局上下文融合,突破了傳統(tǒng)卷積網(wǎng)絡(luò)對長距離依賴建模不足的問題。





