該文提出了一種新的多模態(tài)協(xié)同感知框架,通過融合激光雷達和相機傳感器的輸入來增強自動駕駛感知系統(tǒng)的性能。首先,構(gòu)建了一個多模態(tài)融合的基線系統(tǒng),能有效地整合來自激光雷達和相機傳感器的數(shù)據(jù),為后續(xù)研究提供了可比較的基準(zhǔn)。其次,在多車協(xié)同環(huán)境下,探索了多種流行的特征融合策略,包括通道級拼接、元素級求和,以及基于Transformer的融合方法,以此來融合來自不同類型傳感器的特征并評估它們對模型性能的影響。最后,使用大規(guī)模公開仿線V進行了一系列實驗和評估。實驗結(jié)果表明,基于注意力機制的多模態(tài)融合方法在協(xié)同感知任務(wù)中展現(xiàn)出更優(yōu)越的性能和更強的魯棒性,能夠提供更精確的目標(biāo)檢測結(jié)果,從而增加了自動駕駛系統(tǒng)的安全性和可靠性。