當(dāng)6 TOPS不再是極限:米爾RK3576 + Hailo-8,讓高幀率攝像頭真正“實(shí)時(shí)”
在邊緣計(jì)算領(lǐng)域,算力與實(shí)時(shí)性之間的博弈從未停止。近期基于米爾MYD-LR3576 開發(fā)板+ PCIe M.2 接口 Hailo-8 算力卡進(jìn)行了一系列深度測試,一組實(shí)測數(shù)據(jù),或許能幫你重新審視邊緣 AI 的“性能天花板”。
圖:米爾基于RK3576開發(fā)板
一、RK3576 的算力極限在哪里?
RK3576 內(nèi)置 NPU 由 2 核組成,具備 6 TOPS 算力,在常規(guī)輕量級(jí)模型推理中表現(xiàn)不俗。但在實(shí)際項(xiàng)目中,我們通過多路并發(fā)測試發(fā)現(xiàn),當(dāng) 4 路 YOLOv5 模型同時(shí)推理時(shí),NPU 負(fù)載率已超過 75%。一旦增加到第5路,整體延遲急劇飆升,系統(tǒng)響應(yīng)明顯劣化。
在單路推理場景下,YOLOv5(640×640)耗時(shí)約 26ms,折算下來僅能穩(wěn)定處理 30fps 的攝像頭數(shù)據(jù)。
這意味著什么?
當(dāng)攝像頭升級(jí)到 60fps 甚至 120fps 的高幀率場景時(shí),單靠 RK3576 的 NPU 已經(jīng)無法做到逐幀實(shí)時(shí)處理。要么丟幀,要么延遲不斷累積——這在工業(yè)高速檢測、智慧交通、機(jī)器人導(dǎo)航等對(duì)實(shí)時(shí)性要求嚴(yán)苛的應(yīng)用中,是不可接受的。
二、Hailo-8算力卡介紹
Hailo-8 是一款專為邊緣 AI 推理設(shè)計(jì)的專用加速器,擁有26TOPS算力,面向嵌入式設(shè)備和低功耗場景,提供高效、可擴(kuò)展的 AI 計(jì)算能力。
為什么 Hailo-8 能在相同功耗下實(shí)現(xiàn)數(shù)倍于傳統(tǒng) NPU 的性能?答案不在算力數(shù)字,而在架構(gòu):
1. 數(shù)據(jù)流架構(gòu)(Dataflow Architecture)
傳統(tǒng) NPU 像“工廠”從倉庫(DDR)來回搬運(yùn)數(shù)據(jù),效率受限于搬運(yùn)速度。而 Hailo-8 的數(shù)據(jù)流架構(gòu)讓數(shù)據(jù)在芯片內(nèi)部“流水線式”流動(dòng),大幅減少對(duì)外部內(nèi)存的依賴。簡單說:算力不再是瓶頸,內(nèi)存帶寬才是——而 Hailo-8 繞開了這個(gè)瓶頸。
2. 無外部 DRAM 依賴
Hailo-8 不依賴外部大帶寬內(nèi)存,推理過程中幾乎不與 CPU/NPU 爭搶 DDR 資源。在多路視頻并發(fā)場景下,這意味著系統(tǒng)不會(huì)因?yàn)椤皳寖?nèi)存”而掉幀,整體穩(wěn)定性大幅提升。
三、實(shí)測數(shù)據(jù):讓性能說話
在相同模型條件下(YOLOv5s):
在更復(fù)雜模型(YOLOv8s)測試中,Hailo-8算力卡benchmark測試如下:
7 毫秒的推理延遲意味著:即使是 120fps 的高速攝像頭,系統(tǒng)也能輕松應(yīng)對(duì),做到逐幀實(shí)時(shí)處理。
我們還運(yùn)行了 Hailo-8 自帶的攝像頭實(shí)時(shí)推理示例,效果如下:
四、應(yīng)用場景:當(dāng)實(shí)時(shí)性成為剛需
這套方案能解決哪些實(shí)際問題?我們來看幾個(gè)典型場景:
工業(yè)高速視覺檢測:120fps 工業(yè)相機(jī)捕捉高速產(chǎn)線上的工件,Hailo-8 的 8ms 推理延遲確保缺陷被實(shí)時(shí)發(fā)現(xiàn)并剔除,避免漏檢流入下一道工序。
智慧交通卡口:車輛高速通過時(shí),系統(tǒng)需毫秒級(jí)完成檢測+識(shí)別+跟蹤。208 FPS 的吞吐能力讓單節(jié)點(diǎn)可同時(shí)處理多模型,不丟車、不漏牌。
安防邊緣節(jié)點(diǎn):4 路以上 4K 視頻同時(shí)分析,Hailo-8 的高吞吐讓單節(jié)點(diǎn)覆蓋范圍翻倍,大幅降低每路視頻的硬件成本。
五、總結(jié):彈性算力,從容應(yīng)對(duì)高幀率挑戰(zhàn)
通過以上測試,我們可以清晰地看到:
· 引入 Hailo-8 算力卡后,YOLOv5 推理時(shí)間縮短至 8ms,YOLOv8實(shí)測達(dá)到208 FPS 的吞吐量,不僅輕松覆蓋 120fps 攝像頭的全幀率推理,更預(yù)留了充足的算力余量。
· 彈性算力,按需選擇:成本敏感項(xiàng)目可單獨(dú)使用 RK3576;高幀率、低延遲場景只需增加 Hailo-8 模塊,無需更換主控。
· 突破架構(gòu)局限,實(shí)現(xiàn)真正實(shí)時(shí):Hailo-8 的數(shù)據(jù)流架構(gòu)將有效算力利用率提升至 80% 以上,配合 RK3576 的 PCIe 2.1 接口,讓推理延遲從毫秒級(jí)壓縮至微秒級(jí)。
· 為未來預(yù)留空間:算法快速迭代的今天,RK3576 + Hailo-8 的組合為未來兩年的算法升級(jí)提供了充足的算力冗余,保護(hù)客戶的硬件投資。





