摘要
目标检测作为计算机视觉领域的核心任务之一,其模型性能与效率的平衡一直是研究热点。YOLOv8作为当前最先进的单阶段目标检测器,凭借其高效的结构设计获得了广泛应用。然而,传统卷积神经网络(CNN)在处理长距离依赖关系时存在天然的局限性,而标准Transformer的全局自注意力机制又面临计算量爆炸的问题。
本文提出了一种将Bi-Level Routing Attention(双层路由注意力,简称BiFormer)集成到YOLOv8的创新改进方案。BiFormer通过在区域级别进行粗粒度筛选,再在像素级别进行细粒度精炼,实现了既高效又强大的稀疏注意力机制。我们将详细阐述BiFormer的核心原理、YOLOv8的架构适配过程,并提供完整的代码实现与数据集实验验证。实验结果表明,改进后的YOLOv8-BiFormer在保持实时性的同时,在COCO、VisDrone等数据集上的mAP提升了2-3个百分点,尤其在小目标检测和复杂背景场景下表现卓越。
一、引言
1.1 研究背景
YOLO系列模型从YOLOv1发展到YOLOv8,始终贯彻“实时性与准确性并重”的设计理念。YOLOv8通过C2f模块(跨阶段部分连接)、解耦头(Decoupled Head)以及Task-Aligned Assigner等机制,在目标检测领域树立了新的标杆。然而,随着应用场景日益复杂(如无人机航拍、自动驾驶、医疗影像分析),模型对全局上下文信息的捕捉能力提出了更高要求。
1.2 现有方法的局限性
CNN的局限