目标检测与分割在计算机视觉应用中被广泛使用。然而,传统模型(如 YOLO 系列)虽然高效且准确,但受限于预定义类别,在开放场景中的适应性较差。近年来,开放集方法通过文本提示、视觉提示或无提示范式来克服这一限制,但由于计算成本较高或部署复杂性较大,通常需要在性能和效率之间作出妥协。在本研究中,我们提出 YOLOE,它在单一高效模型中集成了检测和分割,并支持多种开放提示机制,实现了实时“看见一切”的能力。
对于 文本提示,我们提出 可重参数化区域-文本对齐(RepRTA) 策略。该策略通过一个可重参数化的轻量级辅助网络优化预训练的文本嵌入,并在 零推理和迁移开销 的情况下增强视觉-文本对齐能力。
对于 视觉提示,我们提出 语义激活视觉提示编码器(SAVPE)。它采用解耦的语义分支和激活分支,以最小的计算复杂度提升视觉嵌入效果和准确性。
对于 无提示(Prompt-Free)场景,我们提出 惰性区域-提示对比(LRPC) 策略。该策略利用内置的大型词汇表和专用嵌入来识别所有对象,避免了对大规模语言模型的依赖,从而降低计算成本。
大量实验表明,YOLOE 具有出色的零样本性能和迁移能力,同时实现了高推理效率和低训练成本。值得注意的是,在 LVIS 数据集 上,YOLOE-v8-S 训练成本降低 3 倍,推理速度提升 1.4 倍,相较于 YOLO-Worldv2-S 提高 3.5 AP。在 COCO 迁移任务中,YOLOE-v8-L 相比封闭集的 YOLOv8-L 分别提升 0.6 APb 和 0.4 APm,且训练时间减少近 4 倍。代码和模型开源于:https://github.com/THU-MIG/yoloe。
目标检测与分割是计算机视觉的基础任务 [15, 48],广泛应用于 自动驾驶 [2]、医学分析 [55] 和 机器人技术 [8] 等领域。传统方法(例如 YOLO 系列 [1, 3, 21, 47])依赖于 卷积神经网络(CNN),在实时任务中表现出色。然而,它们必须基于 预定义类别 进行训练,在实际开放场景中缺乏灵活性。

图 1. 在开放文本提示方面,YOLOE(我们的)和先进的 YOLO-Worldv2 在性能、训练成本和推理效率方面的比较。LVIS AP 在 minival 集合上评估,FPS 使用 TensorRT 和 CoreML 分别在 T4 GPU 和 iPhone 12 上测量。结果凸显了我们的优越性
随着需求的增长,研究逐渐转向 支持开放提示的模型 [5, 20, 49, 80],以适应 文本提示、视觉提示 或 无提示 的任务。例如:
- GLIP [32] 仅支持文本提示。
- DINO-X [49] 统一支持多种提示方式,但训练和推理成本较高。
- YOLO-World [5] 采用 区域级视觉-语言预训练 [32, 37, 65],通过文本编码器处理文本提示,并将其作为区域特征的对比目标 [20, 49],实现对 任意类别 的识别。
- T-Rex2 [20] 通过视觉提示编码特定区域的类别嵌入,与图像特征或语言对齐视觉编码器交互识别相似对象 [5, 19, 30, 49]。
- GenerateU [33] 采用无提示方法,依赖语言模型通过区域特征 逐步生成 物体类别 [49, 62]。
尽管已有许多进展,但目前仍缺乏 一个既高效又支持多种开放提示的统一模型。例如:
- DINO-X [49] 采用统一架构,但训练和推理的计算开销过大。
- 现有的单一提示方法 之间难以直接结合,导致性能和效率之间难以取舍。例如:
- 文本提示方法 需要处理大规模词汇表,跨模态融合计算复杂度高 [5, 32, 37, 49]。
- 视觉提示方法 依赖 Transformer 结构或额外视觉编码器,难以部署到边缘设备 [20, 30, 67]。
- 无提示方法 依赖 大规模语言模型,消耗大量内存和计算资源 [33, 49]。
针对上述挑战,我们提出 YOLOE,一个 高效、统一、开放 的目标检测与分割模型,类似 人眼(eye) 能够基于 不同提示机制(文本、视觉、无提示) 进行识别。
文本提示:可重参数化区域-文本对齐(RepRTA)
我们提出 RepRTA(Re-parameterizable Region-Text Alignment) 策略,通过 轻量级辅助网络 改进预训练的文本嵌入,从而增强 视觉-语义对齐。
- 训练阶段:文本嵌入预先缓存,辅助网络仅处理文本提示,额外计算成本 极低,接近封闭集训练的开销。
- 推理和迁移阶段:辅助网络 无缝重参数化 到分类头,最终架构 与普通 YOLO 模型完全一致,实现 零额外开销。
视觉提示:语义激活视觉提示编码器(SAVPE)
我们设计 SAVPE(Semantic-Activated Visual Prompt Encoder),通过 区域感兴趣(RoI)掩码 进行特征融合,采用 双分支架构:
- 激活分支:从 PAN(特征金字塔网络)提取多尺度特征,生成 低维度的提示感知权重。
- 语义分支:提取 提示无关的语义特征,并与激活分支进行聚合,生成最终的提示嵌入。
该方法在保持高性能的同时,计算复杂度 极低,适用于 实时推理。
无提示(Prompt-Free):惰性区域-提示对比(LRPC)
为了减少对 语言模型的依赖,我们提出 LRPC(Lazy Region-Prompt Contrast),通过 专用提示嵌入 和 内置大词汇表 进行目标识别:
- 仅匹配 锚点(anchor points) 对象,而非全图计算,提高效率。
- 通过 内置词汇表 检索类别,避免复杂的文本生成步骤,实现 低计算成本。
实验与性能
YOLOE 在多种开放提示机制下均表现出色,训练成本低,推理效率高。
- 在 LVIS 数据集上:
- YOLOE-v8-S 训练成本 降低 3 倍,推理速度 提升 1.4 倍(T4 GPU)和 1.3 倍(iPhone 12)。
- 相比 YOLO-Worldv2-S,YOLOE-v8-S 提高 3.5 AP。
- 在 COCO 迁移任务上:
- YOLOE-v8-M / L 比 YOLOv8-M / L 提高 0.4 / 0.6 APb 和 0.4 / 0.4 APm,训练时间减少近 4 倍。
我们希望 YOLOE 能成为 开放提示视觉任务 的强大基线,并推动该领域进一步发展。
传统检测与分割 传统的目标检测与分割方法主要在封闭集范式下运行。早期的两阶段框架 [4, 12, 15, 48],以 Faster RCNN [48] 为代表,通过引入区域提议网络(RPN)并结合感兴趣区域(ROI)的分类和回归来实现目标检测。同时,单阶段检测器 [10, 35, 38, 56, 72] 通过单一网络的网格预测优先考虑检测速度。YOLO 系列 [1, 21, 27, 47, 59, 60] 在该范式中发挥了重要作用,并被广泛应用于实际场景。此外,DETR [28] 及其变体 [28, 69, 77] 通过基于 Transformer 的架构去除了依赖启发式规则的组件,标志着检测领域的一次重大变革。
为了获得更精细的结果,现有的实例分割方法预测像素级的掩码,而非边界框坐标 [15]。其中,YOLACT [3] 通过结合原型掩码和掩码系数,实现了实时实例分割。基于 DINO [69],MaskDINO [29] 采用查询嵌入(query embedding)和高分辨率像素嵌入图来生成二值掩码。
文本提示的检测与分割 近年来,开放词汇目标检测(open-vocabulary object detection)[13, 25, 61, 68, 74–76] 主要关注通过对齐视觉特征与文本嵌入来检测新类别。例如,GLIP [32] 通过在大规模图文对数据上进行预训练,实现了目标检测与短语对齐的统一,并展现出强大的零样本(zero-shot)检测能力。DetCLIP [65] 通过丰富的描述增强概念学习,从而促进开放词汇学习。此外,Grounding DINO [37] 通过在 DINO 中集成跨模态融合,提升了文本提示与视觉表征的对齐能力。YOLO-World [5] 进一步展示了基于 YOLO 架构预训练小型检测器并赋予其开放识别能力的潜力。YOLO-UniOW [36] 在 YOLO-World 的基础上,利用自适应决策学习策略进行了改进。
类似地,多个开放词汇实例分割模型 [11, 18, 26, 45, 63] 通过先进的基础模型学习丰富的视觉-语义知识,以对新类别目标进行分割。例如,X-Decoder [79] 和 OpenSeeD [71] 共同探索了开放词汇检测与分割任务。APE [54] 提出了一个通用视觉感知模型,可通过各种文本提示对图像中的所有目标进行对齐和提示。

图 2. YOLOE 的概览,支持多样化开放提示机制的检测和分割。对于文本提示,我们设计了一种可重参数化的区域-文本对齐策略,以零推理和迁移开销提升性能。对于视觉提示,SAVPE 被用于在最小成本下编码视觉线索并增强提示嵌入。对于无提示设置,我们引入了懒惰区域-提示对比策略,通过检索高效地为所有识别的对象提供类别名称
视觉提示的检测与分割 尽管文本提示提供了通用描述,但某些目标仅靠语言难以描述,例如需要专业领域知识的对象。在这种情况下,视觉提示可以更灵活、更加具体地引导检测与分割,补充文本提示的不足 [19, 20]。OV-DETR [67] 和 OWL-ViT [41] 结合 CLIP 编码器来处理文本和图像提示。MQ-Det [64] 通过查询图像提供类别特定的视觉信息,以增强文本查询。DINOv [30] 将视觉提示作为上下文示例进行泛化和指向性视觉任务。T-Rex2 [20] 通过区域级对比对齐(region-level contrastive alignment)融合视觉和文本提示。
在分割方面,基于大规模数据的 SAM [23] 提出了一个灵活且强大的模型,可进行交互式和迭代式提示。SEEM [80] 进一步探索了如何利用更多类型的提示来进行目标分割。Semantic-SAM [31] 在语义理解和精细粒度检测方面表现出色,能够同时处理全景分割和部分分割任务。
无提示的检测与分割 现有方法在推理过程中仍依赖显式提示来进行开放集检测与分割。为了解决这一限制,一些研究 [33, 40, 49, 62, 66] 探索了如何结合生成式语言模型,以对所有检测到的目标生成描述。例如,GRiT [62] 通过文本解码器实现密集描述(dense captioning)与目标检测任务。DetCLIPv3 [66] 在大规模数据上训练了一个目标描述生成器,使模型能够生成丰富的标签信息。GenerateU [33] 利用语言模型以自由形式(free-form)的方式生成目标名称。
结论 据我们所知,除了 DINO-X [49] 之外,鲜有研究能在单一架构内实现多种开放提示机制下的目标检测与分割。然而,DINO-X 需要大量训练成本,并带来显著的推理开销,严重限制了其在实际边缘部署中的可行性。相比之下,我们的 YOLOE 旨在提供一个高效且统一的模型,实现实时性能与高效部署能力。
在本节中,我们详细介绍了 YOLOE 的设计。在 YOLOs(第 3.1 节)的基础上,YOLOE 通过 RepRTA(第 3.2 节)支持文本提示, 通过 SAVPE(第 3.3 节)支持视觉提示,并通过 LRPC(第 3.4 节)支持无提示场景。
如图 2 所示,YOLOE 采用典型的 YOLOs 架构 [1, 21, 47],包括骨干网络、PAN、回归头、分割头和目标嵌入头。
骨干网络和 PAN 负责提取图像的多尺度特征。对于每个锚点,回归头预测检测目标的边界框,分割头生成分割的原型和掩码系数 [3]。目标嵌入头的结构与 YOLOs 中的分类头相同,不同之处在于,最后一个 1×1 卷积层的输出通道数从封闭集场景中的类别数更改为嵌入维度。
同时,在给定文本和视觉提示的情况下,我们采用 RepRTA 和 SAVPE 将它们分别编码为归一化的提示嵌入 P。这些提示嵌入作为分类权重,并与锚点的目标嵌入 O 进行对比,以获取类别标签。该过程可形式化为:
Label = O · PT : R N×D × R D×C → R N×C , (1)
其中,N 表示锚点数,C 表示提示的数量,D 表示嵌入的特征维度。
在开放集场景中,文本与目标嵌入之间的对齐关系决定了类别识别的准确性。以往的研究通常引入复杂的跨模态融合来提升视觉-文本表示的对齐效果 [5, 37],但这些方法在处理大量文本时会带来较大的计算开销。
针对这一问题,我们提出了 可重参数化的区域-文本对齐(RepRTA) 策略,该策略通过可重参数化的轻量级辅助网络,在训练过程中增强预训练的文本嵌入,从而提高文本与锚点目标嵌入的对齐性,并且在推理和迁移时不会增加额外的计算成本。
具体来说,给定长度为 C 的文本提示 T,我们首先使用 CLIP 文本编码器 [44, 57] 计算预训练的文本嵌入:
P = TextEncoder(T)
在训练前,我们预先缓存数据集中所有文本的嵌入,因此在训练过程中可以移除文本编码器,从而不产生额外的计算成本。同时,如图 3.(a) 所示,我们引入了一个仅包含一个前馈块 [53, 58] 的轻量级辅助网络 fθ,其中 θ 为可训练参数,与封闭集训练相比,该网络的计算开销极低。该网络用于计算增强后的文本嵌入:
P = fθ(P) ∈ R^(C×D)
然后,我们在训练过程中利用该增强后的文本嵌入与锚点的目标嵌入进行对比,以提升视觉-语义对齐性。设 K ∈ R^(D×D′×1×1) 为目标嵌入头的最后一个卷积层的卷积核参数,输入特征为 I ∈ R^(D′×H×W),⊛ 表示卷积操作,R 表示 reshape 操作,则有:
Label = R^(D×H×W→HW×D)(I ⊛ K) · (fθ(P))^T (2)
此外,在训练完成后,该辅助网络可以被重参数化进目标嵌入头,使其变为与 YOLOs 相同的分类头。经过重参数化后,最后一层卷积的新的卷积核参数 K′ ∈ R^(C×D′×1×1) 可由以下公式计算:
K′ = R^(C×D→C×D×1×1)(fθ(P)) ⊛ K^T (3)
最终的预测可以通过 Label = I ⊛ K′ 计算得到,该结果与原 YOLO 架构完全一致,从而在部署和迁移到下游封闭集任务时不会增加额外的计算开销。
视觉提示用于通过视觉线索(如框和掩码)指示感兴趣的对象类别。此前的研究通常采用基于 Transformer 的设计 [20, 30],例如可变形注意力 [78],或额外的 CLIP 视觉编码器 [44, 67],但这些方法由于包含复杂的操作或高计算需求,在部署和效率方面存在挑战。

图 3. (a) RepRTA 中轻量级辅助网络的结构,由一个 SwiGLU FFN 块 [53] 组成。(b) SAVPE 的结构,由语义分支生成与提示无关的语义特征,以及激活分支提供分组的提示感知权重组成。因此,视觉提示嵌入可以通过它们的聚合高效地导出
针对这一问题,我们提出 语义激活的视觉提示编码器(SAVPE),用于高效处理视觉线索。该方法包含两个解耦的轻量级分支:
- 语义分支 输出与提示无关的语义特征(D 维),无需额外的视觉线索融合开销;
- 激活分支 通过与图像特征交互,以较低的计算成本生成分组的提示感知权重。
两者结合后,可以在极低的复杂度下生成信息丰富的提示嵌入。
如图 3.(b) 所示,在 语义分支 中,我们采用与目标嵌入头类似的结构。对于来自 PAN 的多尺度特征 {P3, P4, P5},我们分别应用两个 3×3 卷积层。在上采样后,特征被拼接并投影,以获得语义特征 S ∈ R^(D×H×W)。
在 激活分支 中,我们将视觉提示形式化为掩码,其中感兴趣区域的值为 1,其他区域的值为 0。然后,我们对其进行下采样,并使用 3×3 卷积计算提示特征 FV ∈ R^(A×H×W)。此外,我们通过卷积从 {P3, P4, P5} 计算图像特征 FI ∈ R^(A×H×W),并与 FV 进行融合。随后,FV 和 FI 被拼接,并用于输出提示感知权重 W ∈ R^(A×H×W),该权重在提示指示的区域内通过 softmax 进行归一化。
此外,我们将 S 的通道划分为 A 组,每组包含 D/A 个通道。第 i 组通道共享来自 W 第 i 个通道的权重 Wi:i+1。由于 A ≪ D,我们可以在低维度下处理视觉线索与图像特征,从而降低计算成本。最终的提示嵌入由两个分支的聚合计算得到:
P = Concat(G1, ..., GA); Gi = Wi:i+1 · S^T_(D/Ai:D/A(i+1)) (4)
最终,该提示嵌入可以与锚点的目标嵌入进行对比,以识别感兴趣类别的对象。
在无提示(prompt-free)场景下,模型需要在没有显式指导的情况下识别图像中所有具有名称的物体。以往的研究通常将这一任务形式化为一个生成问题,即利用语言模型为检测到的物体生成类别标签 [33, 49, 62]。然而,这种方法带来了显著的计算开销,例如 GenerateU [33] 采用了 2.5 亿参数的 FlanT5-base [6],而 DINO-X [49] 采用了 OPT-125M [73],这些语言模型远远无法满足高效性的需求。因此,我们将该任务重新定义为一个检索问题,并提出 Lazy Region-Prompt Contrast(LRPC) 策略。该策略通过从内置的大型词汇表中懒惰地(lazily)检索类别名称,以低成本方式为包含物体的锚点(anchor points)分配类别标签。该方法完全不依赖语言模型,同时兼顾了优越的效率和性能。
具体而言,在预训练的 YOLOE 模型基础上,我们引入了一个专门的提示嵌入(prompt embedding),并对其进行专门训练,使其能够识别所有物体,并将所有物体视为同一类别。同时,我们遵循 [16] 收集了一个包含各种类别的大型词汇表,并将其作为内置数据源用于检索。理论上,可以直接使用该词汇表作为 YOLOE 的文本提示,以识别所有物体。然而,这会带来较高的计算成本,因为需要将大量锚点的物体嵌入与众多文本嵌入进行对比。因此,我们使用专门的提示嵌入 Ps 来筛选出包含物体的锚点集合 O′,计算方式如下:
O′={o∈O ∣ o⋅PsT>δ}O' = \{ o \in O \ | \ o \cdot P_s^T > \delta \}O′={o∈O ∣ o⋅PsT>δ}
其中,O 表示所有锚点,δ 是用于过滤的阈值超参数。然后,仅对 O′ 中的锚点执行与内置词汇表的匹配,跳过对无关锚点的计算,从而进一步提高效率且无性能下降,促进了实际应用的可行性。
在训练过程中,我们遵循 [5] 的方法,为每个 mosaic 训练样本构建一个在线词汇表,并使用图像中的文本作为正标签。同时,依据 [21],我们采用任务对齐的标签分配策略,以匹配预测结果与真实标签。在分类任务中,使用二元交叉熵损失(binary cross-entropy loss);在回归任务中,采用 IoU 损失(IoU loss)和分布式焦点损失(distributed focal loss);在分割任务中,我们依据 [3],使用二元交叉熵损失来优化掩码(mask)。
模型:为了与 [5] 进行公平比较,我们在 YOLOE 中采用相同的 YOLOv8 结构 [21]。此外,为验证其在其他 YOLO 结构上的泛化能力,我们还在 YOLO11 [21] 进行实验。对于这两种架构,我们提供了小型(S)、中型(M)和大型(L)三个规模,以适应不同的应用需求。文本提示由预训练的 MobileCLIP-B(LT) [57] 文本编码器进行编码。我们默认使用 A = 16 在 SAVPE 结构中。
数据:我们遵循 [5],使用目标检测和目标定位数据集,包括 Objects365 (V1) [52] 和 GoldG [22](其中包含 GQA [17] 和 Flickr30k [43]),但不包括 COCO [34]。此外,我们利用先进的 SAM-2.1 [46] 模型,根据检测和目标定位数据集中的真实边界框(ground truth bounding boxes)生成伪实例掩码(pseudo instance masks)。这些掩码经过过滤和简化,以消除噪声 [9]。对于视觉提示数据,我们依据 [20],使用真实边界框作为视觉提示。在无提示任务中,我们复用相同的数据,但将所有物体标注为单一类别,以学习专门的提示嵌入。
训练:由于计算资源有限,与 YOLO-World 训练 100 轮不同,我们首先在 YOLOE 上使用文本提示训练 30 轮。随后,仅使用 2 轮 训练 SAVPE 以支持视觉提示,从而避免额外的高昂训练成本。最后,我们仅训练 1 轮 专门的提示嵌入,以支持无提示场景。在文本提示训练阶段,我们采用与 [5] 相同的训练设置。值得注意的是,YOLOE-v8-S / M / L 在 8 张 Nvidia RTX 4090 GPU 上的训练时间分别为 12.0 / 17.0 / 22.5 小时,相比 YOLO-World 训练成本降低 3 倍。在视觉提示训练阶段,我们冻结除 SAVPE 之外的所有部分,并采用与文本提示训练相同的训练设置。为了实现无提示能力,我们使用相同的数据训练专门的嵌入。实验表明,YOLOE 不仅训练成本低,而且在零样本(zero-shot)任务中表现优秀。此外,为了验证 YOLOE 在下游任务中的良好迁移能力,我们在 COCO [34] 数据集上进行微调,以支持封闭集(closed-set)目标检测和目标分割。
我们实验了两种不同的微调策略:
- 线性探测(Linear probing):仅分类头(classification head)可训练。
- 全参数微调(Full tuning):所有参数均可训练。
- 在 线性探测(Linear probing)中,我们对所有模型训练 10 轮。
- 在 全参数微调(Full tuning)中:
- 小型模型(YOLOE-v8-S / 11-S)训练 160 轮。
- 中型和大型模型(YOLOE-v8-M / L 和 YOLOE-11-M / L)训练 80 轮。

表 1. 在 LVIS 上的零样本检测评估。为了公平比较,在 LVIS minival 集合上以零样本方式报告固定 AP。训练时间针对文本提示,基于 [32, 65] 的 8 个 Nvidia V100 GPU 以及 YOLO-World 和 YOLOE 的 8 个 RTX4090 GPU。FPS 分别在 Nvidia T4 GPU 上使用 TensorRT 和在 iPhone 12 上使用 CoreML 进行测量。结果提供文本提示 (T) 和视觉提示 (V) 类型。关于训练数据,OI、HT 和 CH 分别表示 OpenImages [24]、HierText [39] 和 CrowdHuman [51]。OG 表示 Objects365 [52] 和 GoldG [22],G-20M 表示 Grounding-20M [50]
评测指标:
- 在文本提示评测中,我们使用基准测试(benchmark)中的所有类别名称作为输入,遵循开放词汇目标检测(open-vocabulary object detection)任务的标准协议。
- 在视觉提示评测中,依据 [20],对于每个类别,我们随机采样 N = 16 张训练图像,利用其真实边界框提取视觉嵌入,并计算平均提示嵌入。
- 在无提示评测中,我们遵循 [33] 的相同协议,使用预训练的文本编码器 [57],将开放式预测映射到与基准测试类别名称语义相似的类别。与 [33] 不同,我们简化了映射过程,仅选择最置信的预测,省去了 top-k 选择 和 束搜索(beam search)。
- 我们使用 [16] 提供的标签列表作为内置大型词汇表,共包含 4,585 个类别名称,并默认采用 δ = 0.001 作为 LRPC 的阈值。
- 在所有三种提示类型下(文本提示、视觉提示和无提示),我们均在 LVIS [14] 数据集上进行零样本(zero-shot)评估,该数据集包含 1,203 个类别,默认报告 Fixed AP [7](在 LVIS minival 子集上)。
- 在 COCO 迁移任务中,我们遵循 [1, 21],使用标准 AP 进行评测。
- 此外,我们在 Nvidia T4 GPU(使用 TensorRT) 和 iPhone 12(使用 CoreML) 上测量所有模型的 FPS(帧率)。
如表 1 所示,在 LVIS 数据集上的检测任务中,YOLOE 在不同模型规模下展现了高效性和零样本性能之间的良好权衡。此外,我们还注意到这些结果是在更短的训练时间内获得的,例如,相比 YOLO-Worldv2,训练速度提升了 3×。具体而言,YOLOE-v8-S / M / L 分别比 YOLOv8-Worldv2-S / M / L 提高了 3.5 / 0.2 / 0.4 AP,同时在 T4 和 iPhone 12 上的推理速度分别加快了 1.4× / 1.3× / 1.3× 和 1.3× / 1.2× / 1.2×。此外,在具有挑战性的稀有类别上,YOLOE-v8-S 和 YOLOE-v8-L 取得了 5.2% 和 7.6% APr 的显著提升。
此外,相较于 YOLO-Worldv2,尽管 YOLOE-v8-M / L 的 APf 略低,但这一性能差距主要源于 YOLOE 在一个模型中集成了检测与分割任务。这种多任务学习引入了一种权衡,影响了频繁类别的检测性能,如表 5 所示。此外,基于 YOLO11 结构的 YOLOE 也展现了良好的性能与效率。例如,YOLOE-11-L 在 AP 上与 YOLO-Worldv2-L 相当,但在 T4 和 iPhone 12 上的推理速度显著提升 1.6×,突出了 YOLOE 的强泛化能力。
此外,引入视觉提示进一步增强了 YOLOE 的多功能性。与 T-Rex2 相比,YOLOE-v8-L 在 APr 和 APc 上分别提升了 3.3 和 0.9,同时训练数据减少了 2×(3.1M vs. 1.4M),训练资源大幅降低(16 张 Nvidia A100 GPU vs. 8 张 Nvidia RTX4090 GPU)。此外,对于视觉提示,我们仅对 SAVPE 进行 2 轮训练,而其他部分保持冻结状态,我们注意到它在 APr 和 APc 方面能够与文本提示的效果相当。这表明视觉提示在文本提示难以准确描述的低频对象中具有良好的效果,这一现象与 [20] 中的观察结果类似。
此外,在分割任务上,我们在 LVIS 验证集上评估了 YOLOE,并在表 2 中报告了标准 APm。结果表明,YOLOE 通过结合文本提示和视觉提示展现了出色的性能。具体而言,YOLOE-v8-M / L 在零样本设定下分别达到了 20.8 和 23.5 APm,显著优于在 LVIS-Base 数据集上进行微调的 YOLO-Worldv2-M / L,分别提高了 3.0 和 3.7 APm。这些结果充分证明了 YOLOE 的优越性。
如表 3 所示,在无提示设定下,YOLOE 仍然展现了卓越的性能与效率。具体而言,YOLO-v8-L 取得了 27.2 AP 和 23.5 APr,相比于使用 Swin-T 骨干网络的 GenerateU,分别提高了 0.4 AP 和 3.5 APr,同时参数量减少 6.3×,推理速度提升 53×。

表 2. 在 LVIS 上的分割评估。我们在 LVIS val 集合上评估所有模型,并报告标准 APm。YOLOE 支持文本 (T) 和视觉线索 (V) 作为输入。† 表示预训练模型在 LVIS-Base 数据上对分割头进行了微调。相比之下,我们以零样本方式评估 YOLOE,在训练期间未使用 LVIS 中的任何图像

表 3. 在 LVIS 上的无提示评估。在 LVIS minival 集合上报告固定 AP,遵循 [33] 中的协议。FPS 在 Nvidia T4 GPU 上使用 Pytorch [42] 进行测量
这表明 YOLOE 通过将开放式问题重构为大词汇表的检索任务,提高了泛化能力,使其能够在无需显式提示的情况下覆盖更广泛的类别。这一特性也增强了 YOLOE 在实际应用中的实用性,使其能够适用于更广泛的现实场景。
如表 4 所示,在 COCO 数据集上进行下游封闭集检测和分割任务的迁移时,YOLOE 在有限训练周期下展现了良好的性能。在两种微调策略下均取得了良好效果。

表 4. 在 COCO 上的下游迁移。我们在 COCO 上对 YOLOE 进行微调,并报告检测和分割的标准 AP。我们实验了两种实用的微调策略,即线性探测和完全微调

表 5. 以文本提示为视角的 YOLOE 路线图。在 LVIS minival 集合上以零样本方式报告标准 AP。FPS 分别在 Nvidia T4 GPU 和 iPhone 12 上使用 TensorRT (T) 和 CoreML (C) 进行测量
具体而言,在 线性探测(Linear probing)模式下,仅使用不到 2% 的训练时间,YOLOE-11-M / L 就能达到 YOLO11-M / L 80% 以上的性能,突出了 YOLOE 的强迁移能力。在 全量微调(Full tuning)模式下,YOLOE 可以在有限的训练成本下进一步提升性能。例如,在训练周期减少近 4× 的情况下,YOLOE-v8-M / L 分别比 YOLOv8-M / L 提高了 0.4 APm 和 0.6 APb。在 3× 更少的训练时间内,YOLO-v8-S 也在检测和分割任务上取得了比 YOLOv8-S 更好的性能。这些结果充分证明了 YOLOE 可以作为下游任务迁移的强大起点。
我们进一步提供了 YOLOE 设计有效性的深入分析。实验基于 YOLOE-v8-L 进行,并在 LVIS minival 数据集上报告标准 AP 作为零样本评估的默认指标。

(a)

(b)

(c)

(d)
图 4. (a) 在 LVIS 上的零样本推理。(b) 使用自定义文本提示的结果,其中“白色帽子、红色帽子、白色汽车、太阳镜、胡子、领带”作为文本提示提供。(c) 使用视觉提示的结果,其中红色虚线边界框作为视觉线索。(d) 无提示场景下的结果,其中未提供明确的提示。请参阅补充材料以获取更多示例。

表6:SAVPE的有效性

表7:LRPC的有效性
YOLOE 的演进路径 我们在表 5 中概述了从基线模型 YOLOv8-Worldv2-L 到 YOLOE-v8-L 的逐步优化过程。初始基线 AP 为 33.0%,由于计算资源有限,我们首先将训练周期减少至 30,导致 AP 降至 31.0%。此外,我们改进了负样本的采样方式,而不是使用空字符串作为 grounding 数据的负文本,我们参考 [65] 维护了一个全局词典,从训练数据中选择出现超过 100 次的类别名称作为负样本提示,带来了 0.9% AP 的提升。
随后,我们移除了跨模态融合,以避免视觉-文本特征交互带来的计算开销,这导致 1.9% AP 的下降,但在 T4 和 iPhone 12 上的推理速度分别提升 1.28× 和 1.23×。为弥补这一损失,我们采用了更强的 MobileCLIP-B(LT) 文本编码器 [57],以获取更优的预训练文本嵌入,AP 恢复至 31.5%。进一步地,我们引入 RepRTA 以增强锚点对象与文本嵌入之间的对齐,带来了 2.3% AP 的提升,且无额外推理开销,验证了其有效性。最后,我们加入了分割头,并对 YOLOE 进行检测与分割的联合训练,虽然这导致 0.2% AP 和 0.9 APf 的下降,但 YOLOE 由此获得了分割任意对象的能力。
SAVPE 的有效性 为了验证 SAVPE 在视觉输入方面的有效性,我们去除激活分支,仅使用 Mask Pooling 进行语义特征聚合,并在表 6 中报告了对比结果。SAVPE 相比“Mask Pool” 提高了 1.5 AP,因为“Mask Pool”忽略了提示区域内不同位置的语义重要性,而激活分支有效地建模了这种差异,从而改进了语义特征聚合,并提升了提示嵌入的对比度。此外,我们还研究了激活分支中不同组数 A 的影响。实验表明,即使 A = 1 也能提高性能,而在 A = 16 时达到 31.9 AP,实现了良好的平衡,其中更多的组数仅带来微小的性能差异。
LRPC 的有效性 在无提示设定下,我们在表 7 中比较了不同策略的性能。实验结果表明,LRPC 相比直接使用内置大词汇表作为文本提示,可在性能相同的情况下,分别提升 YOLOE-v8-S / L 1.7× / 1.3× 的推理速度。
我们对 YOLOE 在四种场景下进行了可视化分析:(1) 在 LVIS 上的零样本推理,如图 4.(a) 所示,其中类别名称作为文本提示;(2) 文本提示,如图 4.(b) 所示,可以输入任意文本作为提示;(3) 视觉提示,如图 4.(c) 所示,可以绘制视觉线索作为提示;(4) 无明确提示,如图 4.(d) 所示,模型识别所有物体。我们可以看到,YOLOE 在这些多样化的场景中表现良好,能够准确检测和分割各种物体,进一步展示了其在各种应用中的效用和实用性。
在本文中,我们提出了 YOLOE,这是一个高效的单一模型,能够无缝整合物体检测和分割,适应多样化的开放提示机制。具体而言,我们引入了 RepRTA、SAVPE 和 LRPC,使 YOLO 能够以较低的成本和良好的性能处理文本提示、视觉线索和无提示范式。得益于这些,YOLOE 在各种提示方式下拥有强大的能力和高效率,实现了实时的“看见一切”。我们希望它能作为一个强大的基准,激励进一步的进步。
[培训]内核驱动高级班,冲击BAT一流互联网大厂工作,每周日13:00-18:00直播授课
最后于 2025-3-19 17:54
被kanxue编辑
,原因: