多模态视觉RAG

本文探索了 Visual RAG 的激动人心的世界，探索了它的意义以及它如何彻底改变传统的计算机视觉流程。

从了解 RAG 的基础知识到它在视觉任务和监控中的具体应用，我们将研究这项技术如何为更先进、更高效的 AI 系统铺平道路。

1、什么是检索增强生成 (RAG)？

为了更好地理解检索增强生成 (RAG) [1]，首先定义“提示”很有用。

RAG 将提示的原理与信息检索相结合。[2]

提示是一种通过提供特定指令或查询来指导基础模型（例如多模态大型语言模型 (MLLM)）执行任务的技术。

在视觉领域，视觉提示 [3] 使用视觉输入（例如图像、线条或点）来指示大规模视觉模型执行特定任务，通常包括模型未明确训练的任务。

图 1 展示了如何将可提示模型用作构建更大系统的构建块，其中 🔑 关键见解是可以通过视觉提示将模型连接（或链接在一起）：YOLO-World 输出可用作 SegmentAnything 的视觉提示。

图 1. YOLO-World 输出（即边界框）用作 SegmentAnything 的输入（即视觉提示）

因此，提示为构建 RAG 等更高级技术提供了基础。

当你提示 GenAI 模型（例如 GPT-4 或 LLaVA [5]）时，获得的答案来自（零样本）模型 [4]，该模型受其信息截止值（或其自身的训练数据，数量和质量）的限制。因此，模型的知识是静态的，并且不会在某个点之后更新。

检索增强生成 (RAG) 使系统能够检索相关上下文，然后将其与原始提示相结合。此增强提示用于查询模型，提供原本无法获得的数据。

现在，让我们看一下图 2，以分解典型的 RAG 工作流程：

图 2. RAG 的三个构建块：检索、增强和生成

如图 3 所示，视觉RAG 将检索增强生成 (RAG) 的概念应用于视觉任务。

传统 RAG 处理文本输入并检索相关文本信息，而可视化 RAG 处理图像（有时还附带文本），并检索视觉数据或图像-文本对。

编码过程从文本编码器转移到视觉编码器（有时为此目的使用基础模型，如 CLIP [6]），知识库（即矢量数据库）成为视觉信息而不是文本文档的存储库。

图 3. 比较用于语言的 RAG 与用于视觉模型的 RAG

最后，Visual RAG 的增强功能将检索到的视觉数据与输入相结合，使其能够生成各种输出，包括文本描述、修改后的图像或多模态内容。

Visual RAG 对于需要将视觉理解与外部知识相结合的任务特别强大💪。例如，它可以通过从其知识库中检索这些边缘情况的相关视觉和文本信息来帮助视觉系统识别稀有物体。

图 4. 何时使用 RAG 而不是微调

在生产中构建视觉系统时，一个常见问题是决定使用 RAG 还是微调 [7]。如图 4 所示，答案不是二元的，而是取决于许多因素，例如：

💡 根据经验，RAG 是一种理想的入门策略。之后，如果模型的任务变得太窄或太具体，微调可能是下一步。

那么，为什么不两者兼而有之呢？ 🤔

对于某些用例，可以将这两种方法结合起来：

让我们探索用于视频理解的多模态 Visual RAG 管道的具体实现（如图 5 所示）。此示例演示了这些技术如何协同工作以从视频数据中提取有意义的见解。

图 5. Visual RAG 应用于视频理解系统

让我们分解一下系统组件及其交互：

图 5 所示的系统是如何连接或链接计算机视觉中的基础模型的一个例子。

BimAnt翻译整理，转载请标明出处