Apoorva Joshi：多模态AI Agent实战，打通图文信息壁垒 - ListenHub

Cover

Apoorva Joshi：多模态AI Agent实战，打通图文信息壁垒

leo wang

1

7-4

MongoDB专家Apoorva Joshi分享了从零构建多模态AI Agent的完整过程，重点阐述了AI Agent的核心概念、与传统LLM和REG的区别、其核心组件以及处理混合媒体内容（特别是图文混排文档）的挑战与解决方案。通过使用MongoDB作为向量数据库和Google Gemini进行多模态推理，该分享深入探讨了VLM架构如何有效弥合模态鸿沟，并展示了多模态AI Agent的实际工作流程及未来应用潜力。

AI Agent核心概念与构成

AI Agent定义与工作原理：利用大语言模型（LLM）作为核心思考和推理系统，分析问题、理解意图、拆解任务、制定计划，并通过反馈机制进行自我调整。
核心组件：由感知（理解外部输入）、规划与推理（LLM主导）、工具（与外部世界互动）和记忆（存储和回忆信息）构成。
规划模式：包括无反馈规划（COT）和有反馈规划（REACT），其中REACT通过动态调整策略适应任务执行。

AI Agent的独特优势与应用场景

与LLM、REG的区别：AI Agent拥有自主规划和行动能力，能通过调用工具与现实世界交互，处理复杂动态任务，并具备反思和自我修正能力，超越了简单提问和减式增强生成（REG）的局限。
复杂任务应用：适用于个性化旅行规划、模拟科学实验设计、后台数据分析、创意性工作及需要长期个性化服务的任务。
使用考量：需权衡成本、延迟及非确定性输出等现实问题，在任务复杂、对延迟容忍度高或需要长期个性化服务时优先考虑。

多模态AI模型与混合文档处理挑战

多模态AI模型：旨在处理和理解不同类型输入数据（文本、图像、音频、视频），生成跨模态输出，包括多模态潜入模型和多模态大语言模型（MLM）。
混合模态文档处理挑战：处理包含文本、图像和图表的大型文档语料库时，传统方法存在信息丢失、模型集成难度大、模态鸿沟（不同模态数据在向量空间中距离过远）和上下文丢失等问题。
对象识别与多模态嵌入局限：尽管通过多模态嵌入模型处理文本块、图像和表格有所改进，但仍依赖复杂元素提取，且面临模态鸿沟问题。

VLM架构：弥合模态鸿沟的关键

VLM（视觉语言模型）优势：使用同一个编码器同时处理文本和视觉特征，有效弥合模态鸿沟，确保文本和视觉信息在向量空间中靠近。
简化处理流程：将文档页面截图后，输入VLM模型生成统一嵌入向量，存储到MongoDB等向量数据库中进行检索，节省预处理时间并保留原始图文空间布局。
具体应用：Voyage AI模型作为VLM架构的多模态嵌入模型示例，展示了其在处理图文混合文档上的高效性。

多模态AI Agent工作流程与未来展望

工作流解析：用户问题由代理转发给多模态LLM，LLM调用向量搜索工具获取相关截图，代理执行搜索并加载截图，所有信息提交LLM推理生成答案，最终返回并更新短期记忆。
短期记忆机制：通过会话ID组织和存储对话历史，确保多轮对话的连贯性。
未来展望：多模态AI Agent在科研、金融、医疗等领域具有巨大潜力，预示着AI技术将实现更多突破。

Outline

MongoDB专家Apoorva Joshi分享了从零构建多模态AI Agent的完整过程，重点阐述了AI Agent的核心概念、与传统LLM和REG的区别、其核心组件以及处理混合媒体内容（特别是图文混排文档）的挑战与解决方案。通过使用MongoDB作为向量数据库和Google Gemini进行多模态推理，该分享深入探讨了VLM架构如何有效弥合模态鸿沟，并展示了多模态AI Agent的实际工作流程及未来应用潜力。

AI Agent核心概念与构成

AI Agent定义与工作原理：利用大语言模型（LLM）作为核心思考和推理系统，分析问题、理解意图、拆解任务、制定计划，并通过反馈机制进行自我调整。
核心组件：由感知（理解外部输入）、规划与推理（LLM主导）、工具（与外部世界互动）和记忆（存储和回忆信息）构成。
规划模式：包括无反馈规划（COT）和有反馈规划（REACT），其中REACT通过动态调整策略适应任务执行。

AI Agent的独特优势与应用场景

与LLM、REG的区别：AI Agent拥有自主规划和行动能力，能通过调用工具与现实世界交互，处理复杂动态任务，并具备反思和自我修正能力，超越了简单提问和减式增强生成（REG）的局限。
复杂任务应用：适用于个性化旅行规划、模拟科学实验设计、后台数据分析、创意性工作及需要长期个性化服务的任务。
使用考量：需权衡成本、延迟及非确定性输出等现实问题，在任务复杂、对延迟容忍度高或需要长期个性化服务时优先考虑。

多模态AI模型与混合文档处理挑战

多模态AI模型：旨在处理和理解不同类型输入数据（文本、图像、音频、视频），生成跨模态输出，包括多模态潜入模型和多模态大语言模型（MLM）。
混合模态文档处理挑战：处理包含文本、图像和图表的大型文档语料库时，传统方法存在信息丢失、模型集成难度大、模态鸿沟（不同模态数据在向量空间中距离过远）和上下文丢失等问题。
对象识别与多模态嵌入局限：尽管通过多模态嵌入模型处理文本块、图像和表格有所改进，但仍依赖复杂元素提取，且面临模态鸿沟问题。

VLM架构：弥合模态鸿沟的关键

VLM（视觉语言模型）优势：使用同一个编码器同时处理文本和视觉特征，有效弥合模态鸿沟，确保文本和视觉信息在向量空间中靠近。
简化处理流程：将文档页面截图后，输入VLM模型生成统一嵌入向量，存储到MongoDB等向量数据库中进行检索，节省预处理时间并保留原始图文空间布局。
具体应用：Voyage AI模型作为VLM架构的多模态嵌入模型示例，展示了其在处理图文混合文档上的高效性。

多模态AI Agent工作流程与未来展望

工作流解析：用户问题由代理转发给多模态LLM，LLM调用向量搜索工具获取相关截图，代理执行搜索并加载截图，所有信息提交LLM推理生成答案，最终返回并更新短期记忆。
短期记忆机制：通过会话ID组织和存储对话历史，确保多轮对话的连贯性。
未来展望：多模态AI Agent在科研、金融、医疗等领域具有巨大潜力，预示着AI技术将实现更多突破。

Script

子墨: 咱们很多人啊，可能一听AI代理，脑子里想的就是那种更聪明一点的聊天机器人。speaker2，你能不能给我们好好捋一捋，一个真正的AI代理，跟我们平时用的那些问答机器人或者RAG系统，它到底有啥本质区别，牛在哪儿呢？

林溪: 哎呀，你可算是问到点子上了！最大的不一样就在这儿：聊天机器人啊，或者RAG系统，说白了，它就是个“问答机”。你问一句，它从自己的知识库里扒拉扒拉，把答案给你整出来。可AI代理呢，它的核心是个“行动派”！它的大脑是个大语言模型，用来琢磨事儿、做规划。然后它能把一个特别复杂的活儿，比如“帮我规划个北京周末游”，给你拆成一小步一小步的，接着就能去调动各种真实工具来干活儿了，什么查航班API啊，订酒店网站啊，甚至发现某个航班没票了，它还能自己琢磨琢磨，哎，换个思路，调整计划！

子墨: 哦，懂了懂了，这代理就是个“实干家”啊！那具体到咱们生活里，啥时候这种“自己想辙、自己动手”的能力就变得没它不行了呢？你给咱们举个例子呗，啥时候咱们就得优先考虑这AI代理，而不是那些简单的RAG系统了？

林溪: 那可不！比如说啊，你想查“明朝的历史”，一个RAG系统能给你一份详详尽尽的资料，这没毛病，挺好。但如果你想“订一张明天去北京的机票，还得靠窗的座位”，RAG就直接歇菜了，因为它压根儿没法跟航空公司的订票系统打交道。这时候，就是AI代理大显身手的时候了！它能明白你的意思，找到订票工具，帮你查航班，选座位，甚至连支付都能给你搞定！所以啊，咱们遇到的任务一旦超越了光查信息，需要跟真实世界“互动”起来的时候，AI代理的价值就蹭蹭蹭地往上涨了。那话说回来，要造出这么个厉害的代理，它肚子里到底都藏着哪些宝贝零件呢？这就跟咱们想搞清楚一辆车咋跑起来的，得先掀开引擎盖瞧瞧一个道理。

子墨: 这比喻绝了！那咱们就顺着这个思路往下聊。如果把AI代理比作一个人啊，它的“感知”、“规划”、“工具”和“记忆”这四个核心部件，分别对应咱们人类的啥能力呢？speaker2，你给咱们掰开揉碎了讲讲呗。

林溪: 没问题。咱们先说“感知”，这就跟咱们的眼睛耳朵一样，它负责接收外面的信息，比如你给它的指令啊，或者周围环境变了啥的。然后是“规划与推理”，这可是代理的“大脑中枢”，也就是大语言模型待的地儿。它就是用来琢磨事儿，制定作战计划的。这里头有个特别重要的框架，叫ReAct，就是Reason and Act，边想边干，干完了再看看结果，不对劲儿再调整，这简直就是咱们人类解决问题的翻版啊！第三个是“工具”，这就是代理的“手和脚”了，什么调用API啊，查数据库啊，上网逛逛啊，都是它干的。最后呢，是“记忆”，这能让代理记住之前聊过啥，有过啥经验，这样它就能越来越懂你，服务也越来越贴心了。

子墨: 听你这么一说，这个“工具”组件简直是核心中的核心啊，它可是让代理真正能动起来的关键！但咱们从开发者的角度来看，要让一个语言模型，它能准确无误地理解，并且调用一个外部的API或者数据库，这里头最头疼的事儿是啥？咱们是怎么能保证它不会“会错意”或者“用错力”呢？

林溪: 你真是问到点子上了！最大的挑战就在这儿：语言模型这玩意儿啊，它本身就是基于概率的，你不可能给它打百分之百的包票，说它每次都能理解得一模一样。所以啊，咱们就得给它准备一份清清楚楚、明明白白的“工具使用手册”，专业点儿说呢，就叫Schema。这份手册通常用JSON格式来写，里头会把这个工具叫啥名字、它能干啥、需要输哪些参数、每个参数是啥类型，都给你定义得明明白白。就像查天气的工具，手册上就写明了得输“城市”和“日期”这两个。有了这份滴水不漏的说明书，LLM用错工具的概率可就直接降到最低了。

林溪: 说得对极了！你看，通过这么一顿精心设计，咱们就搭出了一个能感知、会思考、能动手、还能记事的代理。但是啊，咱们聊到现在，说的都还是文本层面的事儿。可现实世界是啥样的？那是花花绿绿、有声有色的啊！这就把咱们引到了AI代理发展的下一个大招：多模态！

子墨: 咱们来脑补一个特别具体的场景：一个金融分析师，他得赶紧看懂一份上百页的上市公司年度财报，里头全是密密麻麻的文字、各种复杂的财务图表，还有产品图片。speaker2，你说啊，如果用一个传统的、只会看字的AI去分析这份财报，它会“错过”哪些最要命的关键信息？

林溪: 哎呀，它会错过几乎所有最值钱的、最核心的洞察！比如啊，它能读到文字里写着“本季度营收显著增长”，但它就看不到旁边那张柱状图里头，那些精确的增长数字，还有不同业务线到底谁涨得多谁涨得少，这些细节它全瞎了。它能读到产品介绍，可它根本就理解不了那张展示产品核心功能的设计图，就跟看天书一样。文字和图表之间的空间关系啊，上下文联系啊，这些“看得见”的信息，全部都丢光了！它最后拿到的，只是一堆被抽离了灵魂的文字。

子墨: 这种信息丢失听着就让人心惊肉跳啊！我听说过去有人尝试用一种“缝合怪”式的方法来解决这事儿，比如说，用一个模型专门识别图表，另一个模型专门OCR文字，然后再把结果硬生生拼在一起。这种方法的根本问题到底病在哪儿了？为啥说它就没法真正迈过这道“模态鸿沟”呢？

林溪: “缝合怪”这个词，简直是太形象了！它的根本问题就在于啊，不同模型处理完的信息，它们都是“死”的。文字被它转成一串向量，图片又被它转成另一串向量，结果呢，这些信息在模型的理解空间里，可能相距十万八千里，完全不搭嘎。这就好比一个只懂中文的人和一个只懂英文的人，各自给你描述同一幅画，然后你把他们的两段描述放在一起，它们之间压根儿就没搭上线，没建立起真正的关联。这就是咱们说的“模态鸿沟”了，它直接导致你后续的检索和分析效果大打折扣。

林溪: 可不是嘛，这种“缝合怪”模式啊，它又麻烦又费劲儿，效率还低下，根本就没法真正理解图文之间那种内在的联系。不过幸运的是，最近几年啊，出现了一种革命性的新架构，它用一种特别巧妙、特别优雅的办法，把这个问题给搞定了，简直是彻底改变了多模态文档处理的“游戏规则”！

子墨: 刚才咱们可是狠狠地吐槽了一番传统“缝合怪”方法的种种弊端，那这个被称为VLM的新架构，它到底施展了什么“魔法”，能够这么漂亮地解决“模态鸿沟”这个核心难题呢？

林溪: 它的魔法啊，就俩字儿——“统一”！你想象一下，过去咱们要把文字和图片信息存到数据库里，那简直就像要把水和油混在一起，难上加难！可VLM，也就是视觉语言模型，它就像一个神奇的乳化剂。它用同一个编码器，同时去“看”图片和“读”文字，然后把这两者完美地融合成分子级别的“奶油”——也就是一个统一的、包含了所有图文信息的向量。整个流程呢，从对文档页面进行“截图”，到生成这个统一的向量，那可真是一步到位，干脆利落！

子墨: “截图”这个操作听起来特别直接。但这立马就引出了一个新问题：如果一份文档的内容跨越了两页，比如说一个特大的表格被硬生生分在了两页上，那截图会不会把上下文给咔嚓断了？咱们是咋处理这种跨页信息的呢？

林溪: 这确实是个很现实的问题，咱们可以通过一些小技巧来缓解。比如说，在截图的时候，让相邻的页面稍微有点重叠区域，或者用更聪明的算法，先识别出逻辑上的内容区块，再进行截图。那现在呢，咱们理解了VLM这个核心技术，终于能把这些零件都给组装起来了，咱们一起来瞧瞧，一个现代化的多模态AI代理，在真实场景下，它到底是怎么一步步把那些复杂问题给啃下来的。

子墨: 行了，现在咱们直接上干货，进入实战环节！咱们还是拿那份让人头大的年度财报来说事儿。假设我作为用户，我就问这个多模态代理：“根据文档中关于市场份额的饼图，我们最大的竞争对手是谁？” speaker2，你给咱们一步步地，把这中间的门道都给拆解开来，说说到底发生了啥？

林溪: 来咯！第一步，你问的这个问题“根据饼图，谁是最大竞争对手”呢，就直接发给了咱们的代理。第二步，代理的“大脑”——LLM，它可聪明了，一琢磨这问题，就知道得找个工具来帮忙查信息了。第三步，它立马决定，要用“多模态向量搜索工具”。第四步，这个工具呢，拿着你这个问题，在它已经存好的、包含了所有财报页面“截图”的向量数据库里一顿扒拉，咔嚓一下就找到了最匹配的那张包含市场份额饼图的页面截图。第五步，代理根据搜索结果，从云存储里把这张截图的原始图片给加载出来。最后一步，也是最绝的一步，代理会把这张饼图的图片和你最初的问题，一起打包发给一个多模态大模型，让它“看着图，读着问题”来给出最终答案。

子墨: 这个流程简直是清晰明了！那现在，我这头刚得了答案，立马又追问一句：“那他们的主要产品是什么？” 这时候啊，代理的“短期记忆”组件它是怎么发挥作用的，能让它知道“他们”指的到底是谁，而且还能保证咱们的对话能一直顺畅地聊下去呢？

林溪: 这可就得靠咱们的“短期记忆”了！在咱们第一轮对话刚开始的时候，系统就给你创建了一个专属的会话ID。咱们刚才所有的你问我答，包括问题啊，它找到的截图啊，最终的答案啊，统统都给它打包绑定到这个ID上了。所以啊，等你追问“那他们的主要产品是什么？”的时候，代理就会调取这个ID下的历史记录，立马就心知肚明了，“他们”指的就是刚才答案里那个“最大的竞争对手”！这样，它就能带着这个前因后果，去文档的其他地方给你扒拉相关产品信息了。

林溪: 通过这一整套完整的实战演练，咱们是不是都看到了一个现代多模态AI代理，它到底有多么牛掰的能力！它可不仅仅是光是技术的简单堆砌，它更是一种全新的跟信息打交道的方式。这才是真真正正地，把图文信息之间的那堵墙给彻底打通了，让AI也能像咱们一样，用一个统一的视角去理解这个复杂的世界。这可真是让咱们对未来充满了无限的遐想和期待啊！