苹果ReALM：Siri学会“看懂”屏幕，AI性能超越GPT-4

Listener_799314

9-10

原野: 很多人都觉得，在AI这波大浪潮里，苹果好像总是慢半拍。但最近，他们悄悄发了一篇论文，里面提到的一个新模型，在某些特定任务上，性能居然超越了GPT-4。

晓曼: 嗯，这事儿确实挺有意思的。这篇论文叫ReALM，简单来说，它要干的事就是给Siri装上一双“火眼金睛”，让它不只能听懂你说话，还能真正“看见”并且理解你手机屏幕上显示的内容。

原野: 等等，“看见”屏幕上的内容？这和我们现在用语音助手有什么本质区别吗？

晓曼: 区别太大了。现在的语音助手，你跟它说话，它是在一个相对封闭的系统里理解你的指令。但ReALM这个模型，它的核心突破是能解决“非对话实体”的指代问题。

原野: “非对话实体”？这听起来有点专业。

晓曼: 其实不复杂。你想，你屏幕上看到的那些图标、按钮、文字，这些就是“屏幕实体”。还有些在后台运行，你看不见的服务，比如定位，就是“后台实体”。以前的AI模型很难把你的话和这些东西关联起来。

原野: 我明白了。所以ReALM就是要把我的语音指令，和我屏幕上看到的东西，以及手机后台正在运行的东西，三者打通。

晓曼: 没错。它的实现方式也很巧妙，就是把屏幕上乱七八糟的视觉信息，通过一种特殊的编码方式，转化成大模型能读懂的纯文本。这样一来，Siri就能精准理解，当你说“就这个”的时候，你指的到底是屏幕上的哪个按钮。

原野: 所以，这个模型的实际表现怎么样？真的像开头说的那么厉害吗？

晓曼: 论文里的数据确实很惊人。苹果把ReALM模型和GPT-3.5、GPT-4做了比较。结果发现在处理屏幕内容理解这类任务时，哪怕是最小版本的ReALM，性能也跟GPT-4差不多了。而参数量更大的版本，是显著超越了GPT-4。

原野: 哇，这可有点颠覆认知了。也就是说，苹果虽然没去卷那个“通用大模型”的竞赛，但在自己的一亩三分地里，通过专一的微调，做出了更高效、更厉害的东西。

晓曼: 对，这就是苹果一贯的思路。他们不追求在所有领域都拿第一，但追求在自己的生态里做到体验最好。过去我们觉得所谓的AI手机，卖点都很虚，比如AI拍照美颜、AI整理相册，这些功能都不足以让用户下决心换手机。

原野: 有点意思。那你是说，如果Siri真的能看懂屏幕，这就可能成为那个决定性的“杀手级”功能？

晓曼: 我觉得很有可能。这已经不是应用层的小打小闹了，这是交互方式的根本性改变。你想想，如果未来你可以直接对手机说“帮我在那个外卖App里，订刚才那家店的招牌套餐”，然后手机就自动帮你一步步操作完成。这个体验是不是完全不一样了？

原野: 那确实是颠覆性的。等于把所有App的操作都拉平了，全都可以通过语音一步到位。这效率提升可不是一点半点。

晓曼: 对。你再也不用去记哪个功能藏在App的哪个角落里了。这让我想起一个比喻，以前的Siri像个只能在大厅回答问题的客服，现在的ReALM技术，是给了它一张通行证，让它可以直接跑进每个房间帮你把事情办了。

原野: 这么一说，苹果这篇论文确实给Siri的未来画了一个很大的饼啊。这让人非常期待，在接下来的WWDC上，苹果到底会端出什么样的AI大餐，Siri会不会真的迎来一次脱胎换骨的升级。

晓曼: 总结一下今天聊的，其实核心就是四点。第一，苹果发了个叫ReALM的新模型，目标就是让Siri能看懂屏幕上的各种东西。第二，它的技术原理，是把屏幕上的视觉信息，翻译成AI能理解的文本。第三，也是最关键的，这个模型在特定任务上，性能已经超过了GPT-4。最后，这个技术可能会彻底改变我们和手机的交互方式，让语音操作变得前所未有的简单和强大，这也许才是苹果真正的AI杀手锏。

大纲

苹果最新发布的ReALM论文展示了其在语言模型领域的突破，旨在让Siri等AI助手能“看懂”屏幕和后台实体，从而大幅提升用户交互体验。该模型通过将指代消解转化为纯粹的语言建模问题，在特定任务上表现优于GPT-4，预示着苹果设备智能化和Siri能力升级的重大飞跃。

ReALM模型与指代消解

论文主题与名称： 苹果研究团队发表的《ReALM: Reference Resolution As Language Modeling》论文，核心在于解决非对话实体（如屏幕实体、后台实体）中的指代消解问题。
核心技术方法： ReALM通过重建屏幕并对实体进行标注，将其转化为可视觉识别的文本，从而使大语言模型能够理解用户在屏幕上看到的内容。
实体类型定义： 区分了对话实体（对话中提及的对象）、屏幕实体（屏幕上可见的元素如文本、图标）和后台实体（系统或应用中不可见的进程和服务）。

卓越性能与行业对比

模型参数与适用性： ReALM模型有80M/250M/1B/3B四种参数大小，体积小巧，适合在手机、平板等设备端运行。
性能表现： 在多数表现上优于GPT-3.5和GPT-4（尤其在特定领域查询），最小模型性能与GPT-4相当，在屏幕数据集上取得了显著增益。
创新之处： 该研究是首个使用大语言模型对屏幕上下文进行编码的工作，通过将指代消解问题转换为语言建模问题，有效解决了多种类型指代问题。

赋能Siri与智能交互

Siri能力提升： ReALM技术将大幅增强Siri对实体及其上下文的感知和解析能力，使其更好地理解和处理复杂指代。
潜在应用场景： 未来用户可通过语音让Siri在特定应用中执行复杂操作，例如在外卖平台上进入店铺订餐，大幅简化交互步骤。
设备智能化前景： 这项研究预示着未来iOS 18和macOS 15中Siri的重大升级，有望大幅提升Apple设备的智能交互水平。

苹果的AI布局与市场竞争

苹果AI战略： 苹果在AI大模型领域虽入局稍晚但动作高效，已发布MM1多模态大语言模型，并有代码迹象表明Siri正接入大模型。
市场竞争格局： 竞争对手如三星已推出Galaxy AI战略，国内手机厂商（华为、小米、vivo、OPPO、荣耀）也已纷纷布局自研AI大模型。
未来展望： 市场期待苹果在WWDC 2024全球开发者大会上公布其全面的AI战略，以应对日益激烈的AI手机市场竞争，并激发用户换机需求。

脚本