
苹果ReALM:Siri学会“看懂”屏幕,AI性能超越GPT-4
Listener_799314
0
9-10原野: 很多人都觉得,在AI这波大浪潮里,苹果好像总是慢半拍。但最近,他们悄悄发了一篇论文,里面提到的一个新模型,在某些特定任务上,性能居然超越了GPT-4。
晓曼: 嗯,这事儿确实挺有意思的。这篇论文叫ReALM,简单来说,它要干的事就是给Siri装上一双“火眼金睛”,让它不只能听懂你说话,还能真正“看见”并且理解你手机屏幕上显示的内容。
原野: 等等,“看见”屏幕上的内容?这和我们现在用语音助手有什么本质区别吗?
晓曼: 区别太大了。现在的语音助手,你跟它说话,它是在一个相对封闭的系统里理解你的指令。但ReALM这个模型,它的核心突破是能解决“非对话实体”的指代问题。
原野: “非对话实体”?这听起来有点专业。
晓曼: 其实不复杂。你想,你屏幕上看到的那些图标、按钮、文字,这些就是“屏幕实体”。还有些在后台运行,你看不见的服务,比如定位,就是“后台实体”。以前的AI模型很难把你的话和这些东西关联起来。
原野: 我明白了。所以ReALM就是要把我的语音指令,和我屏幕上看到的东西,以及手机后台正在运行的东西,三者打通。
晓曼: 没错。它的实现方式也很巧妙,就是把屏幕上乱七八糟的视觉信息,通过一种特殊的编码方式,转化成大模型能读懂的纯文本。这样一来,Siri就能精准理解,当你说“就这个”的时候,你指的到底是屏幕上的哪个按钮。
原野: 所以,这个模型的实际表现怎么样?真的像开头说的那么厉害吗?
晓曼: 论文里的数据确实很惊人。苹果把ReALM模型和GPT-3.5、GPT-4做了比较。结果发现在处理屏幕内容理解这类任务时,哪怕是最小版本的ReALM,性能也跟GPT-4差不多了。而参数量更大的版本,是显著超越了GPT-4。
原野: 哇,这可有点颠覆认知了。也就是说,苹果虽然没去卷那个“通用大模型”的竞赛,但在自己的一亩三分地里,通过专一的微调,做出了更高效、更厉害的东西。
晓曼: 对,这就是苹果一贯的思路。他们不追求在所有领域都拿第一,但追求在自己的生态里做到体验最好。过去我们觉得所谓的AI手机,卖点都很虚,比如AI拍照美颜、AI整理相册,这些功能都不足以让用户下决心换手机。
原野: 有点意思。那你是说,如果Siri真的能看懂屏幕,这就可能成为那个决定性的“杀手级”功能?
晓曼: 我觉得很有可能。这已经不是应用层的小打小闹了,这是交互方式的根本性改变。你想想,如果未来你可以直接对手机说“帮我在那个外卖App里,订刚才那家店的招牌套餐”,然后手机就自动帮你一步步操作完成。这个体验是不是完全不一样了?
原野: 那确实是颠覆性的。等于把所有App的操作都拉平了,全都可以通过语音一步到位。这效率提升可不是一点半点。
晓曼: 对。你再也不用去记哪个功能藏在App的哪个角落里了。这让我想起一个比喻,以前的Siri像个只能在大厅回答问题的客服,现在的ReALM技术,是给了它一张通行证,让它可以直接跑进每个房间帮你把事情办了。
原野: 这么一说,苹果这篇论文确实给Siri的未来画了一个很大的饼啊。这让人非常期待,在接下来的WWDC上,苹果到底会端出什么样的AI大餐,Siri会不会真的迎来一次脱胎换骨的升级。
晓曼: 总结一下今天聊的,其实核心就是四点。第一,苹果发了个叫ReALM的新模型,目标就是让Siri能看懂屏幕上的各种东西。第二,它的技术原理,是把屏幕上的视觉信息,翻译成AI能理解的文本。第三,也是最关键的,这个模型在特定任务上,性能已经超过了GPT-4。最后,这个技术可能会彻底改变我们和手机的交互方式,让语音操作变得前所未有的简单和强大,这也许才是苹果真正的AI杀手锏。