
ListenHub
0
4-30晓曼: 哎,最近我在 Chatbot Arena 上面瞎逛,就那个给 AI 聊天机器人排名的网站,看着挺热闹的。但是听说这玩意儿背后水很深啊,各种“潜规则”,真的假的?
原野: 哎哟,你算问对人了!这说白了就是个“排行榜幻觉”。表面上看起来公正客观,实际上可能暗箱操作,或者干脆就不给所有模型公平竞争的机会。
晓曼: 哎?你是说他们比拼的时候,数据都不公开的?
原野: 可不是嘛!你想想,Meta 在 Llama 出来之前,偷偷摸摸测试了 27 个版本,把表现不好的直接枪毙,最后只拿最好的成绩出来亮相。这就好比考试给你无限次补考机会,别人只能考一次,这能一样吗?
晓曼: 哇,这操作…有点像我小时候考试前死皮赖脸求老师“再给我一次机会”……那其他的模型呢?
原野: 那些封闭的商业模型,像 Google、OpenAI,那对战的场次多的吓人;开源模型呢,就可怜巴巴的,没几次机会就被踢出局了。这就好比两支乐队比赛,一支每天练十个小时,另一支只能偶尔排练一下,这还怎么比啊?
晓曼: 那数据访问也不对等?这坑也太大了吧!
原野: 你说对了!Google、OpenAI 拿走了大概 19% 和 20% 的对战数据,83 个开源模型加起来才拿到 29.7%。数据多就像练歌房包场,你想想,多练几首歌,水平肯定能提升啊!甚至有研究说,数据量翻倍,性能都能提升 112%!
晓曼: 这么说,Arena 评测反而把模型逼得只会“背题”,根本不是真本事?
原野: 没错!现在大家都在拼命刷 Arena 的那些特定套路,结果模型的泛化能力就越来越弱。
晓曼: 那有没有什么办法解决这个问题啊?
原野: 我的建议是,测试流程必须完全透明化,公开所有版本的得分,公平分配对战机会。还得鼓励独立的评测机构参与进来,别让平台一家独大。
晓曼: 嗯,听起来就像给比赛裁判装上摄像头,让观众全程监督,这样作弊就无处遁形了!
原野: 就像 NBA 裁判录像回放,把所有的犯规都拍下来,公开给球迷评判。犯规再多,也得按规矩来!
晓曼: 明白了,这榜单看看就好,千万别当真了。今天真是谢谢你给我们好好科普了一下!
原野: 没事儿,下次咱们再聊聊其他的 AI 八卦!