原野: 最近AI圈子里,Sora那真是风头无两啊,感觉OpenAI这大手一挥,直接就给咱们把赛道都划定了,连标准答案都明晃晃地写在黑板上了。结果你猜怎么着?偏偏有人不买账,甚至还放话呢,“OpenAI都把作业递你手上了,你居然还要另辟蹊径?”
晓曼: 哎,你这话说的,可不就是Sand.ai的创始人曹越嘛。当所有人都一股脑儿地往Sora那条DiT技术路线上冲的时候,人家曹越和他的团队,硬是来了个大掉头,走上了一条完全不一样,甚至听起来更“自虐”的路。
原野: 哈哈,这事儿确实挺有意思的。不过,在深挖他那个“不走寻常路”的技术路线之前,我对他这个人反而更好奇了。毕竟,当年“光年之外”被美团收购之后,曹越好像就跟人间蒸发了一样,从大众视野里“失踪”了好一阵子。那段时间他到底在捣鼓些啥呢?
晓曼: 他自己形容那段日子啊,特有诗意,说自己“当时很像冬天里的一棵树”。听着是不是很形象?就是那种表面上看起来风平浪静,压根儿没啥动静,静悄悄的,可实际上呢,地底下的根系呀,那是在拼了命地往深处扎,拼命地积蓄能量呢。
原野: “冬天里的一棵树”,这个比喻真是绝了,一下子就把那种状态描绘得活灵活现。那这种看似“冬眠”的蛰伏和沉淀,对他后来拍板决定创业,究竟产生了什么样的化学反应呢?
晓曼: 哎呀,那影响可不是一般的大。那段“冬眠”期啊,让他彻底想明白了一件事,就是他骨子里头有个特别底层的执念,那就是“追求极致的个人成长”。他发现,如果老是待在一个那种“一眼望得到头”的系统里,根本就喂不饱他这个追求。而创业呢,恰恰就是那个能提供“极致成长”的超级选项。
原野: 哇,原来是这样!这么说来,创业对他而言,压根儿就不是什么纯粹的商业考量,更像是他个人成长路上一个水到渠成的必然选择。那这种独特的“成长观”,是不是也直接导致了他后来在视频生成这个赛道上,做出了那个让所有人跌破眼镜、与众不同的技术抉择呢?
晓曼: 那是绝对的!你算是说到点子上了。这不,一下就引出了咱们节目开头就抛出的那个“灵魂拷问”了:当Sora横空出世,把整个视频生成领域都炸了个天翻地覆的时候,Sand.ai为啥就偏偏要剑走偏锋,选择一条完全不一样的自回归路线呢?
原野: 是啊,你想啊,当时所有人可都觉得Sora就是视频生成的“最终答案”了,是妥妥的未来趋势。他们哪来的勇气,非要逆着这股大潮流,跟全世界唱反调呢?
晓曼: 嘿,这可就有意思了。因为在他们Sand.ai看来,Sora那套技术路线,它本身就带着点儿“先天不足”,甚至可能天花板也没那么高。曹越就举过一个特别形象的例子,说Sora生成的视频里,有时候会出现一个人走路,那种“左腿左腿,右腿右腿”的奇葩画面,完全不符合咱们物理世界的常理,简直滑稽透了。
原野: 哎呦喂,你这么一说,那画面感是真有了,确实有点儿诡异啊。那这种“左腿左腿”的现象,它到底暴露了Sora的什么深层问题呢?还有啊,你说的那个自回归路线,它又是怎么来化解这个难题的呢?
晓曼: 简单来说啊,这玩意儿说明Sora模型学到的,更多是像素点之间的那种“表面相关性”,而不是咱们现实世界里,真正的“因果关系”。而自回归路线的看家本领,就是专门去捕捉这种因果。曹越就打了个特别生动的比方,他说视频这东西,跟咱们看语言模型挺像的。你想啊,咱们看文字,是不是都是从左上角往右下角这么顺着看?没人会倒着来吧?视频也一样,时间是单向流动的,下一帧的出现,那肯定都是上一帧的“因”结出的“果”。这可不就是一种实打实的“时序因果”嘛。
原野: 哎,我算是彻底明白了!这感觉就像我们说话,不能先扔个句号,再从头开始说一句话一样。所以说,自回归模型就是老老实实地、一帧一帧地、严格按照时间顺序去“画”视频,这样一来,它就能更好地遵循咱们世界的物理规律,彻底告别那种“左腿左、右腿右”的滑稽错误了,对吧?
晓曼: Bingo!完全正确。他们坚信,这才是真正接近视频生成“终局”的终极方案,因为它在技术的第一性原理上,那叫一个稳稳当当,站得住脚。虽然这条路走起来会更坎坷,更费劲,但它的天花板高得离谱,而且未来也更具备那种无限的可扩展性。
原野: 哇,听你这么一说,这简直就是一场彻头彻尾的“豪赌”啊!明知道有条康庄大道,非要选一条更难、更险峻的路,去硬刚像Sora这种已经跑在前面的“巨无霸”先行者。那外界很多人肯定会嘀咕,你们是不是“来晚了,迟到者”啊?
晓曼: 没错,这简直就是市场上最普遍的“灵魂拷问”了。很多人都会指着鼻子说,你看,那些大厂、头部公司早就把这块蛋糕啃得差不多了,你们现在才姗姗来迟,是不是黄花菜都凉了?
原野: 那曹越自己,面对这种“你来晚了”的质疑,他是怎么个回应法呢?
晓曼: 哎,他这视角啊,可真是清奇得很。他说,如果咱们把赛道重新定义一下,特指“用自回归技术来压缩视频数据”这个方向的话,那不好意思,“我们就是先行者!”他觉得啊,根本就不能把所有做视频生成的公司都硬生生地塞到同一个赛道里去,那样比较根本不公平。
原野: 哇,这简直就是一次“降维打击”式的视角转换啊!他压根儿就不是在别人已经画好的地图上苦哈哈地找自己的位置,而是直接大手一挥,给自己重新定义了一张全新的地图,而且还霸气地宣称,他就是这张新地图的第一个开拓者!
晓曼: 是的,就是这个意思。他特别强调说,作为一个创业公司的创始人,你的首要任务,就是得有那双“火眼金睛”,能一眼识别出什么是“真正的第一曲线”,然后呢,就得在这个方向上死磕到底,扎得足够深,持续不断地去迭代。而不是看见别人家什么火了,就一窝蜂地去追,那样只会把自己绕晕,彻底迷失方向。
原野: 这种对自己技术路线的笃定和坚持,说实话,真的让人佩服得五体投地。不过话又说回来,技术再牛,最终还是要落到商业价值上嘛。尽管现在有些业内人士对视频生成这块儿的前景,好像没那么乐观,可人家Sand.ai看起来却是信心爆棚。这份底气,到底是从哪儿来的呢?
晓曼: 他们的信心啊,其实源于一个特别简单,但又一针见血的观察,那就是:“人类在视频这个品类上的生产力,实在是太!差!了!”
原野: 哎,这话怎么说呢?我有点儿没跟上节奏。咱们现在不是有各种专业的摄制团队,还有那些高大上的先进设备吗?怎么就“生产力太差”了呢?
晓曼: 你拿文字生产一对比就秒懂了。你看,一个人只要有键盘,噼里啪啦就能敲出一大堆文字来,效率多高啊。可你要是想鼓捣出一段哪怕很短的视频呢?那可就麻烦了,得经过策划、拍摄、剪辑、后期这一大堆流程,成本高得吓人,周期也长得要命。曹越就说了,视频在咱们生活中的渗透率,其实比文字要高一个数量级呢!你想想,如果它的制作成本和周期,能被AI技术一下子给“打骨折”降下来,那对整个市场能产生的价值,简直就是不可估量啊!
原野: 哦,我明白了,说白了就是“降本增效”这四个字嘛。但话又说回来,现在AI生成的视频,不还是各种毛病一大堆嘛,比如你刚才提到的那个“幻觉严重”,还有那些复杂的运动场景也搞不定。这种目前还“不太完美”的状态,真的能满足咱们商业世界里那些挑剔的需求吗?
晓曼: 哎,这又是他们一个特别独到的洞察了。他们觉得啊,哪怕现在的AI视频还不能做到百分百完美,但它已经能满足“非常多非常多”的应用场景需求了。你想想,很多营销广告、产品展示、或者那些短平快的内容创意,它压根儿就用不着达到电影大片那种级别的真实感和物理精确度。只要能快速、低成本地生成一个“看着还行”的视频,这本身就已经解决了市场上的一个巨大痛点,简直就是雪中送炭啊!
原野: 听起来,从他们选择技术路线,到后来对商业化的独特思考,这背后简直就是一套贯穿始终的、非常独特的“做事哲学”啊。那这种与众不同的哲学,它到底是怎么炼成的呢?
晓曼: 哎,这就得把时间拨回到他当年在微软亚洲研究院,也就是咱们常说的MSRA的那些经历了。他提到,那里头有一种特别深厚的“做事哲学的传承”,那就是:你得去“做最本质、最关键、最广受关注的问题”。可不是为了发几篇论文就去搞研究,而是真的要撸起袖子,去啃那些最难、最硬的骨头,把每一个实验都做到足够扎实、足够细致入微,只有这样,才有可能在那些看似无解的难题上,抠出那么一点点微小的进步来。
原野: 这种刨根问底、追求本质的精神,听起来简直就是一位纯粹科学家的执着啊。可现在他摇身一变成了创业者,那他又是怎么看待商业,在这一切之中扮演的角色呢?
晓曼: 他把商业啊,看作是一种特别强大的“杠杆”。他自己就坦白说了,他最最崇拜的偶像,那是科学家Ilya Sutskever,而不是什么商业大佬。所以对他来说,创业也好,搞商业也罢,这些都不是最终的目的。它就是一个超级给力的杠杆,能够让他撬动更多的资源,去实现他内心深处真正想干的事儿,那就是“对这个世界,产生一些真正有意思的价值”。
原野: 这么一听,无论是他选择自回归这条别人都不敢碰的“难路”,还是他对商业价值的那些独到判断,追根溯源,都离不开他骨子里那股子追寻本质的科学家精神啊。在他看来,不跟着Sora瞎起哄,或许才是通往视频生成领域“终局”的唯一一条,也是真正正确的路径。
晓曼: 哎,你总结得太到位了,完全可以这么说。这就像他们公司名字叫Sand.ai,“沙子”,听起来是不是特不起眼?但它就是从最基础、最微小的单元开始,一点一滴地去构建一个全新的世界。这本身,可不就是一种最纯粹的“第一性原理”的绝佳体现嘛。