
豆包Seed 1.6补齐视觉短板,国产大模型迎来写轮眼时刻
豆包Seed 1.6作为国产大模型里程碑,全面提升编程、数学和推理能力,首次实现视觉理解并支持多模态输入,以“所见即所得”的网页复刻技术开启“写轮眼时刻”,显著缩小与国际领先模型的差距。
国产大模型长期在代码能力和视觉理解方面落后于国际领先模型。Doubao Seed 1.6的更新,不仅显著提升了编程、数学和推理能力,更通过支持文本、图片、视频输入,成功弥补了视觉理解的空白,被誉为国产大模型的“写轮眼时刻”。该模型尤其在网页复刻方面表现出色,展现了“所见即所得”的强大能力。
国产大模型能力差距
- 最近一年,国产大模型与国际领先模型在代码能力和视觉理解能力上有巨大差距。
- DeepSeek R1在0528版本更新后,代码能力大幅提升,基本达到Claude 3.5或以上水平,但未支持视觉理解。
- 在Vibe Coding等场景中,视觉理解对改bug和复刻组件至关重要。
Doubao Seed 1.6 的核心突破
- 大幅提升编程、数学、推理能力,并支持文本、图片、视频输入。
- 首次补齐了国产大模型的视觉理解能力。
- 被评价为国产大模型的“写轮眼时刻”,尤其在网页复刻方面展现出“所见即所得”的强大能力。
网页复刻能力展示
- 小红书管理后台复刻:风格和布局一致,菜单图标和图片卡片排版细致,审美甚至优于官方。
- Product Hunt 官网复刻:还原度高,顶栏、左右侧悬浮效果类似,并自带移动端适配,效果优于部分人类程序员作品。
- Linear 界面复刻:布局相似,包含可交互组件,但主面板存在对齐问题。
其他模型能力测试与对比
- 天气卡片测试:Doubao Seed 1.6是第二个能做到此功能的国产模型。
- 宝可梦表情包测试:Doubao Seed 1.6接近Claude 3.7水平,Claude 4依然最强,Qwen3表现抽象。
- 网页绘制测试:能根据指令绘制WWDC25信息网页,完成度高且有小动效。
模型使用与注意事项
- Doubao Seed 1.6模型目前可在火山引擎调用,按输入输出长度计费,最低0.8元/百万tokens(输入),最高24元/百万tokens(输出)。
- 模型的上下文最大256K输入,16K输出,但默认仅4K,需手动将最大输出调整至16K以确保网页绘制等任务成功。
- 模型支持图片、视频输入,但部分客户端(如Trae)可能提示不支持多模态提问。