豆包Seed 1.6补齐视觉短板，国产大模型迎来写轮眼时刻 - ListenHub

豆包Seed 1.6补齐视觉短板，国产大模型迎来写轮眼时刻

Jun 16

From

qq

豆包Seed 1.6作为国产大模型里程碑，全面提升编程、数学和推理能力，首次实现视觉理解并支持多模态输入，以“所见即所得”的网页复刻技术开启“写轮眼时刻”，显著缩小与国际领先模型的差距。

国产大模型长期在代码能力和视觉理解方面落后于国际领先模型。Doubao Seed 1.6的更新，不仅显著提升了编程、数学和推理能力，更通过支持文本、图片、视频输入，成功弥补了视觉理解的空白，被誉为国产大模型的“写轮眼时刻”。该模型尤其在网页复刻方面表现出色，展现了“所见即所得”的强大能力。

国产大模型能力差距

最近一年，国产大模型与国际领先模型在代码能力和视觉理解能力上有巨大差距。
DeepSeek R1在0528版本更新后，代码能力大幅提升，基本达到Claude 3.5或以上水平，但未支持视觉理解。
在Vibe Coding等场景中，视觉理解对改bug和复刻组件至关重要。

Doubao Seed 1.6 的核心突破

大幅提升编程、数学、推理能力，并支持文本、图片、视频输入。
首次补齐了国产大模型的视觉理解能力。
被评价为国产大模型的“写轮眼时刻”，尤其在网页复刻方面展现出“所见即所得”的强大能力。

网页复刻能力展示

小红书管理后台复刻：风格和布局一致，菜单图标和图片卡片排版细致，审美甚至优于官方。
Product Hunt 官网复刻：还原度高，顶栏、左右侧悬浮效果类似，并自带移动端适配，效果优于部分人类程序员作品。
Linear 界面复刻：布局相似，包含可交互组件，但主面板存在对齐问题。

其他模型能力测试与对比

天气卡片测试：Doubao Seed 1.6是第二个能做到此功能的国产模型。
宝可梦表情包测试：Doubao Seed 1.6接近Claude 3.7水平，Claude 4依然最强，Qwen3表现抽象。
网页绘制测试：能根据指令绘制WWDC25信息网页，完成度高且有小动效。

模型使用与注意事项

Doubao Seed 1.6模型目前可在火山引擎调用，按输入输出长度计费，最低0.8元/百万tokens（输入），最高24元/百万tokens（输出）。
模型的上下文最大256K输入，16K输出，但默认仅4K，需手动将最大输出调整至16K以确保网页绘制等任务成功。
模型支持图片、视频输入，但部分客户端（如Trae）可能提示不支持多模态提问。

Outline

豆包Seed 1.6作为国产大模型里程碑，全面提升编程、数学和推理能力，首次实现视觉理解并支持多模态输入，以“所见即所得”的网页复刻技术开启“写轮眼时刻”，显著缩小与国际领先模型的差距。

国产大模型长期在代码能力和视觉理解方面落后于国际领先模型。Doubao Seed 1.6的更新，不仅显著提升了编程、数学和推理能力，更通过支持文本、图片、视频输入，成功弥补了视觉理解的空白，被誉为国产大模型的“写轮眼时刻”。该模型尤其在网页复刻方面表现出色，展现了“所见即所得”的强大能力。

国产大模型能力差距

最近一年，国产大模型与国际领先模型在代码能力和视觉理解能力上有巨大差距。
DeepSeek R1在0528版本更新后，代码能力大幅提升，基本达到Claude 3.5或以上水平，但未支持视觉理解。
在Vibe Coding等场景中，视觉理解对改bug和复刻组件至关重要。

Doubao Seed 1.6 的核心突破

大幅提升编程、数学、推理能力，并支持文本、图片、视频输入。
首次补齐了国产大模型的视觉理解能力。
被评价为国产大模型的“写轮眼时刻”，尤其在网页复刻方面展现出“所见即所得”的强大能力。

网页复刻能力展示

小红书管理后台复刻：风格和布局一致，菜单图标和图片卡片排版细致，审美甚至优于官方。
Product Hunt 官网复刻：还原度高，顶栏、左右侧悬浮效果类似，并自带移动端适配，效果优于部分人类程序员作品。
Linear 界面复刻：布局相似，包含可交互组件，但主面板存在对齐问题。

其他模型能力测试与对比

天气卡片测试：Doubao Seed 1.6是第二个能做到此功能的国产模型。
宝可梦表情包测试：Doubao Seed 1.6接近Claude 3.7水平，Claude 4依然最强，Qwen3表现抽象。
网页绘制测试：能根据指令绘制WWDC25信息网页，完成度高且有小动效。

模型使用与注意事项

Doubao Seed 1.6模型目前可在火山引擎调用，按输入输出长度计费，最低0.8元/百万tokens（输入），最高24元/百万tokens（输出）。
模型的上下文最大256K输入，16K输出，但默认仅4K，需手动将最大输出调整至16K以确保网页绘制等任务成功。
模型支持图片、视频输入，但部分客户端（如Trae）可能提示不支持多模态提问。

Script

原野: 我最近网上冲浪，刷到个标题特别炸裂的文章，叫什么“豆包1.6，国产大模型的写轮眼时刻”！当时我就想，国产大模型这是要开挂了？里面提到说豆包1.6终于把咱们国产大模型在视觉理解这块儿的最后一块短板给彻底补上了。我们之前老说，国产模型在某些方面跟国际大佬们比，总感觉缺点什么，尤其这“看图说话”的能力，那叫一个捉急。你说说，这差距到底具体体现在哪儿啊？

晓曼: 可不是嘛！你算是说到点子上了。咱们国产大模型这一年，代码能力确实是突飞猛进，但一说到视觉理解，那简直就是个大盲区啊！你想想，咱们在Vibe Coding里头，想让AI改个bug，或者复刻个组件，它愣是得你先截图，再吭哧吭哧地标注，它才能“看懂”一点点。这中间的效率和准确度，简直是感人，直接就打了个大折扣，用起来那叫一个心累。

原野: 听你这么一说，这视觉理解能力简直就是AI应用里的“命门”啊！那豆包1.6这回是吃了什么灵丹妙药，到底是怎么把这个老大难的问题给解决了呢？它到底引入了哪些核心能力，才能让大家激动地喊出“写轮眼时刻”这种话？我可太好奇了！

晓曼: 厉害了我的豆包！它这次更新后，直接支持文本、图片、甚至视频的多模态输入了！这可不是简单的“能看”了，它不光编程、数学、推理能力嗖嗖地往上涨，更关键的是，它第一次让咱们国产模型拥有了那种类似写轮眼的“所见即所得”的视觉复制能力！你知道吗？现在你只要给它一张截图，它就能把界面细节完整地理解，然后给你原汁原味地复刻出来，简直是神了！

原野: 哇塞，听得我心潮澎湃啊！这豆包1.6的视觉理解能力简直是太振奋人心了！那这种“写轮眼”的本事，在咱们日常的实际应用里，到底能玩出什么花儿来？能达到一个怎样的惊艳效果呢？赶紧给我讲讲！

晓曼: 嘿，这你可问对人了！给你举两个例子，那简直是让人惊掉下巴！就说它在复刻小红书管理后台的时候吧，它不光把所有东西都复刻出来了，连侧边菜单的图标，它都能自动给你匹配上更合适的，甚至连卡片排版都比原版还要漂亮，你说气人不气人？还有更绝的，在复刻Product Hunt官网的时候，它不仅页面结构还原度高得离谱，连那种滑动时右侧悬浮的小细节，还有移动端的适配，它都做得比我们好多人类程序员还要精细，简直是让人无地自容！

原野: 哇，听起来不光是这些复杂的网页复刻，它在其他各种“看图识物”的任务上，肯定也表现得非常出色。那对于咱们开发者和企业来说，最关心的可能就是成本和易用性了，这款模型在这方面，又能给我们带来哪些颠覆性的惊喜呢？是不是能让大家用起来更爽、花钱更少？

晓曼: 划重点了，各位！这豆包1.6在火山引擎上就能直接调用，你们猜猜这价格多感人？推理输入才0.8元/百万tokens，输出也才2元/百万tokens！就算最高配，输入也就2块4，输出24块钱！我的天，这简直是白菜价啊！而且它默认的上下文还能扩展到256K，输出16K，最最良心的是，还有免费的50万tokens给你试用！这低成本高性能的组合拳一打出来，我敢说，它绝对会成为咱们AI编程产品里的首选，没有之一！

原野: 听完你这一番介绍，我感觉豆包1.6简直是双喜临门啊！它不光是把咱们国产大模型那块儿最让人头疼的视觉短板给彻底补上了，还用这么一个极具竞争力的成本，直接开启了一个“所见即所得”的开发新时代！可以说，这才是真正意义上，咱们国产大模型的“写轮眼时刻”到了！这下是彻底起飞了！