
Kimi-Researcher:你的专属研究助手,万字报告自主完成
sunny xiao
9
6-30Kimi-Researcher是一款基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代Agent模型,专为深度研究任务设计,现已开启小范围灰度测试。它能自主规划任务、深度思考、主动搜索并生成万字级深度研究报告及可交互可视化报告,旨在让每个人都能拥有自己的研究助理。
Kimi-Researcher 简介
- 首个Agent产品,基于端到端自主强化学习(end-to-end agentic RL)技术训练。
- 专为深度研究任务而生,将逐步开源基础预训练模型和强化学习后的模型。
核心功能与交付成果
- 自主规划任务执行流程: 包括澄清问题、深入思考(平均23步推理)、主动搜索(平均74个关键词,找到206个网址,筛选3.2%高质量内容)和调用工具(浏览器、代码)。
- 交付成果一:深度研究报告: 平均长度万字以上,引用约26个高质量、可溯源信源,内嵌跳转并高亮原文,便于验证与追溯。
- 交付成果二:动态可视化报告: 结构化排版、思维导图,可迅速把握整体结构与核心结论,支持在线生成链接并分享。
性能表现与应用场景
- Humanity’s Last Exam (HLE) 评测: 在零结构、无流程设计下,Pass@1准确率26.9%,Pass@4准确率40.17%,表现超越Claude 4 Opus、Gemini 2.5 Pro,并与Gemini-Pro Deep Research Agent持平。
- xbench 基准测试: DeepSearch任务中取得69%的平均通过率,领先该榜其他模型。
- 多样化应用示例: 涵盖寻找高价值benchmark、研究行业公司发展、了解各国数据隐私法规、汇总券商债市观点、制作教学课件、理解复杂知识结构以及满足生活中的好奇心。
训练原理与技术细节
- 端到端强化学习 (end-to-end agentic RL): Kimi-Researcher 是一个零结构Agent,没有复杂的提示词或预设流程,模型通过自主试错,从零学习,将整个任务作为一个整体去解决。
- 训练哲学: 结果驱动的强化学习算法,模型仅根据最终结果是否正确获得奖励,所有策略、路径、判断均在反复试错中自然形成。
- 设计原则: 零提示/零结构、结果驱动的强化学习算法、轻量化长时记忆机制、面向Agent的训练基础设施。
内测与使用方式
- 已开始小范围灰度测试,邀请用户试用并提供反馈。
- 内测权限用户: 打开Kimi对话框下方“深度研究”按钮即可使用,每月20次额度,支持1条任务并发。
- 未获权限用户: 可在评论区留言希望Kimi-Researcher研究的问题,官方将抽取运行并返回结果页面链接。