这是一个使用推理来合成大量在线信息并为您完成多步骤研究任务的代理。目前对专业用户开放,接下来将对Plus和Team开放。
今天,OpenAI推出了对ChatGPT的深入研究。这是一种新的代理能力,它可以在互联网上进行多步骤的研究以完成复杂的任务。它可以实现人类需要花费数小时才能完成的工作,在几分钟内就完成了。
合成知识的能力是创造新知识的前提。因此,Deep research标志着OpenAI在开发AGI方面迈出了重要的一步,而OpenAI长期以来一直设想AGI能够产生新颖的科学研究成果。
为什么OpenAI构建了deep research?
Deep research是为那些在金融、科学、政策和工程等领域进行密集型知识工作的人们而设计的,他们需要深入、精确且可靠的研究。对于那些寻找高度个性化推荐的人来说,它同样有用,这些推荐通常需要仔细研究,比如汽车、家电和家具等。每个输出都有完整的文档记录,包括清晰的引用和思考总结,这使得信息易于参考和验证。它特别擅长查找小众、非直观的信息,否则就需要浏览无数网站。通过一次查询即可卸载并加速复杂的、耗时的网络研究,深度研究可以节省宝贵的时间。
Deep research独立地发现、推理和整合来自整个互联网上的见解。为了实现这一点,它接受了真实任务的训练,要求使用浏览器和Python工具,并采用了OpenAI o1(我们的第一个推理模型)背后相同的强化学习方法。虽然o1展示了令人印象深刻的编码、数学和其他技术领域的功能,但许多现实世界的挑战需要从各种在线来源中获取广泛的背景和信息。深度研究建立在其推理能力的基础上,以弥合这一差距,使其能够应对人们在工作中和日常生活中面临的各类问题。
如何使用deep research?
在ChatGPT中,选择消息编辑器中的“deep research”,然后输入您的查询。告诉ChatGPT您需要什么——无论是对流媒体平台的竞争对手分析还是关于最佳通勤自行车的个性化报告。您可以附加文件或电子表格来为问题添加上下文。一旦开始运行,侧栏将显示已采取的步骤和使用的来源摘要。
与deep research相比,GPT-4o更适合实时多模态对话。对于涉及多个方面且领域特定的问题,深度和细节至关重要,在这种情况下,深度研究能够进行广泛探索并引用每个主张的能力是快速总结和经过充分验证的答案之间的区别,后者可以被用作工作产品。
它是如何工作的?
通过deep research,使用端到端强化学习(end-to-end reinforcement learning)在一系列领域的困难浏览和推理任务上进行训练。通过这种训练,它学会了计划并执行一个多步骤的轨迹来找到所需的数据,在必要时回溯并反应实时信息。该模型还能够浏览用户上传的文件、使用python工具绘制和迭代图表,并在其响应中嵌入生成的图形和网站中的图像,引用其来源的具体句子或段落。由于这一培训,它在许多关注现实世界问题的公共评估中达到了新的高度。
人类的最新评测
最近发布的《在专家级问题上对人工智能进行广泛测试的人类的最后考试》评估了模型在deep research方面的表现,其准确率达到了新的高度——26.6%。该测试包括来自语言学、火箭科学、经典文学和生态学等超过 100 个学科领域的 3,000 多道选择题和简答题。与 OpenAI 的 GPT-1 相比,在化学、人文和社会科学以及数学方面取得了最大进步。此外,该模型还展示了类似人类的方法:当需要时会有效地寻求专门的信息。
GAIA
在 GAIA 上,这是一个评估人工智能在现实世界问题上的公共基准,在此基准上,deep research模型达到了新的最佳状态 (SOTA),超越了外部排行榜。涵盖三个难度级别的问题,成功完成这些任务需要推理、多模态流畅性、网络浏览和工具使用熟练度等能力。
在对一系列领域的专家级任务进行内部评估时,领域专家将deep research评为自动化了多个小时的困难、手动调查。
局限性
Deep research解锁了显著的新功能,但目前仍处于早期阶段且存在局限性。根据内部评估,在响应中有时会出现幻觉事实或做出错误推断的情况,尽管其发生率明显低于现有的ChatGPT模型。它可能难以区分权威信息和谣言,并在当前显示出信心校准方面的弱点,往往无法准确传达不确定性。在发布时,报告和引用可能会出现轻微的格式错误,任务启动时间也可能较长。预计所有这些问题都会随着更多使用时间和改进而迅速得到改善。
访问权限
目前,对ChatGPT的深入研究非常耗费计算资源。查询所需的研究时间越长,所需的推理计算就越多。OpenAI首先开始为专业用户推出一个优化版本,每月最多可进行100次查询。Plus和团队用户将随后获得访问权限,然后是企业版。OpenAI仍在努力向英国、瑞士和欧洲经济区的用户提供访问权限。
所有付费用户在我们发布更快、更具有成本效益的Deep research版本时,很快就会得到显著更高的速率限制。该版本由较小模型提供支持,但仍能提供高质量的结果。
在未来几周和几个月内,OpenAI将致力于技术基础设施建设,密切关注当前发布的版本,并进行更加严格的测试。这符合我们的迭代部署原则。如果所有的安全检查继续满足我们的发布标准,预计将在大约一个月后向Plus用户发布深度研究功能。
内容来源:
https://openai.com/index/introducing-deep-research/