OpenAI正要求承包商上传过往工作成果以评估AI代理的性能

2026-01-10

据 WIRED 获得的 OpenAI 及 Handshake AI 记录显示，OpenAI 正要求第三方承包商上传过往或当前工作的真实任务成果，以评估下一代 AI 模型性能并建立人类任务基准，这是其推进通用人工智能（AGI）的关键举措，承包商需删除敏感信息但仍存法律风险。

- OpenAI 收集真实工作任务，评估 AI 模型以推进 AGI

- 要求上传具体交付物，需删除个人/保密信息

- 存在商业秘密侵权及违反保密协议风险

- 九月启动跨行业 AI 与人类专业人员表现对比评估

- 任务需包含请求描述与实际交付物两部分内容

据《连线》杂志获得的OpenAI及培训数据公司Handshake AI的记录显示，OpenAI正要求第三方承包商上传其当前或过往工作中的真实任务与成果，用于评估下一代AI模型的性能。

这一项目旨在建立不同任务的人类基准，以便与AI模型在各行业的表现进行对比，推进通用人工智能（AGI）的研发。OpenAI称，这是衡量其AI系统在经济价值任务中超越人类进展的关键指标。

承包商需描述当前或过往工作中的任务，上传实际成果（如Word文档、PDF、PPT、Excel文件、图片或代码仓库等），也可分享虚构但能体现特定场景真实反应的工作示例。但OpenAI强调，所有示例必须是承包商“实际完成的工作”。

根据项目要求，承包商需删除上传文件中的公司知识产权和个人信息。例如，在一份演示文稿中，有“豪华礼宾公司高级生活经理”为首次赴巴哈马的高净值家庭准备7天游艇旅行行程的案例，承包商需提交包含家庭兴趣和行程细节的2页PDF草案。

OpenAI与Handshake AI未回应置评请求。律师指出，AI实验室若接收大规模商业秘密信息，可能面临商业秘密盗用风险，即使经过处理，承包商提供的文件仍可能违反保密协议。