主要内容
上周六,在旧金山一个微风拂面的下午,我身处一个毫不起眼的联合办公空间,里面满是光着脚的程序员。仅一百多名访客涌入杜波塞三角区的一栋办公楼,准备一场对决:一方是配备 AI 编码工具的团队,另一方是仅由人类组成的团队(所有人都被要求在门口脱掉鞋子)。这场黑客松被称为“人与机器之战”,其目标是测试 AI 是否真的能帮助人们更快更好地编码。大约 37 个小组被随机分配为“人类”或“AI 支持”。之后,一位组织者告诉我,一些人被分配到人类团队后就退出了。评委小组将根据四个标准对项目进行排名:创意、在现实世界中的实用性、技术表现力和执行情况。只有六个团队能进入演示环节。获胜团队将获得 12500 美元现金奖励以及 OpenAI 和 Anthropic 的 API 信用额度。第二名将获得 2500 美元。
一个为钢琴家提供表演反馈的 AI 工具团队。AI 编码在硅谷一直是个敏感话题。尽管对工程灾难的担忧比比皆是,但共同主办此次黑客松的 AI 研究非营利组织 METR 的一项新研究发现,AI 工具实际上使有经验的开源开发者的效率降低了 19%。这个周末的黑客松旨在进一步推进 METR 的研究。虽然该研究关注的是在现有代码库上工作的有经验的程序员,但在这次活动中,一些参与者几乎没有编码经验,每个人都将提出新的项目。
METR 的技术人员 Joel Becker 表示,许多关于开发者生产力的研究使用诸如拉取请求数量或编写的代码行数等指标。但这些数字可能难以解释。编写更多代码或发送更多拉取请求并不总是更好。同样,当我们查看 AI 性能时,即使模型在给定基准上得分达到 80%或 90%,也并不总是清楚这在实际能力方面意味着什么。
Becker 打赌机器会获胜。在 8 小时的提交项目时间里,参与者们忙碌不已。组织者随机为参与者分配到“机器”或“人类”团队。在活动的 Slack 频道中,参赛者提出想法以吸引潜在的队友:一个为钢琴家提供表演反馈的 AI 工具、一个跟踪阅读内容的应用程序和一个帮助邻居联系的平台。
一位参赛者 Arushi Agastwar 是斯坦福大学研究 AI 伦理的学生。她在八年级时开始编码,但此后暂停了一段时间,专注于评估 AI 对社会的影响。Agastwar 被随机分配到人类团队,她决定构建一个框架,评估 AI 模型中的奉承行为(如困扰 OpenAI 的 GPT-4o 的讨好性)。“我感觉来自人类团队的一些想法将非常深刻,我希望演示环节不是评委唯一印象深刻的事情,”Agastwar 告诉我。她最初的赌注是人类团队,即不使用 AI 的团队会获胜。但在黑客松进行了几个小时后,她不确定自己能否在下午 6 点 30 分的截止日期前完成任务。
还有 Eric Chong,一位 37 岁的人,拥有牙科背景,之前曾共同创立一家为牙医简化医疗账单的初创公司。他被分配到“机器”团队。“说实话,我很高兴被分配到机器团队,”Chong 说。在黑客松中,Chong 正在构建使用语音和面部识别来检测自闭症的软件。当然,我的第一个问题是:这不会有很多问题吗,比如有偏见的数据导致误报?“简短回答是,是的,”Chong 说。“我认为可能会有一些误报,但我认为通过语音和面部表情,我们实际上可以提高早期检测的准确性。”