AI 到底离灾难性风险有多远?METR 是回答这个问题最严肃的机构之一。他们的时间地平线框架是理解 agent 能力进展的最佳工具。
Joel Becker 解释了 METR 的使命——模型评估和威胁研究(Model Evaluation and Threat Research),评估 AI 是否可能构成巨大或灾难性风险。
讨论了 METR 的公开工作:时间地平线图表(以人类时间衡量的任务难度,50% 可靠性下)、任务如何选择和约束(经济相关性、自动评分、范围清晰)、为什么时间地平线经常被误读为 agent 运行时长。还涉及 Opus 4.5 的感知跳跃、重做开发者生产力 RCT 的挑战、为什么当前模型还不构成灾难性危险(但不连续的能力跳跃仍然可能)。
METR 专注于评估 AI 灾难性风险。核心工具是时间地平线图表——衡量 agent 能可靠完成多长时间跨度的任务。当前模型还不构成灾难性危险,但不连续的能力跳跃仍然可能。Opus 4.5 展示了感知上的能力跳跃。
标题与摘要里最值得先抓住的信号是:Joel Becker explains METR’s focus on Model Evaluation and Threat Research to assess whether AI could pose e...
这期内容更适合归入 Agent 工程栈,因为它集中讨论 工作流编排、工具调用和评估闭环。更值得追踪的是流程闭环、失败恢复和评估习惯。
回到原链接听原声、看描述或相关评论,确认有哪些观点值得进一步拆成独立选题。
时间地平线是衡量 agent 能力的核心指标——不是运行时长而是可靠完成的任务时间跨度
相关知识页
工具链从 Demo 走向生产,编排与评估是主战场。
相关知识页
AI 播客团队,聚焦前沿技术与创业访谈。
继续阅读
Zara Zhang 指出 Lark CLI 让 Claude Code/Codex 能访问和操作所有企业协作数据——聊天、日历、会议、文档、表格。企业协作平台对 agent 开放。
继续阅读
Ryo Lu 发出了一篇关于“软件灵魂”的长文:2005 年的 Mac 有质感、有哲学,而今天 A/B 测试和设计系统磨平了一切。AI agent 让生产速度指数级提升,但也让“能跑却无灵魂”的垃圾软件泛滥。他认为品味和执念无法被编程,AI 的真正价值是让有愿景的人做出以前做不到的东西——如果我们做对了,这将是一场文艺复兴,而非更快的工厂。
继续阅读
Aaron Levie 认为 agent 时代的最大机会不在写代码,而在重新设计企业工作流程。用 agent 自动化知识工作需要大量实际投入——整理数据、连接系统、改造流程、设计人机协作机制。编程之外的知识工作没有捷径,这恰恰创造了新的高价值岗位。
继续阅读
Peter Yang 看好 Granola(AI 会议笔记工具):会议记录是公司中最有用的上下文。