页面加载中
Claims
Relations
Timeline
Recent
Rank 11 Author
查看完整知识档案Agent 与评估
聚焦 Agent、评估与模型应用的技术作者。
长期输出高质量技术长文,擅长把复杂研究转成可执行框架。
适合建立系统化技术判断,不依赖碎片信息。
Claims
这部分会沉淀这个 KOL 近期最稳定、最有代表性的判断。
归属对象:Lilian Weng
Relations
这部分帮助你判断这个 KOL 长期跟什么、又与谁保持同向或分歧。
Timeline
你可以在这里快速回看这个 KOL 最近几次值得注意的变化。
Recent
该 KOL 最近被收录的内容会展示在这里。
作者给出一套从任务分解、样本集构建到回归测试的闭环流程。重点在于把成功标准写成可自动检查的规则,而不是靠主观感受。团队应先定义任务完成率、平均工具调用次数与人工接管率,再决定是否扩容模型或加入更多工具。