Hex4C59's Blog
Posts
LeetCode
Agent
Translations
Archive
Search
Tags
Home
»
Tags
Evaluation
如何评测一个 Agent:不只是看它回答得好不好
系统分析 Agent 评测与模型评测的差异,说明如何构建测试集、结合自动评测与 LLM-as-judge,并把失败案例转化成可持续的改进信号。