Reflection:Agent 如何审视自己的输出并纠正错误

系统分析 Reflection 在 Agent 系统中的角色、三种实现形态、批评标准设计、失效场景,以及它与 ReAct 和 Planning 的关系。

如何评测一个 Agent:不只是看它回答得好不好

系统分析 Agent 评测与模型评测的差异,说明如何构建测试集、结合自动评测与 LLM-as-judge,并把失败案例转化成可持续的改进信号。