好的想法需要地方降落,否则它们只会飘走!

👋欢迎来到我的博客。在这里我会分享一些关于技术和生活的思考。

Skill:不改模型、不写代码,教会 Agent 做专家级别的事

系统解析 Skill 的概念、动机、结构、发现机制与生态趋势,说明它和 Tool、Prompt、微调的区别,以及为什么「写一份文档」可能比「训练一个模型」更实用。

MCP:让 Agent 的工具生态不再各自为战

系统分析 Model Context Protocol(MCP)的设计动机、三层架构(Host-Client-Server)、三种原语(Tools / Resources / Prompts)、传输机制与安全边界,结合实际代码示例说明如何构建和接入 MCP Server。

多 Agent 协作:当一个 Agent 不够用时,如何让多个 Agent 分工合作

系统分析多 Agent 协作的核心编排模式(Supervisor、Handoff、Agent-as-Tool、Peer-to-Peer),结合 Claude Code、Cursor、OpenAI Agents SDK 的真实架构,说明多 Agent 系统的设计取舍与工程落地方式。

Reflection:Agent 如何审视自己的输出并纠正错误

系统分析 Reflection 在 Agent 系统中的角色、三种实现形态、批评标准设计、失效场景,以及它与 ReAct 和 Planning 的关系。

Prompt 设计:Agent 的系统提示词怎么写

从角色定义、工具规则、推理格式、约束边界到动态上下文注入,完整拆解 Agent prompt 的设计方法与维护方式。

工具接口设计:让 Agent 用得好,比让 Agent 用得上更难

系统分析面向 Agent 的工具接口设计,说明为什么粒度、返回格式、错误信息和显式状态会直接决定 Agent 的决策质量与恢复能力。

如何评测一个 Agent:不只是看它回答得好不好

系统分析 Agent 评测与模型评测的差异,说明如何构建测试集、结合自动评测与 LLM-as-judge,并把失败案例转化成可持续的改进信号。

Planning:当 ReAct 不够用时,Agent 如何提前分解目标

系统分析 ReAct 在长任务中的局限,说明 Planning 的核心思想、Plan-and-Execute 的执行结构、代码实现与常见失败模式。

ReAct:模型如何让推理与行动交替运转

系统分析 ReAct 的来源、执行结构、工程实现、核心价值与适用边界,说明它如何把工具调用从盲目行动变成可读、可调试的推理闭环。

上下文与记忆:Agent 为什么会在长任务中失去方向,以及如何设计状态管理

从 context window、工作/情节/语义记忆分层出发,系统分析长任务中的记忆问题,并给出任务状态对象、上下文压缩、滑动窗口与检查点等工程模式。