Joye Personal Blog

Back

Joye 的 Agent 工程师入门指南 · v1.0 · 粉丝免费版

Updated: 2026-05-17


开篇|在你读下去之前#

这份文档是写给谁的#

如果你最近的状态是这样的——身边的人在聊 Agent、聊 MCP、聊 Vibe Coding,你看到一堆陌生的名词在飘,大概知道这是一个值得入门的方向,但每次想动手就被劝退,要么不知道从哪个名词开始查,要么打开”30 天速成”的教程看到第三页就关掉——那这份文档就是给你写的。

我把读者大致分两类,这份材料对两类都有用:

  • 完全没有编程或者完全没有 LLM 背景的人:你需要的是一张”地图”,告诉你这个领域全貌长什么样、从哪里开始走。
  • 有一些编程基础但还没真正接触过 LLM 应用的人:你需要一份”对照表”,把你已经会的东西和这个新方向之间的桥搭起来。

读完这份文档你应该能:

  • 用三句话解释清楚什么是 Agent、它和普通 LLM 应用的区别;
  • 知道接下来 1–2 个月按什么顺序学什么内容;
  • 听到那些行话时不再发懵;
  • 不再焦虑——知道这条路有方向、可以走,现在出发并不晚。

阅读时间预估:全文约 1.1 万中文字。按中文技术性内容 350 字/分钟的速度,连贯读完约 30 分钟;如果你边读边查、边想边停,实际约 1–1.5 小时

这份文档不是什么#

为了让你的预期对齐到位,也说清楚这份材料不是什么:

  • 不是代码教程——不会有大段 Python / TypeScript 代码。
  • 不是框架手册——不会逐条讲 LangChain / Vercel AI SDK 的 API。
  • 不是论文综述——不会推 Transformer 公式、不会带你读论文。

如果上面这三件事是你来找的,这份材料不适合你,建议直接读一线大厂的官方文档。如果你需要的是”先帮我搞清楚我在面对一个什么样的领域”——你来对地方了。


关于作者#

我叫 Joye,墨尔本大学计算与软件工程在读,目前大二。

目前在上海一家独角兽公司做 Agent 全栈开发实习

过去几个月密集面过 100+ 家 AI 公司的 Agent 相关岗位,拿到了 30+ 个 offer。我把这些经验写成了两篇博客,也是这份文档的”前传”:

开源项目(GitHub @joyehuang):

  • minimind-notes(109+ Stars):从零构建 LLM 的详细注解教程。
  • Learn-Open-Harness:OpenHarness 零基础交互式教程,带你读懂真实 Agent Harness 的实现。
  • skills:基于 Anthropic Skills 范式的个人 Skill 集合。

我不是行业里资历最深的人,但我刚刚走完你正要走的这条路——这种”刚走过”的视角,有时候比”走得很远”的视角更适合做带路人。


关于付费服务#

这份文档是免费的。但每个人的情况不一样——你的简历应该怎么改、你的项目应该怎么讲、你的学习节奏应该怎么定,这些都需要 1v1 的具体讨论。如果你需要这种深入的帮助,我提供以下三项服务(具体价格请联系咨询):

服务价格档位适合谁
简历修改已有简历但不知道怎么”讲”才能让面试官眼前一亮
1v1 模拟面试¥¥即将面试,需要一次完整的实战演练 + 复盘
学习路线 / 入门陪跑¥¥¥完全零基础或缺乏方向感,需要持续 1–3 个月的周度陪跑

每项服务详细介绍放在文档结尾。联系方式:微信 joye050604(备注”付费咨询”)。


怎么使用这份文档#

我建议你第一遍按顺序通读,建立整体轮廓感。读完之后回到你最有共鸣的章节细读第二遍。

阅读时配合实际动手——每读完一章,找一个最让你有感觉的点,去搜一下相关的开源项目、看一段官方文档、或者直接打开一个 LLM 让它给你解释一下。只读不动手是这个领域最大的坑。

如果你看完觉得有帮助,欢迎在小红书 / X 上转发给同样在准备的朋友。这份文档会定期更新(预计每 3–6 个月一版),后续版本也会继续免费。

我们开始。


第一章|认识 AI Agent#

在你能”开发 Agent”之前,先要能”看懂 Agent”。这一章帮你三句话讲清楚 Agent 是什么、它和已经知道的那些东西(ChatGPT、API、聊天机器人)的区别在哪。

1.1 一个不严谨但好理解的定义#

如果说大语言模型(LLM)是一颗”大脑”,那么 Agent 就是这颗大脑加上了眼睛、手、记忆,以及一个能让它自己循环工作的身体。

更严谨一点的说法:**Agent 是一个以 LLM 为决策核心、能够感知环境、调用工具、维护记忆、并通过自主循环完成多步任务的系统。**关键词四个:LLM、感知、工具、循环

1.2 Agent 不是什么:三个常见误解#

误解一:Agent ≠ 聊天机器人。 聊天机器人的核心是”对话”;Agent 的核心是”完成任务”——对话只是它接收任务的一种方式。

误解二:Agent ≠ 单次 LLM API 调用。 单轮调用是”输入 → 输出”;Agent 至少要具备其中一项才能算 Agent:循环、工具、状态

误解三:Agent ≠ 一个用 LLM 包装的表单 App。 把 LLM 塞进一个用户填表单的产品里——和”加了 GPT-4 的搜索框”没本质区别。真正的 Agent 应该让模型自己决定”下一步做什么”,而不是按人类预设流程走完一遍。

需要补充一点:回到 2023 年的早期 ChatGPT,给它一个输入它给你一个输出,仅此而已。到了 2025–2026 年,主流 ChatGPT、Claude、Gemini 网页端已经把不少 Agent 化能力内置进了产品——联网搜索、代码执行、文件读写、MCP 工具调用。但这是”厂商在产品层把 Agent 能力打包好给用户用了”,而不是”LLM 本身变成了 Agent”。 底层模型仍然是那颗大脑,能动手是因为外面套了一整套 Agent 工程——而你要学的,就是这一整套工程。

1.3 Agent 的四件套#

理解这四件套,你就理解了 Agent 80% 的工程实质。

大脑(LLM):思考和决策。接收当前状态,输出下一步动作(回答用户 / 调用工具)。

记忆(Memory):通常分两层。短期记忆是当前任务的上下文(用户刚说了什么、刚调了什么工具);长期记忆是跨会话的持久信息(用户偏好、关键事实)。

手(Tools / Function Calling):Agent 与外部世界交互的接口——搜索引擎、代码执行、邮件 API、数据库查询都是工具。主流 LLM 厂商都提供原生的 Function Calling 能力。

循环(Agent Loop)感知 → 思考 → 行动 → 感知 → ... 最经典的实现叫 ReAct(Reason + Act)。终止条件通常是:模型自己判断完成 / 达到最大步数 / 用户中断。

1.4 一个最小 Agent 工作流:以”帮我订午饭”为例#

你对一个 Agent 说”帮我订一份午饭,30 块以内,最好是粤菜”。它内部大致这样跑:

第一轮:思考”先查附近粤菜店” → 调用 search_restaurants(cuisine="粤菜") → 拿到 8 家店。

第二轮:思考”按预算过滤” → 调用 filter_by_price(max_price=30) → 剩下 3 家。

第三轮:思考”信息够了,给用户” → 直接回答:“我找到了 3 家,A、B、C,您选哪家?”

注意三个关键点:

  1. 每一步都是模型自己决定的——它自己判断要不要调工具、调哪个、什么时候停。这是 Agent 和”硬编码工作流”最核心的区别。
  2. 工具执行不是模型在做——模型只是输出”我想调这个工具”,真正执行是你程序的工作。
  3. 记忆贯穿了整个流程——第三轮思考时,模型还记得最初的预算和口味要求。

1.5 本章一句话#

Agent = 一个 LLM 在一个循环里,反复地”想一下、做一下”,直到任务完成。


第二章|Agent 生态地图#

这一章是给那些”看招聘 JD 看到一半就要去查 10 个名词”的人写的。我们不深挖每个概念,但把这个领域的术语地图铺平,让你看完之后再看任何一份 JD、博客、开源项目的 README,都知道每个名词大致在说什么。

整个 Agent 技术栈分六层。我们从下往上看。

2.1 模型层:选哪颗大脑#

截至 2026 年 5 月,模型格局已经分化为两个区域池:海外闭源三巨头 + 国内开源五家。

海外三大闭源模型:

  • Claude(Anthropic):当前 Agent 工程领域口碑最强。Opus 4.7 是旗舰,Sonnet 4.6 是日常主力,都原生支持 1M token 上下文。它对结构化输出、长任务保持注意力、工具调用稳定性的处理非常成熟。做 Coding Agent 或复杂 Multi-Agent,Claude 是当前默认选择。
  • GPT(OpenAI):综合能力全能选手,生态最完善,Function Calling 最稳定。
  • Gemini(Google):原生多模态能力最强(图像、视频、音频原生理解)。多模态 Agent 场景首选。

国内开源 / 半开源五家(按梯队和差异化):

  • Qwen(阿里通义千问):背靠阿里云生态,Qwen3.6-Plus 在中文场景、工具调用稳定性、文档处理上表现强;开源的 35B MoE 变体在单卡 GPU 上就能跑。
  • DeepSeek:极致性价比代表。V4 系列开源,价格低到接近免费(输出价格约为 Claude 的 1/10–1/30),1M 上下文。入门调 API 练手,DeepSeek 是首选。
  • Kimi(月之暗面):K2.6 在 SWE-Bench Pro 上一度登顶全球开源第一,长上下文是历史强项。
  • GLM(智谱):GLM-5.1 是目前唯一以 MIT 协议完全开源的旗舰编程模型,能做”8 小时级”的持续 Agent 工作。私有化部署和学术研究场景的默认选择。
  • MiniMax:M2.7 的杀手锏是多模态(语音、视频)和极低的激活参数带来的成本优势。

关于选型的三条真实建议:

  1. 不是越大越好,按任务分级使用——简单意图识别、路由用便宜小模型;复杂代码生成、推理才用旗舰。这是控制成本的关键技巧。
  2. 大部分国内模型都提供 OpenAI 兼容 API 端点——同一套代码改 base_url 就能切换模型。
  3. 不要押宝单一模型——成熟项目会同时接 2–3 家,按任务路由。

2.2 框架层:用什么搭脚手架#

主流选择分两类:官方 SDK第三方框架

官方 SDK:

  • OpenAI SDK:最古老、最稳定。但只能调 OpenAI 自己的模型——不过因为 OpenAI 兼容协议是事实标准,DeepSeek / Qwen / Kimi / GLM 这些国内模型都可以通过改 base_url 用它调。
  • Anthropic SDK:Claude 官方 SDK,Tool Use、Computer Use 这些原生能力都用它接最顺。
  • Google Gen AI SDK:Gemini 官方 SDK,多模态接入最直接。

第三方框架(按推荐度排序):

Vercel AI SDK(我个人最推荐的入门选择):

  • 不限模型——import { anthropic } from '@ai-sdk/anthropic' 用 Claude,换成 OpenAI / Google / DeepSeek 只改一个 import,其他代码完全不动。
  • 它只是一个 SDK,不是框架——给你的是”流式输出""工具调用""结构化输出”这些原语级别的能力,不会像 LangChain / LangGraph 那样强制你按它的抽象(Chain / Graph / Node)来组织代码。Agent Loop 怎么编排完全由你决定,这种自由度对真正想理解 Agent 工作机制的人非常友好。
  • TypeScript / Next.js 生态尤其顺。

LangChain / LangGraph:最老牌、生态最大、文档最丰富,但也最常被吐槽”抽象太重”。除非你的项目特别需要 LangChain 的现成组件(200+ 文档加载器、LangSmith 评估),否则不建议作为第一站

CrewAI / AutoGen / Mastra:分别针对多 Agent 协作、企业级编排、TypeScript 全栈,有具体场景再选。

给入门者的建议:第一个 Agent 建议直接用 Vercel AI SDK 或者厂商官方 SDK——它们的抽象足够轻,不会挡住你看清”Agent Loop 到底在做什么”。不要为了”学框架”而学框架——框架本身不是简历资产,“我用某个框架做了什么有价值的事”才是。

2.3 协议层:MCP 与 Skills#

MCP(Model Context Protocol,模型上下文协议) 是 Anthropic 2024 年底推出的开放协议,让”LLM 应用”和”工具/数据源”之间有了标准化的对话方式

类比一下——以前每个 Agent 想接一个新工具都得自己写适配代码;MCP 就像 Agent 领域的”USB 标准”。Anthropic、OpenAI、Cursor、Cline、Claude Code 都已经支持 MCP——它已经成为事实标准

入门建议是先用别人写好的 MCP Server(Anthropic 官方维护了公开列表),把 Notion / GitHub / Slack 这些工具直接接到你的 Agent 上。

Skills 是同样需要重点理解的概念。 它是 Anthropic 在 2025 年下半年正式推出、2026 年逐渐被业界跟进的产品形态——把一个”打包好的、可复用的 Agent 能力模块”作为一等公民。

要理解 Skills,先看一个工程现实:一个真正能用的 Agent,往往不只是”模型 + 几个工具”,它还需要——一组专门的工具(生成 PPT 需要 pptx 库)、一份精心调过的 Prompt 指导(什么时候用什么、有哪些坑)、一些示例和参考资料(让模型知道”好的输出长什么样”)、有时候还需要特定的代码片段

如果这些散落在 Prompt、工具描述、代码注释里,会发生两件事:模型不知道什么时候该用什么;这些能力没法被复用、分发、版本化。

Skills 把这套”能力包”变成一个可独立存在、可加载、可分享的产品形态。 一个 Skill 通常是一个文件夹,里面有 SKILL.md(描述这个 Skill 做什么、什么时候触发)+ 相关脚本、工具、参考资料。Agent 在需要的时候自动加载对应的 Skill。

几个关键直觉:

  • Skills 是给 Agent 用的”使用说明书”,不是给人看的文档——语言是写给模型读的。
  • Skills 解决了”无限工具会让模型混乱”的问题。Agent 接 50 个工具,模型选错的概率极高;但如果分组装进 10 个 Skills,模型只在匹配到这个 Skill 的场景才会看到对应的工具——这是按需暴露
  • Skills 和 MCP 互补:MCP 解决”工具如何被调用”(接口标准化);Skills 解决”工具如何被组织和触发”(能力打包)。一个 Skill 内部可以调用多个 MCP Server。

如果你看过 Anthropic 官方的 Skills 仓库,会发现它已经把”创建 docx""创建 pptx""创建 xlsx""填 PDF 表单”这些常用能力都做成了 Skills——Claude.ai 的”Create Files”功能背后就是这些 Skills 在跑。这种”把通用能力 Skill 化”的趋势在 2026 年正在被整个行业跟进。

三者的关系

  • Function Calling 是能力——LLM 本身能不能调工具。
  • Tool Use 是行为——Agent 在循环中使用工具的过程。
  • Skill 是组织形式——把工具、Prompt 指导、参考资料打包成可复用模块。

2.4 数据层:RAG、Memory、LLM Wiki#

这一层在 2026 年变化最快——传统 RAG 范式正在被几种新形态部分替代。

RAG(Retrieval-Augmented Generation) 是 2023–2024 年最主流的”让 LLM 拥有自有知识”的方式。核心组件是向量数据库(Milvus、ChromaDB、Pinecone、pgvector、sqlite-vec)。

但 RAG 在 2026 年正在退潮——这件事需要展开讲。

回到 RAG 出现的时代(2023 年初),主流 LLM 的上下文窗口只有 4K–32K tokens,长文档塞不进去,只能”切片 + 向量检索 + 拼回 prompt”。今天 Claude Opus 4.7 / Sonnet 4.6 已经原生支持 1M token,DeepSeek V4 Pro、Qwen3.6-Plus 也是 1M——对于很多场景来说,“先检索再生成”的复杂管道根本没必要,直接把文档塞进上下文里效果反而更好。

Karpathy 在 2025 年中正式提出了一个替代方案叫 LLM Wiki:对个人/小团队的中等规模知识库(10 万 tokens 以下),完全可以放弃向量检索,把所有内容用 Markdown 组织成一个”维基百科”结构,按需把相关章节直接塞进 Prompt 上下文。优点:没有切片误差、没有检索召回率问题、调试和编辑都极简单、命中 Prefix Cache 还能极大降低成本。

但 RAG 没死。 它在以下场景仍然首选:

  • 企业内部场景,强调数据隐私——文档不能离开企业网络。
  • 超大规模知识库(百万级文档以上)——上下文塞不下。
  • 多用户、多租户场景——每个用户数据要隔离。

简单说:做个人项目,先试 LLM Wiki;做 toB 企业项目,RAG 仍是默认。

Memory(记忆系统) 和 RAG 有重叠但不同——Memory 更强调”对当前用户/会话的个性化记忆”(用户偏好、对话摘要、关键事实),通常分三层:Working / Short-term / Long-term。第五章会专门讲。

Agentic Retrieval / Agentic Memory 是 2025–2026 年的新趋势:传统 RAG 是被动管道(先检索再生成),Agentic 模式让 Agent 自己决定要不要检索、检索什么、检索结果要不要二次提炼、要不要再检索一次。这种”主动检索”正在快速取代传统 RAG 在复杂场景下的使用。

2.5 应用层:三大主流落地场景#

经过近一年的行业观察,被反复提及、跑通商业化的主要是这三个方向:

AI 搜索:从 Perplexity 到秘塔 AI 到 Felo,本质都是 Agent 化的搜索——不再是”关键词匹配+排序”,而是”理解意图+检索+综合+生成”。

Chat-to-BI:让业务人员用自然语言查数据、生成图表、做归因分析。

Vibe Coding:从 Copilot 到 Cursor 到 Claude Code 到 OpenCode 到 v0——这个方向最近一年进展最快,也最直接地颠覆了传统软件开发。

如果你在考虑做 Agent 应该往哪个垂直方向走,这三个方向是当下最有商业价值、人才需求最大的。

2.6 技术栈图谱#

层级关键组件代表
应用层AI 搜索、Chat-to-BI、Vibe CodingPerplexity、Cursor、Claude Code
协议层MCP、SkillsAnthropic MCP、Skills
框架层Agent 编排Vercel AI SDK、LangChain、LangGraph
能力层Function Calling / Tool UseOpenAI Function Calling、Claude Tool Use
数据层RAG、Memory、LLM WikiPinecone、Milvus、pgvector
模型层LLMClaude、GPT、Gemini、DeepSeek、Qwen、Kimi、GLM

第三章|怎么看这个方向:趋势、心态与避雷#

这一章不讲技术。讲三件事:为什么 Agent 是当下最值得入门的方向、为什么你不需要焦虑、以及怎么避开那些看上去很美但其实是坑的机会。

3.1 “晚不晚”是一个伪命题#

咨询中我被问得最多的一个问题是:“Joye,我现在才开始学是不是太晚了?”

我的标准回答是:这条赛道上”老人”也才两年经验。

简单梳理时间线:

  • 2022 年 11 月 ChatGPT 发布
  • 2023 年初 AutoGPT 等开源项目兴起,“Agent”开始被广泛讨论
  • 2023 年底 OpenAI 推出 Function Calling,Agent 工程化进入新阶段
  • 2024 年底 Anthropic 推出 MCP,Agent 协议层开始成形
  • 2025 年 Manus、Claude Code、Cursor 等 Agent 产品商业化爆发
  • 2025–2026 年 Skills 体系、Agentic Search、Agentic Memory 等新范式快速演进

也就是说——目前行业里所谓的”资深 Agent 工程师”,从入行到现在最多两到三年。 这意味着你今天开始入门,三年后你也是”老人”。和传统开发领域那些有十年、二十年经验的方向比,这是一个真正可以靠学习速度追赶上来的方向。

3.2 为什么是现在:三个判断#

判断一:Agent 正在从”Demo 期”走向”生产期”。

2023–2024 上半年,行业里大量 Agent 项目停留在 Demo 阶段。从 2024 年下半年开始,可靠性、可观测性、Eval 体系、成本控制这些”工业级”问题被认真对待——这是一个工程师真正能发挥价值的阶段。

判断二:基础设施层的标准化窗口期。

MCP、Skills、AI Gateway 这些基础设施层的标准还在快速成形。这意味着如果你现在入场,有机会真正参与到一个新行业基础设施的建设里——这种窗口期在传统开发领域非常稀缺。

判断三:人才需求正在系统性增长。

2026 年开始,国内头部大厂在日常实习、暑期实习、秋招里都开始系统性地开 Agent 工程师/大模型应用工程师岗——这在两年前还是凤毛麟角的事。

更直观的信号来自 Y Combinator W26 批次(2026 冬季):196 家公司里约 60% 是 AI 原生公司,其中 41.5% 直接做 Agent 基础设施——身份验证、测试、安全、可观测性、上下文管理、计费这些 Agent 周边的”卖铲子”生意。E2B(AI 代码沙箱)官方提到约 10% 的 W26 公司在它平台上跑 Agent。当全世界最挑剔的孵化器之一把 40%+ 的押注都放在 Agent 基础设施上,这个赛道的人才需求只会越来越大。

3.3 你不需要焦虑的几个理由#

第一,行业没有”绝对权威”。 传统计算机科学有那种”我看过他的论文""我读过他的书”的权威专家。Agent 这个方向太新,没有这种人物。OpenAI、Anthropic 的最佳实践都是工程师在边做边写——他们和你的差距是”实践积累”,不是”天赋差距”。

第二,信息差极小。 OpenAI 和 Anthropic 把关于 Prompt 工程、Agent 设计、Skills 体系的最佳实践直接发在公司博客上,任何人免费可读。这种透明度在传统行业不可想象——你想学的东西大多都已经被写出来了,问题只是你愿不愿意花时间读。

第三,工具门槛的”简单部分”在下降,但”深的部分”在上升。 这一点需要分两半讲。

往简单方向看:三年前你想接入 LLM 要懂 GPU 部署;今天你只需要会调 API。Vibe Coding 让”做一个个人网站""做一个简单 ChatBot”几乎没门槛。

但这恰好意味着——当造一个”没有壁垒的 Agent 项目”变得很简单时,没有壁垒的项目本身就不值钱了。 你在 GitHub 上能找到一千个”AI 健康助手""AI 客服 Bot”,因为每个人都能用 Vibe Coding 在一个周末造一个。这些项目放在简历上,面试官扫一眼就知道含金量。

真正的入门门槛被推到了更深的位置:你能不能选一个真实存在的、不是用现成 ChatGPT 就能解决的问题做项目?你能不能在工程层面做出像样的取舍?你能不能讲清楚每一个技术选型”为什么是它”?

简单说:这不是”门槛下降”,而是”门槛从代码能力转移到思考深度”。

第四,对手不是别人,是去年没动手的你自己。 Agent 领域真正”卷”的,不是知识储备,而是”动手量”。读 100 篇博客不如自己写一个能跑的小 Agent。哪怕你今天才开始,只要你动手,你就在跑赢”只看不动手”的 90% 的人。

3.4 六个常见误区#

这六个误区是我接咨询时遇到最频繁的,逐条破除——

误区一:“我数学不好,搞不了 AI。” 你想做的是 AI 应用,不是 AI 算法。应用层的工程实践基本用不到数学。

误区二:“要先把 LLM 原理学完才能学 Agent。” 反了。应用层和底层算法是两条相对独立的赛道。先做应用,等遇到具体问题再回头补理论,效率高 10 倍。

误区三:“学这个是不是要会很多框架?” 框架是工具不是目标。理解了本质你看任何框架都是几分钟上手;只会用框架但不懂底层,遇到框架不支持的场景就完全束手无策。

误区四:“我没大厂背景就找不到工作。” Agent 这个方向恰好是创业公司的天下。他们看重的是”你能不能立刻干活”——你的项目经验、GitHub、博客比学校和上家公司更重要。

误区五:“AI 发展这么快,学了会不会马上过时?” 变的是表层工具,不变的是底层思想。ReAct 范式、上下文工程、记忆系统、工具调用、Eval 体系——这些核心概念过去两年没变过,未来五年也不会有本质变化。

误区六:“Agent 是不是已经是红海了?” 真正”卷”的领域是已经被深度开发了二十年的传统领域。Agent 在 Coding、Research、Customer Support、BI、Marketing 等领域的渗透率还不到 10%——这才哪到哪。


第四章|怎么入门和准备求职#

这是这份文档最实操的一章。从你”打开 IDE 写第一行 LLM 调用”开始,到”拿到第一个 offer”为止,需要做的事都在这里。

4.1 前置技能:你需要会什么、可以不会什么#

先说语言。 Agent 开发当前主流是 Python 和 TypeScript / JavaScript 两个生态——你已经会其中一个就够开始了

  • 偏后端、偏数据、偏算法对接的项目,Python 更常见。
  • 偏前端、偏 Web 产品形态的项目,TypeScript 更主流。
  • 我自己工作中复杂 Agent 项目通常是 Python 后端 + TS 前端——两个都懂一些最舒服,但不是必须。

必须会的: Python 或 TypeScript 任一一种,能熟练写函数、处理 JSON、调一个 HTTP API。

不需要会的(先放下): 深度学习数学、PyTorch / TensorFlow / 模型训练 / 微调、Transformer 内部细节、LangChain / LangGraph 等 Agent 框架的 API(第一个 Agent 不应该从这些开始)。

关于 Git 和命令行: 这些是工程师的”基础卫生”,但在 2026 年它们的学习曲线已经被 AI 工具大幅压平——遇到不会的就问 Cursor / Claude Code,它会一步一步带你做。不要因为不熟悉 Git 就觉得”还没准备好开始学 Agent”,本末倒置。

4.2 三阶段学习路线#

在 2026 年这个时间点,我不再建议新人从零手写 ReAct Loop——这种”手写”在三年前是必经之路,但今天 Vercel AI SDK、Anthropic SDK 这些官方 SDK 的抽象已经足够轻,文档本身就是最好的教学。

阶段一:跑通 SDK(3–5 天)

如果你完全零基础,第一周的唯一目标是手动跑通一次 LLM API 调用:装好 Python 或 Node.js、注册一家 LLM 厂商的 API(推荐 DeepSeek,便宜到不心疼)、写一段 10 行以内的代码把”你好”发给模型、再让它能多轮对话。这一周结束你拥有的最大资产不是代码,是”LLM 不是黑盒、它就是一个能调的 HTTP 服务”的真实体感

然后强烈建议直接读 Vercel AI SDK 的官方文档——它的文档本身就是一份非常优秀的”Agent 教学”,从”调一次模型”到”流式输出""调用工具""多步循环""结构化输出”是层层递进的。为什么不推荐 OpenAI Cookbook、Anthropic Cookbook 起步?因为它们各自只覆盖自家模型,Vercel AI SDK 不限模型,迁移成本最低

Python 路线:用 OpenAI SDK + base_url 模式接 OpenAI 兼容的国内模型,或者用 Anthropic SDK 接 Claude。Pydantic AI 是对标 Vercel AI SDK 的轻量级 Python SDK。

阶段二:理解机制(1–2 周)

给阶段一的 Agent 加几个真实工具——网页搜索(Tavily / SerpAPI)、文件读写、第三方 API。重点观察多工具下模型的”选择行为”:什么时候选错?什么时候陷入死循环?把所有失败案例记下来——这些笔记是最好的简历素材。

然后做两个对比实验:试一次 LLM Wiki 模式(一份资料整理成 Markdown 直接塞进 system prompt),再试一次 RAG 模式(同样的资料用 pgvector / ChromaDB 切片向量化)。亲手做这种对比,比读 10 篇博客都管用。

阶段三:真实项目(1–2 个月)

挑一个你自己每天会用的真实场景——不要做”通用问答助手”这种烂大街的项目。

判断项目”够不够格”的标准——参考我那篇《模拟面试》博客里 W 的灵魂提问:“如果是我,用豆包 / ChatGPT 直接就能解决,为什么一定要做这个?“答不上来,请换一个场景。

几个有”简历价值”的入门项目方向:AI 选题助手(抓取小红书/Twitter 的热门内容做选题建议)、个人 Newsletter 助手(每周自动摘要订阅)、简易 Chat-to-SQL、个人邮件分类 Agent、轻量代码 Review 助手(接 GitHub Webhook)。

每个项目完成后写一篇博客复盘——“我做了什么""遇到了什么坑""怎么解决的”。这篇博客本身就是简历最强的素材。

4.3 求职准备:项目要”讲到极致”#

如果你只能把准备时间花在一件事上,就是把你的项目讲到极致——说清楚四件事:

  • 做了什么(What):项目背景、你的角色、整体架构
  • 为什么这么做(Why):每一个关键决策的依据
  • 踩过什么坑(How it failed):失败案例 + 解决方案
  • 学到了什么(What you learned):重做你会怎么改

反例:“我用 LangChain 做了一个 RAG 客服系统。“——这种描述等于没说,是面试杀手。

正例

“我做了一个客服 RAG 系统。最初用简单向量检索,召回率只有 60%——分析发现客户问题口语化,和文档原文的措辞差距大。我们引入了 Query Rewriting:先用轻量模型把用户问题改写成多个候选 Query,再分别检索后合并去重。这一改召回率提升到 85%,但 Token 成本增加 30%。为了平衡成本,我们后来加了缓存——同一类问题的改写结果可以复用。最终在召回率 80%+ 的前提下,成本只增加 5%。”

这段话有:指标(60% → 85%)+ 决策(Query Rewriting)+ 权衡(成本 vs 召回)+ 后续优化(缓存)。这就是”讲到极致”。

简历层面的三个要点:不要堆技术名词(“熟练掌握 LangChain、LangGraph、Vercel AI SDK、CrewAI……”这种简历看了让人发笑——真正强的候选人简历里技术词反而少);每段项目按”问题 — 方案 — 结果”结构;数字化成果(哪怕估算也比没数字强)。

面试层面——Agent 岗考的不是八股文,是”你经历过什么”。具体四个维度:

  1. 基础认知:LLM / Agent / Chatbot 的本质区别、Function Calling 怎么工作、MCP 是什么……
  2. 系统设计:上下文工程方案、记忆分层、工具调用可靠性、多 Agent 协作……
  3. 工程取舍:模型选型依据、成本和效果平衡、框架选型判断、失败重试策略……
  4. 行业认知:Manus / Claude Code / OpenCode 的设计思路、最近读了什么、关注什么开源项目……

第一层靠经验、第二层靠理解、第三层靠判断。越往后越能拉开候选人差距。 我那篇《模拟面试》博客里把每一类都举了具体例子,需要的话可以去看。

4.4 五个不要走的弯路#

弯路一:一上来就啃 LangChain 源码。 设计复杂,源码对新人极不友好。等你用 SDK 跑过几个项目之后再去看,体感会完全不一样。

弯路二:过早卷模型微调。 99% 的应用场景不需要微调,Prompt 工程 + RAG / LLM Wiki 已经能解决大部分问题。

弯路三:追新框架不沉淀基本功。 每隔两周就有新框架。一旦你形成”追新”习惯,就永远在学新东西、永远没有自己的项目。

弯路四:看完教程就觉得自己会了。 Agent 这个领域所有”看起来很简单”的概念,真正动手都会发现一堆细节。只看不写等于零。

弯路五:只做不输出。 做了项目不写文档、不写博客、不发开源,等于白做。输出是倒逼输入最有效的方式,也是你后续找工作时最强的差异化资产。

4.5 推荐学习资源(精选)#

官方文档(按顺序读):Vercel AI SDK 官方文档(TypeScript 入门最优起点)→ Anthropic 官方文档的 Tool Use / Skills / Prompt Engineering 章节 → OpenAI Cookbook(Python 实战补充)→ 你选的国产模型厂商的文档(DeepSeek / Qwen / Kimi / GLM 任一)。

一线博客(每周扫一眼):Anthropic Engineering Blog、Sequoia / a16z 的 AI 板块、Hacker News 的 AI 板块。

社区:Twitter / X 关注 @karpathy、@AnthropicAI、@simonw、@_philschmid、@jxnlco。

不在这一阶段推荐任何 LLM 内部机制类资源(Karpathy 的 “Let’s build GPT” 系列、各种 minimind 类源码教程)。它们都很优秀,但解决的是”理解 LLM 怎么训练出来的”问题,跟做 Agent 应用是两条赛道。等你做完第一个真实项目、有了具体好奇心,再回头看会更有体感。

第五章|真正重要的那几件事#

前面四章讲清楚了”是什么、怎么入门、怎么求职”。最后这一章是给那些已经做完第一个项目、想知道”再往深里走是什么”的人——也是 Agent 工程师真正的内功心法。

每节都用一个生活类比帮你建立直觉。这一章读完,你就有了和资深工程师对话的共同语言。

5.1 上下文工程#

类比:你给同事交接工作,给的是 100 页项目档案,还是一份 1 页精要 brief?

LLM 的注意力是有限的——上下文越长、信息密度越低,它越容易”看走神”,同时 Token 成本越高、响应越慢。Context Engineering 解决的就是”在有限空间里,把最该被看到的信息以最有效的方式呈现给模型”。

在实际项目里,一个商业级 Agent 一次对话可能要处理几十轮交互、调用几十次工具。如果不做上下文管理,10 分钟内就会把上下文撑爆。常见技巧——

  • 结构化 Prompt:用 XML 标签、JSON 块、明确分隔符代替自然语言流水账。
  • 关键信息前置 / 后置:模型对开头和结尾的注意力更高(“Lost in the Middle”现象)。重要约束放 System Prompt 顶部或 User 消息末尾。
  • 历史摘要替代历史明文:长对话里把早期对话压缩成摘要。
  • Prefix Cache 友好的上下文设计:不变的内容放前面、变化的放后面,能极大降低成本。

5.2 记忆系统#

类比:人怎么记事?短期记忆(刚发生的事)、长期记忆(多年前的重要经历)、检索唤起(看到老照片突然想起一段往事)。Agent 的记忆架构基本是仿这个的。

三层架构

  • Working Memory:当前任务正在用的上下文
  • Short-term Memory:当前会话的历史
  • Long-term Memory:跨会话的持久信息

长期记忆的关键决策点有三个——

写入策略:什么样的信息值得写入?“我今天想吃辣”这种临时偏好不该记;“我对花生过敏”这种长期事实必须记。这种分类通常由专门的”Memory Agent”来判断。

读取策略:什么时候检索、怎么检索?每次对话都检索一次还是特定意图下检索?用向量相似度、关键词、图检索?

遗忘策略:长期记忆不是越多越好。过时、低价值、矛盾的记忆应该被清理或衰减。

5.3 工具调用#

类比:让一个聪明但没有手的人帮你完成任务——你得告诉他附近有哪些工具、每个能做什么、怎么用。

工程上几个常见难点:

  • Tool Schema 设计:参数名、描述写得越清楚,模型用错概率越低。
  • 工具数量取舍:太少不够用,太多模型选不对。一般 10 个是上限——超过就需要做”工具路由”(这正是前面讲的 Skills 解决的问题)。
  • 失败重试与幂等:失败重试是必要的,但要有上限——3 次不行就报错,比无限重试烧钱强。
  • 事前约束 vs 事后兜底:在 Prompt 层把工具使用边界讲清楚,比在工具执行层做权限控制效率高得多。

5.4 可靠性#

类比:写 Demo 像在自家厨房做菜,写 Production 像开餐厅——你要应对的不只是”做得好不好”,还有”高峰期会不会爆""偶尔来个挑剔顾客会不会让流程崩”。

传统应用是”确定性系统”——同样输入永远得到同样输出。Agent 是”概率性系统”——同样输入可能得到不同输出,甚至完全失败。这意味着”测过一次就 OK”的开发模式在 Agent 上完全行不通。

常见可靠性问题:幻觉、指令偏离、格式不稳定、死循环、工具失败的级联崩溃。

工程上的核心思路:

  • 事前约束:用 Prompt 把”应该怎么做”讲清楚,比事后兜底成本低
  • 结构化输出 + Schema 校验:用 Pydantic、Zod 校验模型输出
  • 状态机 + Checkpoint:把 Agent 流程显式化为状态机
  • 降级策略:工具失败时有 fallback 路径

5.5 成本控制#

类比:开车——油价、路程、车型都会影响油钱。Agent 也一样:模型、上下文长度、调用次数共同决定一次任务的成本。

Agent 的成本远比传统应用高。一次复杂任务可能要几十次 LLM 调用、累计几万到几十万 Token——单次任务可能花几块到几十块人民币。如果你的产品是 toC 免费的,成本控制不好就是赔本赚吆喝。

几个高 ROI 的优化手段:

  • Prefix Cache 友好设计:OpenAI、Anthropic 都对”前缀命中”有缓存优惠(最高省 90% 成本)。把不变的内容放前面。
  • 模型分级使用:简单任务用便宜模型,复杂任务才用旗舰。
  • 减少 Agent Step 数:能在一步讲清楚的事就不要拆成多步。
  • 上下文剪枝:把不相关的工具结果、过时对话历史从上下文剔除。

5.6 评估(Eval)#

类比:传统软件能用单元测试——输入 1+1,期望输出 2,错了就是 Bug。Agent 没有”标准答案”——你怎么知道它做得”好”?

Agent 没有”对错”,只有”好坏”。这意味着你需要一套机制回答”我新版本的 Agent 比上一版好还是坏?“——没有这个机制,你优化半天根本不知道方向对不对。Eval 体系是 Agent 工程从”作坊”到”工业”的标志。

主流评估方法:

  • 离线评估:准备一批测试用例,让 Agent 跑,人工或 LLM-as-Judge 打分
  • 在线评估:在生产环境里收集真实用户反馈(点赞点踩、停留时长、是否继续追问)
  • LLM as a Judge:用更强的模型当裁判——注意它本身的偏差(倾向打高分、偏好长答案等)
  • 对照实验:A/B Test,把新版和旧版分流给不同用户

5.7 这六件事是 Agent 工程师真正的”内功”#

总结一下——

  1. 上下文工程:有限空间里最大化信息密度
  2. 记忆系统:让 Agent 像人一样分层记事
  3. 工具调用:让 Agent 能”动手”——并且不要乱来
  4. 可靠性:从确定性思维切换到概率性思维
  5. 成本控制:钱是真的会烧的
  6. 评估:没有 Eval 的 Agent 优化都是玄学

如果你能在简历或面试中讲清楚这六件事,你已经领先 80% 的应聘者了。


写在最后#

如果你看到这里——谢谢你花时间读完。

这份文档是免费的,因为我希望帮到所有想入门 Agent 的人。它会定期更新——大约每 3–6 个月一版,重大行业事件会有”增量补丁”。你看到的版本是 v1.0(Updated: 2026-05-17)

但每个人的情况不一样:

  • 你的简历应该怎么改,文档里给不了具体段落级别的建议;
  • 你的项目应该怎么讲,文档里给不了针对你这个项目的”问题—方案—结果”重写;
  • 你的学习节奏应该怎么定,文档里只能给通用三阶段,不能根据你的基础给周度计划;
  • 你即将面的那家公司可能会问什么,文档里只能给四维度框架,不能给针对你简历的题库。

如果你需要这种 1v1 的具体帮助,我提供以下三档服务——所有服务都是我亲自交付,不外包、不批量。


付费服务详细介绍#

所有服务的具体价格请联系咨询——咨询本身免费,我会先了解你的情况,再判断哪种服务最适合你。不合适的话会直接告诉你不适合,不会强推。

服务一:简历修改(¥)#

适合谁

  • 已经有简历和项目经历,但不确定怎么”讲”才能让面试官眼前一亮
  • 简历上有项目但讲不出”问题 — 方案 — 结果”
  • 想转 Agent 方向,但旧简历不知道怎么改造才有针对性

服务内容

  • 详细 review 你的简历
  • 给出具体到段落、句子级别的修改建议——不是泛泛而谈”建议突出亮点”,而是”这一段应该改成 XXX”
  • 帮你重新组织项目叙事——把零散工作内容打磨成”能在面试 5 分钟内讲清楚”的故事
  • 提供针对你目标方向(Agent 工程 / LLM 应用 / Multi-Agent / RAG 等)的关键词建议
  • 一次 30–60 分钟的 1v1 沟通,就修改后的版本再过一遍

服务二:1v1 模拟面试(¥¥)#

适合谁

  • 已经在准备 Agent 工程师岗位,但缺乏实战面试经验
  • 自己复盘过项目,但希望有人专业地”拷问”一遍
  • 即将面一家心仪公司,希望提前热身

服务内容

  • 提前沟通你的简历和目标公司方向,定制面试题库
  • 完整的面试模拟,覆盖基础认知 + 系统设计 + 工程取舍 + 行业认知四个维度
  • 按时间收费,最少 1 小时起——1 小时就是 1 小时,1.5 小时就是 1.5 小时,价格按时长线性计算
  • 全程录音 / 录像(按你需要)
  • 面试过程中如果提到值得继续看的资源(论文、博客、开源项目),结束后会整理给你

服务三:学习路线 / 入门陪跑(¥¥¥)#

适合谁

  • 完全零基础或者有基础但缺乏方向感,希望有人系统带一段时间
  • 自学时容易卡住、容易放弃,需要外部的节奏督促和答疑
  • 希望在固定时间窗(1–3 个月)内达成具体目标,比如”做出第一个能拿出去说的 Agent 项目”

服务内容

  • 入门评估:1v1 沟通了解你的现有基础、目标、可投入时间
  • 定制学习路线:根据你的情况定制个性化的周度学习计划
  • 周度 1v1 答疑:每周固定时间一次 30–60 分钟同步——复盘上周进度、答疑、调整下周计划
  • 项目陪跑:陪跑期间你做的项目我会全程跟进 + 关键节点 review
  • 期末交付物:陪跑结束时你会拥有至少一个完整的、可放进简历的 Agent 项目,以及一份完整的复盘文档

典型陪跑周期:4 周 / 8 周 / 12 周——根据你的目标和时间决定。


如何联系#

加微信 joye050604,备注 “付费咨询”

或者通过以下其他渠道:


关于这份文档的后续更新#

这份文档不是一锤子买卖

  • 大约每 3–6 个月更新一次,根据行业最新动向修订
  • 重大行业事件(新 LLM 大版本、新协议层标准)会做”增量补丁”
  • 看到这份文档的读者,所有更新版本继续免费

关于反馈#

如果你看完这份文档有任何意见、建议、或者发现错误,非常希望你能告诉我。可以通过任何渠道——邮件、网站留言、私信。读者反馈是我修订这份材料最重要的依据。

特别欢迎的反馈类型:

  • 某个概念你觉得讲得不够清楚
  • 某个判断你不同意,想和我讨论
  • 你按路线图实践了,发现某个建议不太适用
  • 你自己摸索出了文档里没有的好做法

最后的祝福#

Build fast, learn faster.

这是我自己博客的 slogan,也是我对你的祝福。

这份文档到这里就结束了——但你的旅程才刚刚开始。

如果它帮到了你哪怕一点点,那就值得了。如果你后续真的入了 Agent 工程师这一行,希望某天我们能在某家 AI 公司、某个开源项目、某个 GitHub Issue 下相遇。到那时,记得告诉我——“这份文档我当年也读过。”

—— Joye

Updated: 2026-05-17 · v1.0

版权所有。如需转载请联系作者。

写给所有"想入门 Agent 但不知道从哪开始"的人
https://joyehuang.me/blog/20260517---agentonboardingguide/post
Author Joye
Published at 2026年5月17日
Comment seems to stuck. Try to refresh?✨