写给所有"想入门 Agent 但不知道从哪开始"的人 • Joye Personal Blog

Joye 的 Agent 工程师入门指南 · v1.0 · 粉丝免费版

Updated: 2026-05-17

开篇｜在你读下去之前#

这份文档是写给谁的#

如果你最近的状态是这样的——身边的人在聊 Agent、聊 MCP、聊 Vibe Coding，你看到一堆陌生的名词在飘，大概知道这是一个值得入门的方向，但每次想动手就被劝退，要么不知道从哪个名词开始查，要么打开”30 天速成”的教程看到第三页就关掉——那这份文档就是给你写的。

我把读者大致分两类，这份材料对两类都有用：

完全没有编程或者完全没有 LLM 背景的人：你需要的是一张”地图”，告诉你这个领域全貌长什么样、从哪里开始走。
有一些编程基础但还没真正接触过 LLM 应用的人：你需要一份”对照表”，把你已经会的东西和这个新方向之间的桥搭起来。

读完这份文档你应该能：

用三句话解释清楚什么是 Agent、它和普通 LLM 应用的区别；
知道接下来 1–2 个月按什么顺序学什么内容；
听到那些行话时不再发懵；
不再焦虑——知道这条路有方向、可以走，现在出发并不晚。

阅读时间预估：全文约 1.1 万中文字。按中文技术性内容 350 字/分钟的速度，连贯读完约 30 分钟；如果你边读边查、边想边停，实际约 1–1.5 小时。

这份文档不是什么#

为了让你的预期对齐到位，也说清楚这份材料不是什么：

不是代码教程——不会有大段 Python / TypeScript 代码。
不是框架手册——不会逐条讲 LangChain / Vercel AI SDK 的 API。
不是论文综述——不会推 Transformer 公式、不会带你读论文。

如果上面这三件事是你来找的，这份材料不适合你，建议直接读一线大厂的官方文档。如果你需要的是”先帮我搞清楚我在面对一个什么样的领域”——你来对地方了。

关于作者#

我叫 Joye，墨尔本大学计算与软件工程在读，目前大二。

目前在上海一家独角兽公司做 Agent 全栈开发实习。

过去几个月密集面过 100+ 家 AI 公司的 Agent 相关岗位，拿到了 30+ 个 offer。我把这些经验写成了两篇博客，也是这份文档的”前传”：

《一个大二实习生的 Agent 开发面试修炼手册》 ↗（2026 年 3 月，440 阅读）——我自己求职过程的完整复盘。这篇是我开始接咨询的起点。
《一场 1 小时 19 分钟的 Agent 工程师模拟面试，我们到底聊了什么》 ↗（2026 年 5 月，199 阅读）——和另一位面试官 W 一起做的 80 分钟有偿模拟面试的全程复盘。这篇发出后收到非常多读者反馈：有人按里面的方法重新整理项目深挖之后拿到了大厂 offer，也有人通过这篇第一次真正理解 Agent 开发到底应该怎么准备。

开源项目（GitHub @joyehuang ↗）：

minimind-notes ↗（109+ Stars）：从零构建 LLM 的详细注解教程。
Learn-Open-Harness ↗：OpenHarness 零基础交互式教程，带你读懂真实 Agent Harness 的实现。
skills ↗：基于 Anthropic Skills 范式的个人 Skill 集合。

我不是行业里资历最深的人，但我刚刚走完你正要走的这条路——这种”刚走过”的视角，有时候比”走得很远”的视角更适合做带路人。

关于付费服务#

这份文档是免费的。但每个人的情况不一样——你的简历应该怎么改、你的项目应该怎么讲、你的学习节奏应该怎么定，这些都需要 1v1 的具体讨论。如果你需要这种深入的帮助，我提供以下三项服务（具体价格请联系咨询）：

服务	价格档位	适合谁
简历修改	￥	已有简历但不知道怎么”讲”才能让面试官眼前一亮
1v1 模拟面试	￥￥	即将面试，需要一次完整的实战演练 + 复盘
学习路线 / 入门陪跑	￥￥￥	完全零基础或缺乏方向感，需要持续 1–3 个月的周度陪跑

每项服务详细介绍放在文档结尾。联系方式：微信 joye050604（备注”付费咨询”）。

怎么使用这份文档#

我建议你第一遍按顺序通读，建立整体轮廓感。读完之后回到你最有共鸣的章节细读第二遍。

阅读时配合实际动手——每读完一章，找一个最让你有感觉的点，去搜一下相关的开源项目、看一段官方文档、或者直接打开一个 LLM 让它给你解释一下。只读不动手是这个领域最大的坑。

如果你看完觉得有帮助，欢迎在小红书 / X 上转发给同样在准备的朋友。这份文档会定期更新（预计每 3–6 个月一版），后续版本也会继续免费。

我们开始。

第一章｜认识 AI Agent#

在你能”开发 Agent”之前，先要能”看懂 Agent”。这一章帮你三句话讲清楚 Agent 是什么、它和已经知道的那些东西（ChatGPT、API、聊天机器人）的区别在哪。

1.1 一个不严谨但好理解的定义#

如果说大语言模型（LLM）是一颗”大脑”，那么 Agent 就是这颗大脑加上了眼睛、手、记忆，以及一个能让它自己循环工作的身体。

更严谨一点的说法：**Agent 是一个以 LLM 为决策核心、能够感知环境、调用工具、维护记忆、并通过自主循环完成多步任务的系统。**关键词四个：LLM、感知、工具、循环。

1.2 Agent 不是什么：三个常见误解#

误解一：Agent ≠ 聊天机器人。 聊天机器人的核心是”对话”；Agent 的核心是”完成任务”——对话只是它接收任务的一种方式。

误解二：Agent ≠ 单次 LLM API 调用。 单轮调用是”输入 → 输出”；Agent 至少要具备其中一项才能算 Agent：循环、工具、状态。

误解三：Agent ≠ 一个用 LLM 包装的表单 App。 把 LLM 塞进一个用户填表单的产品里——和”加了 GPT-4 的搜索框”没本质区别。真正的 Agent 应该让模型自己决定”下一步做什么”，而不是按人类预设流程走完一遍。

需要补充一点：回到 2023 年的早期 ChatGPT，给它一个输入它给你一个输出，仅此而已。到了 2025–2026 年，主流 ChatGPT、Claude、Gemini 网页端已经把不少 Agent 化能力内置进了产品——联网搜索、代码执行、文件读写、MCP 工具调用。但这是”厂商在产品层把 Agent 能力打包好给用户用了”，而不是”LLM 本身变成了 Agent”。 底层模型仍然是那颗大脑，能动手是因为外面套了一整套 Agent 工程——而你要学的，就是这一整套工程。

1.3 Agent 的四件套#

理解这四件套，你就理解了 Agent 80% 的工程实质。

大脑（LLM）：思考和决策。接收当前状态，输出下一步动作（回答用户 / 调用工具）。

记忆（Memory）：通常分两层。短期记忆是当前任务的上下文（用户刚说了什么、刚调了什么工具）；长期记忆是跨会话的持久信息（用户偏好、关键事实）。

手（Tools / Function Calling）：Agent 与外部世界交互的接口——搜索引擎、代码执行、邮件 API、数据库查询都是工具。主流 LLM 厂商都提供原生的 Function Calling 能力。

循环（Agent Loop）：感知 → 思考 → 行动 → 感知 → ... 最经典的实现叫 ReAct（Reason + Act）。终止条件通常是：模型自己判断完成 / 达到最大步数 / 用户中断。

1.4 一个最小 Agent 工作流：以”帮我订午饭”为例#

你对一个 Agent 说”帮我订一份午饭，30 块以内，最好是粤菜”。它内部大致这样跑：

第一轮：思考”先查附近粤菜店” → 调用 search_restaurants(cuisine="粤菜") → 拿到 8 家店。

第二轮：思考”按预算过滤” → 调用 filter_by_price(max_price=30) → 剩下 3 家。

第三轮：思考”信息够了，给用户” → 直接回答：“我找到了 3 家，A、B、C，您选哪家？”

注意三个关键点：

每一步都是模型自己决定的——它自己判断要不要调工具、调哪个、什么时候停。这是 Agent 和”硬编码工作流”最核心的区别。
工具执行不是模型在做——模型只是输出”我想调这个工具”，真正执行是你程序的工作。
记忆贯穿了整个流程——第三轮思考时，模型还记得最初的预算和口味要求。

1.5 本章一句话#

Agent = 一个 LLM 在一个循环里，反复地”想一下、做一下”，直到任务完成。

第二章｜Agent 生态地图#

这一章是给那些”看招聘 JD 看到一半就要去查 10 个名词”的人写的。我们不深挖每个概念，但把这个领域的术语地图铺平，让你看完之后再看任何一份 JD、博客、开源项目的 README，都知道每个名词大致在说什么。

整个 Agent 技术栈分六层。我们从下往上看。

2.1 模型层：选哪颗大脑#

截至 2026 年 5 月，模型格局已经分化为两个区域池：海外闭源三巨头 + 国内开源五家。

海外三大闭源模型：

Claude（Anthropic）：当前 Agent 工程领域口碑最强。Opus 4.7 是旗舰，Sonnet 4.6 是日常主力，都原生支持 1M token 上下文。它对结构化输出、长任务保持注意力、工具调用稳定性的处理非常成熟。做 Coding Agent 或复杂 Multi-Agent，Claude 是当前默认选择。
GPT（OpenAI）：综合能力全能选手，生态最完善，Function Calling 最稳定。
Gemini（Google）：原生多模态能力最强（图像、视频、音频原生理解）。多模态 Agent 场景首选。

国内开源 / 半开源五家（按梯队和差异化）：

Qwen（阿里通义千问）：背靠阿里云生态，Qwen3.6-Plus 在中文场景、工具调用稳定性、文档处理上表现强；开源的 35B MoE 变体在单卡 GPU 上就能跑。
DeepSeek：极致性价比代表。V4 系列开源，价格低到接近免费（输出价格约为 Claude 的 1/10–1/30），1M 上下文。入门调 API 练手，DeepSeek 是首选。
Kimi（月之暗面）：K2.6 在 SWE-Bench Pro 上一度登顶全球开源第一，长上下文是历史强项。
GLM（智谱）：GLM-5.1 是目前唯一以 MIT 协议完全开源的旗舰编程模型，能做”8 小时级”的持续 Agent 工作。私有化部署和学术研究场景的默认选择。
MiniMax：M2.7 的杀手锏是多模态（语音、视频）和极低的激活参数带来的成本优势。

关于选型的三条真实建议：

不是越大越好，按任务分级使用——简单意图识别、路由用便宜小模型；复杂代码生成、推理才用旗舰。这是控制成本的关键技巧。
大部分国内模型都提供 OpenAI 兼容 API 端点——同一套代码改 base_url 就能切换模型。
不要押宝单一模型——成熟项目会同时接 2–3 家，按任务路由。

2.2 框架层：用什么搭脚手架#

主流选择分两类：官方 SDK 和 第三方框架。

官方 SDK：

OpenAI SDK：最古老、最稳定。但只能调 OpenAI 自己的模型——不过因为 OpenAI 兼容协议是事实标准，DeepSeek / Qwen / Kimi / GLM 这些国内模型都可以通过改 base_url 用它调。
Anthropic SDK：Claude 官方 SDK，Tool Use、Computer Use 这些原生能力都用它接最顺。
Google Gen AI SDK：Gemini 官方 SDK，多模态接入最直接。

第三方框架（按推荐度排序）：

Vercel AI SDK（我个人最推荐的入门选择）：

不限模型——import { anthropic } from '@ai-sdk/anthropic' 用 Claude，换成 OpenAI / Google / DeepSeek 只改一个 import，其他代码完全不动。
它只是一个 SDK，不是框架——给你的是”流式输出""工具调用""结构化输出”这些原语级别的能力，不会像 LangChain / LangGraph 那样强制你按它的抽象（Chain / Graph / Node）来组织代码。Agent Loop 怎么编排完全由你决定，这种自由度对真正想理解 Agent 工作机制的人非常友好。
TypeScript / Next.js 生态尤其顺。

LangChain / LangGraph：最老牌、生态最大、文档最丰富，但也最常被吐槽”抽象太重”。除非你的项目特别需要 LangChain 的现成组件（200+ 文档加载器、LangSmith 评估），否则不建议作为第一站。

CrewAI / AutoGen / Mastra：分别针对多 Agent 协作、企业级编排、TypeScript 全栈，有具体场景再选。

给入门者的建议：第一个 Agent 建议直接用 Vercel AI SDK 或者厂商官方 SDK——它们的抽象足够轻，不会挡住你看清”Agent Loop 到底在做什么”。不要为了”学框架”而学框架——框架本身不是简历资产，“我用某个框架做了什么有价值的事”才是。

2.3 协议层：MCP 与 Skills#

MCP（Model Context Protocol，模型上下文协议） 是 Anthropic 2024 年底推出的开放协议，让”LLM 应用”和”工具/数据源”之间有了标准化的对话方式。

类比一下——以前每个 Agent 想接一个新工具都得自己写适配代码；MCP 就像 Agent 领域的”USB 标准”。Anthropic、OpenAI、Cursor、Cline、Claude Code 都已经支持 MCP——它已经成为事实标准。

入门建议是先用别人写好的 MCP Server（Anthropic 官方维护了公开列表），把 Notion / GitHub / Slack 这些工具直接接到你的 Agent 上。

Skills 是同样需要重点理解的概念。 它是 Anthropic 在 2025 年下半年正式推出、2026 年逐渐被业界跟进的产品形态——把一个”打包好的、可复用的 Agent 能力模块”作为一等公民。

要理解 Skills，先看一个工程现实：一个真正能用的 Agent，往往不只是”模型 + 几个工具”，它还需要——一组专门的工具（生成 PPT 需要 pptx 库）、一份精心调过的 Prompt 指导（什么时候用什么、有哪些坑）、一些示例和参考资料（让模型知道”好的输出长什么样”）、有时候还需要特定的代码片段。

如果这些散落在 Prompt、工具描述、代码注释里，会发生两件事：模型不知道什么时候该用什么；这些能力没法被复用、分发、版本化。

Skills 把这套”能力包”变成一个可独立存在、可加载、可分享的产品形态。 一个 Skill 通常是一个文件夹，里面有 SKILL.md（描述这个 Skill 做什么、什么时候触发）+ 相关脚本、工具、参考资料。Agent 在需要的时候自动加载对应的 Skill。

几个关键直觉：

Skills 是给 Agent 用的”使用说明书”，不是给人看的文档——语言是写给模型读的。
Skills 解决了”无限工具会让模型混乱”的问题。Agent 接 50 个工具，模型选错的概率极高；但如果分组装进 10 个 Skills，模型只在匹配到这个 Skill 的场景才会看到对应的工具——这是按需暴露。
Skills 和 MCP 互补：MCP 解决”工具如何被调用”（接口标准化）；Skills 解决”工具如何被组织和触发”（能力打包）。一个 Skill 内部可以调用多个 MCP Server。

如果你看过 Anthropic 官方的 Skills 仓库，会发现它已经把”创建 docx""创建 pptx""创建 xlsx""填 PDF 表单”这些常用能力都做成了 Skills——Claude.ai 的”Create Files”功能背后就是这些 Skills 在跑。这种”把通用能力 Skill 化”的趋势在 2026 年正在被整个行业跟进。

三者的关系：

Function Calling 是能力——LLM 本身能不能调工具。
Tool Use 是行为——Agent 在循环中使用工具的过程。
Skill 是组织形式——把工具、Prompt 指导、参考资料打包成可复用模块。

2.4 数据层：RAG、Memory、LLM Wiki#

这一层在 2026 年变化最快——传统 RAG 范式正在被几种新形态部分替代。

RAG（Retrieval-Augmented Generation） 是 2023–2024 年最主流的”让 LLM 拥有自有知识”的方式。核心组件是向量数据库（Milvus、ChromaDB、Pinecone、pgvector、sqlite-vec）。

但 RAG 在 2026 年正在退潮——这件事需要展开讲。

回到 RAG 出现的时代（2023 年初），主流 LLM 的上下文窗口只有 4K–32K tokens，长文档塞不进去，只能”切片 + 向量检索 + 拼回 prompt”。今天 Claude Opus 4.7 / Sonnet 4.6 已经原生支持 1M token，DeepSeek V4 Pro、Qwen3.6-Plus 也是 1M——对于很多场景来说，“先检索再生成”的复杂管道根本没必要，直接把文档塞进上下文里效果反而更好。

Karpathy 在 2025 年中正式提出了一个替代方案叫 LLM Wiki：对个人/小团队的中等规模知识库（10 万 tokens 以下），完全可以放弃向量检索，把所有内容用 Markdown 组织成一个”维基百科”结构，按需把相关章节直接塞进 Prompt 上下文。优点：没有切片误差、没有检索召回率问题、调试和编辑都极简单、命中 Prefix Cache 还能极大降低成本。

但 RAG 没死。 它在以下场景仍然首选：

企业内部场景，强调数据隐私——文档不能离开企业网络。
超大规模知识库（百万级文档以上）——上下文塞不下。
多用户、多租户场景——每个用户数据要隔离。

简单说：做个人项目，先试 LLM Wiki；做 toB 企业项目，RAG 仍是默认。

Memory（记忆系统） 和 RAG 有重叠但不同——Memory 更强调”对当前用户/会话的个性化记忆”（用户偏好、对话摘要、关键事实），通常分三层：Working / Short-term / Long-term。第五章会专门讲。

Agentic Retrieval / Agentic Memory 是 2025–2026 年的新趋势：传统 RAG 是被动管道（先检索再生成），Agentic 模式让 Agent 自己决定要不要检索、检索什么、检索结果要不要二次提炼、要不要再检索一次。这种”主动检索”正在快速取代传统 RAG 在复杂场景下的使用。

2.5 应用层：三大主流落地场景#

经过近一年的行业观察，被反复提及、跑通商业化的主要是这三个方向：

AI 搜索：从 Perplexity 到秘塔 AI 到 Felo，本质都是 Agent 化的搜索——不再是”关键词匹配+排序”，而是”理解意图+检索+综合+生成”。

Chat-to-BI：让业务人员用自然语言查数据、生成图表、做归因分析。

Vibe Coding：从 Copilot 到 Cursor 到 Claude Code 到 OpenCode 到 v0——这个方向最近一年进展最快，也最直接地颠覆了传统软件开发。

如果你在考虑做 Agent 应该往哪个垂直方向走，这三个方向是当下最有商业价值、人才需求最大的。

2.6 技术栈图谱#

层级	关键组件	代表
应用层	AI 搜索、Chat-to-BI、Vibe Coding	Perplexity、Cursor、Claude Code
协议层	MCP、Skills	Anthropic MCP、Skills
框架层	Agent 编排	Vercel AI SDK、LangChain、LangGraph
能力层	Function Calling / Tool Use	OpenAI Function Calling、Claude Tool Use
数据层	RAG、Memory、LLM Wiki	Pinecone、Milvus、pgvector
模型层	LLM	Claude、GPT、Gemini、DeepSeek、Qwen、Kimi、GLM

第三章｜怎么看这个方向：趋势、心态与避雷#

这一章不讲技术。讲三件事：为什么 Agent 是当下最值得入门的方向、为什么你不需要焦虑、以及怎么避开那些看上去很美但其实是坑的机会。

3.1 “晚不晚”是一个伪命题#

咨询中我被问得最多的一个问题是：“Joye，我现在才开始学是不是太晚了？”

我的标准回答是：这条赛道上”老人”也才两年经验。

简单梳理时间线：

2022 年 11 月 ChatGPT 发布
2023 年初 AutoGPT 等开源项目兴起，“Agent”开始被广泛讨论
2023 年底 OpenAI 推出 Function Calling，Agent 工程化进入新阶段
2024 年底 Anthropic 推出 MCP，Agent 协议层开始成形
2025 年 Manus、Claude Code、Cursor 等 Agent 产品商业化爆发
2025–2026 年 Skills 体系、Agentic Search、Agentic Memory 等新范式快速演进

也就是说——目前行业里所谓的”资深 Agent 工程师”，从入行到现在最多两到三年。 这意味着你今天开始入门，三年后你也是”老人”。和传统开发领域那些有十年、二十年经验的方向比，这是一个真正可以靠学习速度追赶上来的方向。

3.2 为什么是现在：三个判断#

判断一：Agent 正在从”Demo 期”走向”生产期”。

2023–2024 上半年，行业里大量 Agent 项目停留在 Demo 阶段。从 2024 年下半年开始，可靠性、可观测性、Eval 体系、成本控制这些”工业级”问题被认真对待——这是一个工程师真正能发挥价值的阶段。

判断二：基础设施层的标准化窗口期。

MCP、Skills、AI Gateway 这些基础设施层的标准还在快速成形。这意味着如果你现在入场，有机会真正参与到一个新行业基础设施的建设里——这种窗口期在传统开发领域非常稀缺。

判断三：人才需求正在系统性增长。

2026 年开始，国内头部大厂在日常实习、暑期实习、秋招里都开始系统性地开 Agent 工程师/大模型应用工程师岗——这在两年前还是凤毛麟角的事。

更直观的信号来自 Y Combinator W26 批次（2026 冬季）：196 家公司里约 60% 是 AI 原生公司，其中 41.5% 直接做 Agent 基础设施——身份验证、测试、安全、可观测性、上下文管理、计费这些 Agent 周边的”卖铲子”生意。E2B（AI 代码沙箱）官方提到约 10% 的 W26 公司在它平台上跑 Agent。当全世界最挑剔的孵化器之一把 40%+ 的押注都放在 Agent 基础设施上，这个赛道的人才需求只会越来越大。

3.3 你不需要焦虑的几个理由#

第一，行业没有”绝对权威”。 传统计算机科学有那种”我看过他的论文""我读过他的书”的权威专家。Agent 这个方向太新，没有这种人物。OpenAI、Anthropic 的最佳实践都是工程师在边做边写——他们和你的差距是”实践积累”，不是”天赋差距”。

第二，信息差极小。 OpenAI 和 Anthropic 把关于 Prompt 工程、Agent 设计、Skills 体系的最佳实践直接发在公司博客上，任何人免费可读。这种透明度在传统行业不可想象——你想学的东西大多都已经被写出来了，问题只是你愿不愿意花时间读。

第三，工具门槛的”简单部分”在下降，但”深的部分”在上升。 这一点需要分两半讲。

往简单方向看：三年前你想接入 LLM 要懂 GPU 部署；今天你只需要会调 API。Vibe Coding 让”做一个个人网站""做一个简单 ChatBot”几乎没门槛。

但这恰好意味着——当造一个”没有壁垒的 Agent 项目”变得很简单时，没有壁垒的项目本身就不值钱了。 你在 GitHub 上能找到一千个”AI 健康助手""AI 客服 Bot”，因为每个人都能用 Vibe Coding 在一个周末造一个。这些项目放在简历上，面试官扫一眼就知道含金量。

真正的入门门槛被推到了更深的位置：你能不能选一个真实存在的、不是用现成 ChatGPT 就能解决的问题做项目？你能不能在工程层面做出像样的取舍？你能不能讲清楚每一个技术选型”为什么是它”？

简单说：这不是”门槛下降”，而是”门槛从代码能力转移到思考深度”。

第四，对手不是别人，是去年没动手的你自己。 Agent 领域真正”卷”的，不是知识储备，而是”动手量”。读 100 篇博客不如自己写一个能跑的小 Agent。哪怕你今天才开始，只要你动手，你就在跑赢”只看不动手”的 90% 的人。

3.4 六个常见误区#

这六个误区是我接咨询时遇到最频繁的，逐条破除——

误区一：“我数学不好，搞不了 AI。” 你想做的是 AI 应用，不是 AI 算法。应用层的工程实践基本用不到数学。

误区二：“要先把 LLM 原理学完才能学 Agent。” 反了。应用层和底层算法是两条相对独立的赛道。先做应用，等遇到具体问题再回头补理论，效率高 10 倍。

误区三：“学这个是不是要会很多框架？” 框架是工具不是目标。理解了本质你看任何框架都是几分钟上手；只会用框架但不懂底层，遇到框架不支持的场景就完全束手无策。

误区四：“我没大厂背景就找不到工作。” Agent 这个方向恰好是创业公司的天下。他们看重的是”你能不能立刻干活”——你的项目经验、GitHub、博客比学校和上家公司更重要。

误区五：“AI 发展这么快，学了会不会马上过时？” 变的是表层工具，不变的是底层思想。ReAct 范式、上下文工程、记忆系统、工具调用、Eval 体系——这些核心概念过去两年没变过，未来五年也不会有本质变化。

误区六：“Agent 是不是已经是红海了？” 真正”卷”的领域是已经被深度开发了二十年的传统领域。Agent 在 Coding、Research、Customer Support、BI、Marketing 等领域的渗透率还不到 10%——这才哪到哪。

第四章｜怎么入门和准备求职#

这是这份文档最实操的一章。从你”打开 IDE 写第一行 LLM 调用”开始，到”拿到第一个 offer”为止，需要做的事都在这里。

4.1 前置技能：你需要会什么、可以不会什么#

先说语言。 Agent 开发当前主流是 Python 和 TypeScript / JavaScript 两个生态——你已经会其中一个就够开始了：

偏后端、偏数据、偏算法对接的项目，Python 更常见。
偏前端、偏 Web 产品形态的项目，TypeScript 更主流。
我自己工作中复杂 Agent 项目通常是 Python 后端 + TS 前端——两个都懂一些最舒服，但不是必须。

必须会的： Python 或 TypeScript 任一一种，能熟练写函数、处理 JSON、调一个 HTTP API。

不需要会的（先放下）： 深度学习数学、PyTorch / TensorFlow / 模型训练 / 微调、Transformer 内部细节、LangChain / LangGraph 等 Agent 框架的 API（第一个 Agent 不应该从这些开始）。

关于 Git 和命令行： 这些是工程师的”基础卫生”，但在 2026 年它们的学习曲线已经被 AI 工具大幅压平——遇到不会的就问 Cursor / Claude Code，它会一步一步带你做。不要因为不熟悉 Git 就觉得”还没准备好开始学 Agent”，本末倒置。

4.2 三阶段学习路线#

在 2026 年这个时间点，我不再建议新人从零手写 ReAct Loop——这种”手写”在三年前是必经之路，但今天 Vercel AI SDK、Anthropic SDK 这些官方 SDK 的抽象已经足够轻，文档本身就是最好的教学。

阶段一：跑通 SDK（3–5 天）

如果你完全零基础，第一周的唯一目标是手动跑通一次 LLM API 调用：装好 Python 或 Node.js、注册一家 LLM 厂商的 API（推荐 DeepSeek，便宜到不心疼）、写一段 10 行以内的代码把”你好”发给模型、再让它能多轮对话。这一周结束你拥有的最大资产不是代码，是”LLM 不是黑盒、它就是一个能调的 HTTP 服务”的真实体感。

然后强烈建议直接读 Vercel AI SDK 的官方文档——它的文档本身就是一份非常优秀的”Agent 教学”，从”调一次模型”到”流式输出""调用工具""多步循环""结构化输出”是层层递进的。为什么不推荐 OpenAI Cookbook、Anthropic Cookbook 起步？因为它们各自只覆盖自家模型，Vercel AI SDK 不限模型，迁移成本最低。

Python 路线：用 OpenAI SDK + base_url 模式接 OpenAI 兼容的国内模型，或者用 Anthropic SDK 接 Claude。Pydantic AI 是对标 Vercel AI SDK 的轻量级 Python SDK。

阶段二：理解机制（1–2 周）

给阶段一的 Agent 加几个真实工具——网页搜索（Tavily / SerpAPI）、文件读写、第三方 API。重点观察多工具下模型的”选择行为”：什么时候选错？什么时候陷入死循环？把所有失败案例记下来——这些笔记是最好的简历素材。

然后做两个对比实验：试一次 LLM Wiki 模式（一份资料整理成 Markdown 直接塞进 system prompt），再试一次 RAG 模式（同样的资料用 pgvector / ChromaDB 切片向量化）。亲手做这种对比，比读 10 篇博客都管用。

阶段三：真实项目（1–2 个月）

挑一个你自己每天会用的真实场景——不要做”通用问答助手”这种烂大街的项目。

判断项目”够不够格”的标准——参考我那篇《模拟面试》博客里 W 的灵魂提问：“如果是我，用豆包 / ChatGPT 直接就能解决，为什么一定要做这个？“答不上来，请换一个场景。

几个有”简历价值”的入门项目方向：AI 选题助手（抓取小红书/Twitter 的热门内容做选题建议）、个人 Newsletter 助手（每周自动摘要订阅）、简易 Chat-to-SQL、个人邮件分类 Agent、轻量代码 Review 助手（接 GitHub Webhook）。

每个项目完成后写一篇博客复盘——“我做了什么""遇到了什么坑""怎么解决的”。这篇博客本身就是简历最强的素材。

4.3 求职准备：项目要”讲到极致”#

如果你只能把准备时间花在一件事上，就是把你的项目讲到极致——说清楚四件事：

做了什么（What）：项目背景、你的角色、整体架构
为什么这么做（Why）：每一个关键决策的依据
踩过什么坑（How it failed）：失败案例 + 解决方案
学到了什么（What you learned）：重做你会怎么改

反例：“我用 LangChain 做了一个 RAG 客服系统。“——这种描述等于没说，是面试杀手。

正例：

“我做了一个客服 RAG 系统。最初用简单向量检索，召回率只有 60%——分析发现客户问题口语化，和文档原文的措辞差距大。我们引入了 Query Rewriting：先用轻量模型把用户问题改写成多个候选 Query，再分别检索后合并去重。这一改召回率提升到 85%，但 Token 成本增加 30%。为了平衡成本，我们后来加了缓存——同一类问题的改写结果可以复用。最终在召回率 80%+ 的前提下，成本只增加 5%。”

这段话有：指标（60% → 85%）+ 决策（Query Rewriting）+ 权衡（成本 vs 召回）+ 后续优化（缓存）。这就是”讲到极致”。

简历层面的三个要点：不要堆技术名词（“熟练掌握 LangChain、LangGraph、Vercel AI SDK、CrewAI……”这种简历看了让人发笑——真正强的候选人简历里技术词反而少）；每段项目按”问题 — 方案 — 结果”结构；数字化成果（哪怕估算也比没数字强）。

面试层面——Agent 岗考的不是八股文，是”你经历过什么”。具体四个维度：

基础认知：LLM / Agent / Chatbot 的本质区别、Function Calling 怎么工作、MCP 是什么……
系统设计：上下文工程方案、记忆分层、工具调用可靠性、多 Agent 协作……
工程取舍：模型选型依据、成本和效果平衡、框架选型判断、失败重试策略……
行业认知：Manus / Claude Code / OpenCode 的设计思路、最近读了什么、关注什么开源项目……

第一层靠经验、第二层靠理解、第三层靠判断。越往后越能拉开候选人差距。 我那篇《模拟面试》博客里把每一类都举了具体例子，需要的话可以去看。

4.4 五个不要走的弯路#

弯路一：一上来就啃 LangChain 源码。 设计复杂，源码对新人极不友好。等你用 SDK 跑过几个项目之后再去看，体感会完全不一样。

弯路二：过早卷模型微调。 99% 的应用场景不需要微调，Prompt 工程 + RAG / LLM Wiki 已经能解决大部分问题。

弯路三：追新框架不沉淀基本功。 每隔两周就有新框架。一旦你形成”追新”习惯，就永远在学新东西、永远没有自己的项目。

弯路四：看完教程就觉得自己会了。 Agent 这个领域所有”看起来很简单”的概念，真正动手都会发现一堆细节。只看不写等于零。

弯路五：只做不输出。 做了项目不写文档、不写博客、不发开源，等于白做。输出是倒逼输入最有效的方式，也是你后续找工作时最强的差异化资产。

4.5 推荐学习资源（精选）#

官方文档（按顺序读）：Vercel AI SDK 官方文档（TypeScript 入门最优起点）→ Anthropic 官方文档的 Tool Use / Skills / Prompt Engineering 章节 → OpenAI Cookbook（Python 实战补充）→ 你选的国产模型厂商的文档（DeepSeek / Qwen / Kimi / GLM 任一）。

一线博客（每周扫一眼）：Anthropic Engineering Blog、Sequoia / a16z 的 AI 板块、Hacker News 的 AI 板块。

社区：Twitter / X 关注 @karpathy、@AnthropicAI、@simonw、@_philschmid、@jxnlco。

我不在这一阶段推荐任何 LLM 内部机制类资源（Karpathy 的 “Let’s build GPT” 系列、各种 minimind 类源码教程）。它们都很优秀，但解决的是”理解 LLM 怎么训练出来的”问题，跟做 Agent 应用是两条赛道。等你做完第一个真实项目、有了具体好奇心，再回头看会更有体感。

第五章｜真正重要的那几件事#

前面四章讲清楚了”是什么、怎么入门、怎么求职”。最后这一章是给那些已经做完第一个项目、想知道”再往深里走是什么”的人——也是 Agent 工程师真正的内功心法。

每节都用一个生活类比帮你建立直觉。这一章读完，你就有了和资深工程师对话的共同语言。

5.1 上下文工程#

类比：你给同事交接工作，给的是 100 页项目档案，还是一份 1 页精要 brief？

LLM 的注意力是有限的——上下文越长、信息密度越低，它越容易”看走神”，同时 Token 成本越高、响应越慢。Context Engineering 解决的就是”在有限空间里，把最该被看到的信息以最有效的方式呈现给模型”。

在实际项目里，一个商业级 Agent 一次对话可能要处理几十轮交互、调用几十次工具。如果不做上下文管理，10 分钟内就会把上下文撑爆。常见技巧——

结构化 Prompt：用 XML 标签、JSON 块、明确分隔符代替自然语言流水账。
关键信息前置 / 后置：模型对开头和结尾的注意力更高（“Lost in the Middle”现象）。重要约束放 System Prompt 顶部或 User 消息末尾。
历史摘要替代历史明文：长对话里把早期对话压缩成摘要。
Prefix Cache 友好的上下文设计：不变的内容放前面、变化的放后面，能极大降低成本。

5.2 记忆系统#

类比：人怎么记事？短期记忆（刚发生的事）、长期记忆（多年前的重要经历）、检索唤起（看到老照片突然想起一段往事）。Agent 的记忆架构基本是仿这个的。

三层架构：

Working Memory：当前任务正在用的上下文
Short-term Memory：当前会话的历史
Long-term Memory：跨会话的持久信息

长期记忆的关键决策点有三个——

写入策略：什么样的信息值得写入？“我今天想吃辣”这种临时偏好不该记；“我对花生过敏”这种长期事实必须记。这种分类通常由专门的”Memory Agent”来判断。

读取策略：什么时候检索、怎么检索？每次对话都检索一次还是特定意图下检索？用向量相似度、关键词、图检索？

遗忘策略：长期记忆不是越多越好。过时、低价值、矛盾的记忆应该被清理或衰减。

5.3 工具调用#

类比：让一个聪明但没有手的人帮你完成任务——你得告诉他附近有哪些工具、每个能做什么、怎么用。

工程上几个常见难点：

Tool Schema 设计：参数名、描述写得越清楚，模型用错概率越低。
工具数量取舍：太少不够用，太多模型选不对。一般 10 个是上限——超过就需要做”工具路由”（这正是前面讲的 Skills 解决的问题）。
失败重试与幂等：失败重试是必要的，但要有上限——3 次不行就报错，比无限重试烧钱强。
事前约束 vs 事后兜底：在 Prompt 层把工具使用边界讲清楚，比在工具执行层做权限控制效率高得多。

5.4 可靠性#

类比：写 Demo 像在自家厨房做菜，写 Production 像开餐厅——你要应对的不只是”做得好不好”，还有”高峰期会不会爆""偶尔来个挑剔顾客会不会让流程崩”。

传统应用是”确定性系统”——同样输入永远得到同样输出。Agent 是”概率性系统”——同样输入可能得到不同输出，甚至完全失败。这意味着”测过一次就 OK”的开发模式在 Agent 上完全行不通。

常见可靠性问题：幻觉、指令偏离、格式不稳定、死循环、工具失败的级联崩溃。

工程上的核心思路：

事前约束：用 Prompt 把”应该怎么做”讲清楚，比事后兜底成本低
结构化输出 + Schema 校验：用 Pydantic、Zod 校验模型输出
状态机 + Checkpoint：把 Agent 流程显式化为状态机
降级策略：工具失败时有 fallback 路径

5.5 成本控制#

类比：开车——油价、路程、车型都会影响油钱。Agent 也一样：模型、上下文长度、调用次数共同决定一次任务的成本。

Agent 的成本远比传统应用高。一次复杂任务可能要几十次 LLM 调用、累计几万到几十万 Token——单次任务可能花几块到几十块人民币。如果你的产品是 toC 免费的，成本控制不好就是赔本赚吆喝。

几个高 ROI 的优化手段：

Prefix Cache 友好设计：OpenAI、Anthropic 都对”前缀命中”有缓存优惠（最高省 90% 成本）。把不变的内容放前面。
模型分级使用：简单任务用便宜模型，复杂任务才用旗舰。
减少 Agent Step 数：能在一步讲清楚的事就不要拆成多步。
上下文剪枝：把不相关的工具结果、过时对话历史从上下文剔除。

5.6 评估（Eval）#

类比：传统软件能用单元测试——输入 1+1，期望输出 2，错了就是 Bug。Agent 没有”标准答案”——你怎么知道它做得”好”？

Agent 没有”对错”，只有”好坏”。这意味着你需要一套机制回答”我新版本的 Agent 比上一版好还是坏？“——没有这个机制，你优化半天根本不知道方向对不对。Eval 体系是 Agent 工程从”作坊”到”工业”的标志。

主流评估方法：

离线评估：准备一批测试用例，让 Agent 跑，人工或 LLM-as-Judge 打分
在线评估：在生产环境里收集真实用户反馈（点赞点踩、停留时长、是否继续追问）
LLM as a Judge：用更强的模型当裁判——注意它本身的偏差（倾向打高分、偏好长答案等）
对照实验：A/B Test，把新版和旧版分流给不同用户

5.7 这六件事是 Agent 工程师真正的”内功”#

总结一下——

上下文工程：有限空间里最大化信息密度
记忆系统：让 Agent 像人一样分层记事
工具调用：让 Agent 能”动手”——并且不要乱来
可靠性：从确定性思维切换到概率性思维
成本控制：钱是真的会烧的
评估：没有 Eval 的 Agent 优化都是玄学

如果你能在简历或面试中讲清楚这六件事，你已经领先 80% 的应聘者了。

写在最后#

如果你看到这里——谢谢你花时间读完。

这份文档是免费的，因为我希望帮到所有想入门 Agent 的人。它会定期更新——大约每 3–6 个月一版，重大行业事件会有”增量补丁”。你看到的版本是 v1.0（Updated: 2026-05-17）。

但每个人的情况不一样：

你的简历应该怎么改，文档里给不了具体段落级别的建议；
你的项目应该怎么讲，文档里给不了针对你这个项目的”问题—方案—结果”重写；
你的学习节奏应该怎么定，文档里只能给通用三阶段，不能根据你的基础给周度计划；
你即将面的那家公司可能会问什么，文档里只能给四维度框架，不能给针对你简历的题库。

如果你需要这种 1v1 的具体帮助，我提供以下三档服务——所有服务都是我亲自交付，不外包、不批量。

付费服务详细介绍#

所有服务的具体价格请联系咨询——咨询本身免费，我会先了解你的情况，再判断哪种服务最适合你。不合适的话会直接告诉你不适合，不会强推。

服务一：简历修改（￥）#

适合谁：

已经有简历和项目经历，但不确定怎么”讲”才能让面试官眼前一亮
简历上有项目但讲不出”问题 — 方案 — 结果”
想转 Agent 方向，但旧简历不知道怎么改造才有针对性

服务内容：

详细 review 你的简历
给出具体到段落、句子级别的修改建议——不是泛泛而谈”建议突出亮点”，而是”这一段应该改成 XXX”
帮你重新组织项目叙事——把零散工作内容打磨成”能在面试 5 分钟内讲清楚”的故事
提供针对你目标方向（Agent 工程 / LLM 应用 / Multi-Agent / RAG 等）的关键词建议
一次 30–60 分钟的 1v1 沟通，就修改后的版本再过一遍

服务二：1v1 模拟面试（￥￥）#

适合谁：

已经在准备 Agent 工程师岗位，但缺乏实战面试经验
自己复盘过项目，但希望有人专业地”拷问”一遍
即将面一家心仪公司，希望提前热身

服务内容：

提前沟通你的简历和目标公司方向，定制面试题库
完整的面试模拟，覆盖基础认知 + 系统设计 + 工程取舍 + 行业认知四个维度
按时间收费，最少 1 小时起——1 小时就是 1 小时，1.5 小时就是 1.5 小时，价格按时长线性计算
全程录音 / 录像（按你需要）
面试过程中如果提到值得继续看的资源（论文、博客、开源项目），结束后会整理给你

服务三：学习路线 / 入门陪跑（￥￥￥）#

适合谁：

完全零基础或者有基础但缺乏方向感，希望有人系统带一段时间
自学时容易卡住、容易放弃，需要外部的节奏督促和答疑
希望在固定时间窗（1–3 个月）内达成具体目标，比如”做出第一个能拿出去说的 Agent 项目”

服务内容：

入门评估：1v1 沟通了解你的现有基础、目标、可投入时间
定制学习路线：根据你的情况定制个性化的周度学习计划
周度 1v1 答疑：每周固定时间一次 30–60 分钟同步——复盘上周进度、答疑、调整下周计划
项目陪跑：陪跑期间你做的项目我会全程跟进 + 关键节点 review
期末交付物：陪跑结束时你会拥有至少一个完整的、可放进简历的 Agent 项目，以及一份完整的复盘文档

典型陪跑周期：4 周 / 8 周 / 12 周——根据你的目标和时间决定。

如何联系#

加微信 joye050604，备注 “付费咨询”。

或者通过以下其他渠道：

个人网站：joyehuang.me ↗
GitHub：github.com/joyehuang ↗

关于这份文档的后续更新#

这份文档不是一锤子买卖：

大约每 3–6 个月更新一次，根据行业最新动向修订
重大行业事件（新 LLM 大版本、新协议层标准）会做”增量补丁”
看到这份文档的读者，所有更新版本继续免费

关于反馈#

如果你看完这份文档有任何意见、建议、或者发现错误，非常希望你能告诉我。可以通过任何渠道——邮件、网站留言、私信。读者反馈是我修订这份材料最重要的依据。

特别欢迎的反馈类型：

某个概念你觉得讲得不够清楚
某个判断你不同意，想和我讨论
你按路线图实践了，发现某个建议不太适用
你自己摸索出了文档里没有的好做法

最后的祝福#

Build fast, learn faster.

这是我自己博客的 slogan，也是我对你的祝福。

这份文档到这里就结束了——但你的旅程才刚刚开始。

如果它帮到了你哪怕一点点，那就值得了。如果你后续真的入了 Agent 工程师这一行，希望某天我们能在某家 AI 公司、某个开源项目、某个 GitHub Issue 下相遇。到那时，记得告诉我——“这份文档我当年也读过。”

—— Joye

Updated: 2026-05-17 · v1.0