AI Agent
Agent是什么
Agent:能够自主行动、执行任务,并与外部工具交互的LLM
Agent不仅仅是一个会聊天的大模型,他们更像具备一定自主性的智能体。他们需要管理自己的状态(对话历史和记忆)、调用各种工具,并且安全执行
Agent技术栈的关键组成部分
模型服务:AI的大脑
- 核心:LLM
- 主要玩家
- 闭源模型:OpenAI和Anthropic
- 开源模型
- 本地部署:vLLM成为生产级GPU服务的主流选择,而Ollama深受个人爱好者的喜爱
存储:记忆的基石
- 核心:持久化状态,如对话历史、记忆和外部数据
- 关键技术
- 向量数据库:Chroma、Weaviate等用于存储agent的外部记忆,应对大容量数据
- 传统数据库:Postgres通过pgvector扩展也开始支持向量搜索
工具与库
- 核心:使agent能够执行各种任务的工具或者函数
- 调用方式:通过LLM生成的结构化输出指定要调用的函数和参数
- 安全执行,使用沙箱(Modal和E2B)来确保工具执行的安全性
- 工具生态
- 通用工具库:Composio等
- 专用工具:Browerbase(网页浏览)、Exa(网页搜索)等
Agent框架:编排智能的指挥中心
- 核心:负责编排LLM调用,管理agent状态
- 关键特性:
- 状态管理:如何保存和加载agent状态,例如对话历史和记忆
- 上下文窗口:如何将状态信息编译到LLM的上下文窗口中
- 跨agent通信:如何实现多agent之间的协作
- 内存管理:如何应对LLM有限的上下文窗口,管理长期记忆
- 开源模型支持:如何让agent更好地利用开源模型
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Pika's Blog!