diff --git a/docs/大语言模型/ Agent/CS294.md b/.history/docs/大语言模型与智能体/CS294_20250405095312.md similarity index 100% rename from docs/大语言模型/ Agent/CS294.md rename to .history/docs/大语言模型与智能体/CS294_20250405095312.md diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100014.md b/.history/docs/大语言模型与智能体/CS294_20250405100014.md new file mode 100644 index 00000000..1b920157 --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100014.md @@ -0,0 +1,75 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +--- + + +## 课程结构与内容 +课程系统探讨 LLM 智能体的核心内容,包括: +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 学习资源 +为支持自学,课程提供了丰富的资源: +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **讲座视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 经典相关论文与资源 +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + + +## 扩展学习建议 +为进一步深入学习,建议: +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100020.md b/.history/docs/大语言模型与智能体/CS294_20250405100020.md new file mode 100644 index 00000000..1dcb250a --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100020.md @@ -0,0 +1,75 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +--- + + +## 课程结构与内容 +课程系统探讨 LLM 智能体的核心内容,包括: +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 +为支持自学,课程提供了丰富的资源: +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **讲座视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 经典相关论文与资源 +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + + +## 扩展学习建议 +为进一步深入学习,建议: +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100041.md b/.history/docs/大语言模型与智能体/CS294_20250405100041.md new file mode 100644 index 00000000..2549136e --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100041.md @@ -0,0 +1,73 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + + +## 课程结构与内容 +课程系统探讨 LLM 智能体的核心内容,包括: +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 +为支持自学,课程提供了丰富的资源: +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **讲座视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 经典相关论文与资源 +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + + +## 扩展学习建议 +为进一步深入学习,建议: +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100043.md b/.history/docs/大语言模型与智能体/CS294_20250405100043.md new file mode 100644 index 00000000..c122cd19 --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100043.md @@ -0,0 +1,72 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +## 课程结构与内容 +课程系统探讨 LLM 智能体的核心内容,包括: +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 +为支持自学,课程提供了丰富的资源: +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **讲座视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 经典相关论文与资源 +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + + +## 扩展学习建议 +为进一步深入学习,建议: +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100056.md b/.history/docs/大语言模型与智能体/CS294_20250405100056.md new file mode 100644 index 00000000..df25a47a --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100056.md @@ -0,0 +1,72 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +## 课程结构与内容 +课程系统探讨 LLM 智能体的核心内容,包括: +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 +为支持自学,课程提供了丰富的资源: +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **课程视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 经典相关论文与资源 +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + + +## 扩展学习建议 +为进一步深入学习,建议: +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100158.md b/.history/docs/大语言模型与智能体/CS294_20250405100158.md new file mode 100644 index 00000000..91e08dd2 --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100158.md @@ -0,0 +1,73 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +## 课程结构与内容 +课程系统探讨 LLM 智能体的核心内容,包括: +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 +为支持自学,课程提供了丰富的资源: +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **课程视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 经典相关论文与资源 +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 + +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + + +## 扩展学习建议 +为进一步深入学习,建议: +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100203.md b/.history/docs/大语言模型与智能体/CS294_20250405100203.md new file mode 100644 index 00000000..d2761b31 --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100203.md @@ -0,0 +1,74 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +## 课程结构与内容 +课程系统探讨 LLM 智能体的核心内容,包括: +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 +为支持自学,课程提供了丰富的资源: +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **课程视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 经典相关论文与资源 + +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 + +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + + +## 扩展学习建议 +为进一步深入学习,建议: +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100205.md b/.history/docs/大语言模型与智能体/CS294_20250405100205.md new file mode 100644 index 00000000..2ce4d259 --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100205.md @@ -0,0 +1,75 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +## 课程结构与内容 +课程系统探讨 LLM 智能体的核心内容,包括: +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 +为支持自学,课程提供了丰富的资源: +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **课程视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 经典相关论文与资源 + +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 + +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 + +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + + +## 扩展学习建议 +为进一步深入学习,建议: +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100206.md b/.history/docs/大语言模型与智能体/CS294_20250405100206.md new file mode 100644 index 00000000..f885dee2 --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100206.md @@ -0,0 +1,76 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +## 课程结构与内容 +课程系统探讨 LLM 智能体的核心内容,包括: +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 +为支持自学,课程提供了丰富的资源: +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **课程视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 经典相关论文与资源 + +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 + +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 + +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 + +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + + +## 扩展学习建议 +为进一步深入学习,建议: +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100209.md b/.history/docs/大语言模型与智能体/CS294_20250405100209.md new file mode 100644 index 00000000..981310f1 --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100209.md @@ -0,0 +1,77 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +## 课程结构与内容 +课程系统探讨 LLM 智能体的核心内容,包括: +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 +为支持自学,课程提供了丰富的资源: +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **课程视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 经典相关论文与资源 + +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 + +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 + +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 + +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + + +## 扩展学习建议 + +为进一步深入学习,建议: +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100220.md b/.history/docs/大语言模型与智能体/CS294_20250405100220.md new file mode 100644 index 00000000..b7e19896 --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100220.md @@ -0,0 +1,77 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +## 课程结构与内容 +课程系统探讨 LLM 智能体的核心内容,包括: +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 +为支持自学,课程提供了丰富的资源: +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **课程视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 相关论文与资源 + +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 + +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 + +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 + +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + + +## 扩展学习建议 + +为进一步深入学习,建议: +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100245.md b/.history/docs/大语言模型与智能体/CS294_20250405100245.md new file mode 100644 index 00000000..c05447d2 --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100245.md @@ -0,0 +1,79 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +## 课程结构与内容 +课程系统探讨 LLM 智能体的核心内容,包括: +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 +为支持自学,课程提供了丰富的资源: +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **课程视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 相关论文与资源 + +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 + +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 + +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 + +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + + +## 扩展学习建议 + +为进一步深入学习,建议: + +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 + +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100249.md b/.history/docs/大语言模型与智能体/CS294_20250405100249.md new file mode 100644 index 00000000..fda72823 --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100249.md @@ -0,0 +1,80 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +## 课程结构与内容 +课程系统探讨 LLM 智能体的核心内容,包括: +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 +为支持自学,课程提供了丰富的资源: +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **课程视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 相关论文与资源 + +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 + +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 + +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 + +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + + + +## 扩展学习建议 + +为进一步深入学习,建议: + +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 + +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100252.md b/.history/docs/大语言模型与智能体/CS294_20250405100252.md new file mode 100644 index 00000000..2450d929 --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100252.md @@ -0,0 +1,78 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +## 课程结构与内容 +课程系统探讨 LLM 智能体的核心内容,包括: +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 +为支持自学,课程提供了丰富的资源: +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **课程视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 相关论文与资源 + +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 + +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 + +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 + +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + +## 扩展学习建议 + +为进一步深入学习,建议: + +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 + +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100256.md b/.history/docs/大语言模型与智能体/CS294_20250405100256.md new file mode 100644 index 00000000..67c3f2a6 --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100256.md @@ -0,0 +1,79 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +## 课程结构与内容 +课程系统探讨 LLM 智能体的核心内容,包括: +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 + +为支持自学,课程提供了丰富的资源: +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **课程视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 相关论文与资源 + +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 + +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 + +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 + +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + +## 扩展学习建议 + +为进一步深入学习,建议: + +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 + +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100259.md b/.history/docs/大语言模型与智能体/CS294_20250405100259.md new file mode 100644 index 00000000..616cd402 --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100259.md @@ -0,0 +1,80 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +## 课程结构与内容 +课程系统探讨 LLM 智能体的核心内容,包括: +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 + +为支持自学,课程提供了丰富的资源: + +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **课程视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 相关论文与资源 + +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 + +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 + +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 + +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + +## 扩展学习建议 + +为进一步深入学习,建议: + +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 + +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100300.md b/.history/docs/大语言模型与智能体/CS294_20250405100300.md new file mode 100644 index 00000000..7ef64cce --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100300.md @@ -0,0 +1,81 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +## 课程结构与内容 + +课程系统探讨 LLM 智能体的核心内容,包括: +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 + +为支持自学,课程提供了丰富的资源: + +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **课程视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 相关论文与资源 + +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 + +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 + +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 + +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + +## 扩展学习建议 + +为进一步深入学习,建议: + +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 + +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/CS294_20250405100302.md b/.history/docs/大语言模型与智能体/CS294_20250405100302.md new file mode 100644 index 00000000..1976e593 --- /dev/null +++ b/.history/docs/大语言模型与智能体/CS294_20250405100302.md @@ -0,0 +1,82 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +## 课程结构与内容 + +课程系统探讨 LLM 智能体的核心内容,包括: + +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 + +为支持自学,课程提供了丰富的资源: + +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **课程视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 相关论文与资源 + +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 + +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 + +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 + +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + +## 扩展学习建议 + +为进一步深入学习,建议: + +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 + +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/docs/大语言模型/llm_zero_to_hero.md b/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405095312.md similarity index 100% rename from docs/大语言模型/llm_zero_to_hero.md rename to .history/docs/大语言模型与智能体/llm_zero_to_hero_20250405095312.md diff --git a/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100328.md b/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100328.md new file mode 100644 index 00000000..c902930a --- /dev/null +++ b/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100328.md @@ -0,0 +1,137 @@ +# Andrej Karpathy LLM Zero to Hero 系列视频完全解析 + +## 课程核心架构 + +### 1. 神经网络基础与实现路径 + +该系列采用**"自底向上"**的教学范式,以Python语言为工具链,构建从基础数学运算到完整GPT模型的完整知识体系。课程技术栈演进路径可概括为: + +**微梯度引擎 → 多层感知机 → 卷积网络 → Transformer → GPT架构 → 分词系统** + +通过micrograd模块实现自动微分引擎(约200行Python代码),建立对反向传播算法的直观理解[1][3]。在makemore系列实验中,逐步引入批次归一化、残差连接等现代深度学习组件,最终在nanoGPT项目中实现完整的Transformer架构[2][3]。这种渐进式教学法使得复杂概念如位置编码(Positional Encoding)和多头注意力机制(Multi-Head Attention)的数学原理得以清晰展现。 + +### 2. Transformer架构技术解析 +在[Let's build GPT](https://www.youtube.com/watch?v=kCc8FmEb1nY)专题讲座中,Karpathy逐行编码演示了Transformer核心组件: + +```python +class MultiHeadAttention(nn.Module): + def __init__(self, num_heads, head_size): + super().__init__() + self.heads = nn.ModuleList([Head(head_size) for _ in range(num_heads)]) + self.proj = nn.Linear(n_embd, n_embd) # 投影层确保维度匹配 + + def forward(self, x): + out = torch.cat([h(x) for h in self.heads], dim=-1) + out = self.proj(out) + return out +``` + +该实现揭示了注意力头的并行计算机制,每个头独立处理输入向量的子空间特征,最后通过线性投影整合信息[2]。视频中特别强调了LayerNorm与BatchNorm的差异:前者在特征维度进行归一化,适用于序列数据;后者在批次维度归一化,更适用于固定长度输入。 + +### 3. 分词系统实现细节 +课程中包含完整的字节对编码(BPE)实现教程,关键算法步骤包括: + +1. 统计所有相邻字符对频率 +2. 合并最高频字符对形成新词元 +3. 迭代执行直至达到预设词汇量 + +实验显示,在莎士比亚文本数据上,经过10,000次合并操作后,分词错误率从初始的23%下降至4.5%[1]。这种数据驱动的方法有效平衡了词表规模与语义粒度,为后续语言模型训练奠定基础。 + +### 4. nanoGPT工程实践 +nanoGPT项目展现了工业级语言模型的简化实现,其超参数配置策略具有重要参考价值: + +| 参数 | 典型值 | 作用机制 | +|-----------------|------------|----------------------| +| 上下文长度 | 256 tokens | 控制模型记忆容量 | +| 嵌入维度 | 384 | 特征表征空间复杂度 | +| 注意力头数 | 6 | 并行特征提取能力 | +| 残差丢弃率 | 0.2 | 防止过拟合正则化手段 | +| 学习率衰减策略 | cosine | 优化训练稳定性 | + +在Lambda GPU实例上,完整训练周期约15分钟可获得验证损失1.48,生成文本已具备基本语法结构[2]。该实现特别设计了分阶段训练策略:预训练阶段使用大规模文本语料(约300B tokens),微调阶段通过指令优化实现对话能力。 + +## 关键技术组件演进 + +### 1. 自注意力机制优化路径 +```mermaid +graph LR +A[朴素注意力O(n²)] --> B[分块计算优化] +B --> C[FlashAttention算法] +C --> D[多头并行处理] +D --> E[KV Cache推理加速] +``` + +该演进路线使计算复杂度从原始Transformer的O(n²)降低至实际可接受的O(n log n)[2]。视频中通过矩阵乘法可视化展示了注意力权重如何动态聚焦关键上下文位置。 + +### 2. 位置编码方案对比 + +方案 | 公式 | 优点 | 局限性 +---|---|---|--- +绝对位置编码 | $$ PE(pos,2i) = \sin(pos/10000^{2i/d}) $$ | 明确位置信息 | 长度外推能力差 +相对位置编码 | $$ a_{ij} = x_iW^Q(W^K)^Tx_j + x_iW^Qr_{i-j} $$ | 更好捕捉局部关系 | 实现复杂度高 +旋转位置编码 | $$ q_m^Tk_n = Re[ e^{i(mθ - nθ)} q_m^Tk_n ] $$ | 保持内积稳定性 | 需要定制化实现 + +实验数据显示,在文本生成任务中,旋转位置编码(RoPE)可使困惑度降低约15%[2]。 + +## 实践训练建议 + +### 1. 硬件资源配置策略 +```python +# 分布式训练配置示例 +parallel_config = { + "tensor_parallel_degree": 8, # 模型并行维度 + "pipeline_parallel_degree": 4, # 流水线并行维度 + "micro_batch_size": 16, # 微批次大小 + "gradient_accumulation_steps": 32 +} +``` + +### 2. 调试与优化技术 +- **梯度裁剪**:设置阈值`max_grad_norm=1.0`防止梯度爆炸 +- **混合精度训练**:使用`torch.cuda.amp`模块节约显存40% +- **激活检查点**:通过`torch.utils.checkpoint`降低显存消耗50% +- **学习率探测**:执行线性扫描找出最优初始学习率 + +在nanoGPT项目中,引入LayerScale技术(每层输出乘以可学习标量)可使训练稳定性提升30%[2]。 + +## 扩展应用场景 + +### 1. 代码生成优化案例 +```python +def code_completion(prompt: str, temperature=0.8): + tokens = tokenizer.encode(prompt) + for _ in range(MAX_TOKENS): + logits = model(tokens[-context_length:]) + next_token = sample_top_p(logits, top_p=0.95) + tokens.append(next_token) + if next_token == EOS: break + return tokenizer.decode(tokens) +``` +该算法采用Top-p采样(nucleus sampling)策略,在保持生成多样性的同时减少语法错误。在Python代码补全任务中,相比贪婪解码可使正确率提升28%[1]。 + +## 学习路线图 + +阶段 | 内容 | 建议时长 | 关键产出 +---|---|---|--- +基础掌握 | micrograd实现/MLP训练 | 20小时 | 手写数字识别模型 +进阶实践 | Transformer编码器/解码器 | 40小时 | 机器翻译原型系统 +专业深化 | 分布式训练/RLHF | 60小时 | 领域专用对话系统 +生产部署 | 模型量化/服务化 | 30小时 | REST API服务端点 + +建议配合《The Annotated Transformer》等开源项目进行对照学习,并在Kaggle平台参与LLM相关竞赛以巩固技能[1][3]。 + +Citations: +[1] https://github.com/chizkidd/Karpathy-Neural-Networks-Zero-to-Hero +[2] https://www.youtube.com/watch?v=kCc8FmEb1nY +[3] https://karpathy.ai/zero-to-hero.html +[4] https://karpathy.ai +[5] https://www.reddit.com/r/learnmachinelearning/comments/17bmpy7/decreasing_loss_with_incorrectly_applied_softmax/ +[6] https://www.reddit.com/r/learnmachinelearning/comments/1dsg6mi/those_who_loved_andrej_karpathys_zero_to_hero/ +[7] https://podwise.ai/dashboard/collections/14 +[8] https://news.ycombinator.com/item?id=34591998 +[9] https://www.youtube.com/watch?v=F53Tt_vNLdg +[10] https://www.youtube.com/playlist?list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ +[11] https://www.youtube.com/andrejkarpathy +[12] https://github.com/karpathy/llm.c +[13] https://github.com/karpathy/nanoGPT +[14] https://news.ycombinator.com/item?id=40502693 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100335.md b/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100335.md new file mode 100644 index 00000000..c481b088 --- /dev/null +++ b/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100335.md @@ -0,0 +1,137 @@ +# Andrej Karpathy LLM Zero to Hero 系列视频完全解析 + +## 课程核心架构 + +### 1. 神经网络基础与实现路径 + +该系列采用**"自底向上"**的教学范式,以Python语言为工具链,构建从基础数学运算到完整GPT模型的完整知识体系。课程技术栈演进路径可概括为: + +#### 微梯度引擎 → 多层感知机 → 卷积网络 → Transformer → GPT架构 → 分词系统 + +通过micrograd模块实现自动微分引擎(约200行Python代码),建立对反向传播算法的直观理解[1][3]。在makemore系列实验中,逐步引入批次归一化、残差连接等现代深度学习组件,最终在nanoGPT项目中实现完整的Transformer架构[2][3]。这种渐进式教学法使得复杂概念如位置编码(Positional Encoding)和多头注意力机制(Multi-Head Attention)的数学原理得以清晰展现。 + +### 2. Transformer架构技术解析 +在[Let's build GPT](https://www.youtube.com/watch?v=kCc8FmEb1nY)专题讲座中,Karpathy逐行编码演示了Transformer核心组件: + +```python +class MultiHeadAttention(nn.Module): + def __init__(self, num_heads, head_size): + super().__init__() + self.heads = nn.ModuleList([Head(head_size) for _ in range(num_heads)]) + self.proj = nn.Linear(n_embd, n_embd) # 投影层确保维度匹配 + + def forward(self, x): + out = torch.cat([h(x) for h in self.heads], dim=-1) + out = self.proj(out) + return out +``` + +该实现揭示了注意力头的并行计算机制,每个头独立处理输入向量的子空间特征,最后通过线性投影整合信息[2]。视频中特别强调了LayerNorm与BatchNorm的差异:前者在特征维度进行归一化,适用于序列数据;后者在批次维度归一化,更适用于固定长度输入。 + +### 3. 分词系统实现细节 +课程中包含完整的字节对编码(BPE)实现教程,关键算法步骤包括: + +1. 统计所有相邻字符对频率 +2. 合并最高频字符对形成新词元 +3. 迭代执行直至达到预设词汇量 + +实验显示,在莎士比亚文本数据上,经过10,000次合并操作后,分词错误率从初始的23%下降至4.5%[1]。这种数据驱动的方法有效平衡了词表规模与语义粒度,为后续语言模型训练奠定基础。 + +### 4. nanoGPT工程实践 +nanoGPT项目展现了工业级语言模型的简化实现,其超参数配置策略具有重要参考价值: + +| 参数 | 典型值 | 作用机制 | +|-----------------|------------|----------------------| +| 上下文长度 | 256 tokens | 控制模型记忆容量 | +| 嵌入维度 | 384 | 特征表征空间复杂度 | +| 注意力头数 | 6 | 并行特征提取能力 | +| 残差丢弃率 | 0.2 | 防止过拟合正则化手段 | +| 学习率衰减策略 | cosine | 优化训练稳定性 | + +在Lambda GPU实例上,完整训练周期约15分钟可获得验证损失1.48,生成文本已具备基本语法结构[2]。该实现特别设计了分阶段训练策略:预训练阶段使用大规模文本语料(约300B tokens),微调阶段通过指令优化实现对话能力。 + +## 关键技术组件演进 + +### 1. 自注意力机制优化路径 +```mermaid +graph LR +A[朴素注意力O(n²)] --> B[分块计算优化] +B --> C[FlashAttention算法] +C --> D[多头并行处理] +D --> E[KV Cache推理加速] +``` + +该演进路线使计算复杂度从原始Transformer的O(n²)降低至实际可接受的O(n log n)[2]。视频中通过矩阵乘法可视化展示了注意力权重如何动态聚焦关键上下文位置。 + +### 2. 位置编码方案对比 + +方案 | 公式 | 优点 | 局限性 +---|---|---|--- +绝对位置编码 | $$ PE(pos,2i) = \sin(pos/10000^{2i/d}) $$ | 明确位置信息 | 长度外推能力差 +相对位置编码 | $$ a_{ij} = x_iW^Q(W^K)^Tx_j + x_iW^Qr_{i-j} $$ | 更好捕捉局部关系 | 实现复杂度高 +旋转位置编码 | $$ q_m^Tk_n = Re[ e^{i(mθ - nθ)} q_m^Tk_n ] $$ | 保持内积稳定性 | 需要定制化实现 + +实验数据显示,在文本生成任务中,旋转位置编码(RoPE)可使困惑度降低约15%[2]。 + +## 实践训练建议 + +### 1. 硬件资源配置策略 +```python +# 分布式训练配置示例 +parallel_config = { + "tensor_parallel_degree": 8, # 模型并行维度 + "pipeline_parallel_degree": 4, # 流水线并行维度 + "micro_batch_size": 16, # 微批次大小 + "gradient_accumulation_steps": 32 +} +``` + +### 2. 调试与优化技术 +- **梯度裁剪**:设置阈值`max_grad_norm=1.0`防止梯度爆炸 +- **混合精度训练**:使用`torch.cuda.amp`模块节约显存40% +- **激活检查点**:通过`torch.utils.checkpoint`降低显存消耗50% +- **学习率探测**:执行线性扫描找出最优初始学习率 + +在nanoGPT项目中,引入LayerScale技术(每层输出乘以可学习标量)可使训练稳定性提升30%[2]。 + +## 扩展应用场景 + +### 1. 代码生成优化案例 +```python +def code_completion(prompt: str, temperature=0.8): + tokens = tokenizer.encode(prompt) + for _ in range(MAX_TOKENS): + logits = model(tokens[-context_length:]) + next_token = sample_top_p(logits, top_p=0.95) + tokens.append(next_token) + if next_token == EOS: break + return tokenizer.decode(tokens) +``` +该算法采用Top-p采样(nucleus sampling)策略,在保持生成多样性的同时减少语法错误。在Python代码补全任务中,相比贪婪解码可使正确率提升28%[1]。 + +## 学习路线图 + +阶段 | 内容 | 建议时长 | 关键产出 +---|---|---|--- +基础掌握 | micrograd实现/MLP训练 | 20小时 | 手写数字识别模型 +进阶实践 | Transformer编码器/解码器 | 40小时 | 机器翻译原型系统 +专业深化 | 分布式训练/RLHF | 60小时 | 领域专用对话系统 +生产部署 | 模型量化/服务化 | 30小时 | REST API服务端点 + +建议配合《The Annotated Transformer》等开源项目进行对照学习,并在Kaggle平台参与LLM相关竞赛以巩固技能[1][3]。 + +Citations: +[1] https://github.com/chizkidd/Karpathy-Neural-Networks-Zero-to-Hero +[2] https://www.youtube.com/watch?v=kCc8FmEb1nY +[3] https://karpathy.ai/zero-to-hero.html +[4] https://karpathy.ai +[5] https://www.reddit.com/r/learnmachinelearning/comments/17bmpy7/decreasing_loss_with_incorrectly_applied_softmax/ +[6] https://www.reddit.com/r/learnmachinelearning/comments/1dsg6mi/those_who_loved_andrej_karpathys_zero_to_hero/ +[7] https://podwise.ai/dashboard/collections/14 +[8] https://news.ycombinator.com/item?id=34591998 +[9] https://www.youtube.com/watch?v=F53Tt_vNLdg +[10] https://www.youtube.com/playlist?list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ +[11] https://www.youtube.com/andrejkarpathy +[12] https://github.com/karpathy/llm.c +[13] https://github.com/karpathy/nanoGPT +[14] https://news.ycombinator.com/item?id=40502693 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100340.md b/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100340.md new file mode 100644 index 00000000..6dd5438d --- /dev/null +++ b/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100340.md @@ -0,0 +1,138 @@ +# Andrej Karpathy LLM Zero to Hero 系列视频完全解析 + +## 课程核心架构 + +### 1. 神经网络基础与实现路径 + +该系列采用**"自底向上"**的教学范式,以Python语言为工具链,构建从基础数学运算到完整GPT模型的完整知识体系。课程技术栈演进路径可概括为: + +#### 微梯度引擎 → 多层感知机 → 卷积网络 → Transformer → GPT架构 → 分词系统 + +通过micrograd模块实现自动微分引擎(约200行Python代码),建立对反向传播算法的直观理解[1][3]。在makemore系列实验中,逐步引入批次归一化、残差连接等现代深度学习组件,最终在nanoGPT项目中实现完整的Transformer架构[2][3]。这种渐进式教学法使得复杂概念如位置编码(Positional Encoding)和多头注意力机制(Multi-Head Attention)的数学原理得以清晰展现。 + +### 2. Transformer架构技术解析 + +在[Let's build GPT](https://www.youtube.com/watch?v=kCc8FmEb1nY)专题讲座中,Karpathy逐行编码演示了Transformer核心组件: + +```python +class MultiHeadAttention(nn.Module): + def __init__(self, num_heads, head_size): + super().__init__() + self.heads = nn.ModuleList([Head(head_size) for _ in range(num_heads)]) + self.proj = nn.Linear(n_embd, n_embd) # 投影层确保维度匹配 + + def forward(self, x): + out = torch.cat([h(x) for h in self.heads], dim=-1) + out = self.proj(out) + return out +``` + +该实现揭示了注意力头的并行计算机制,每个头独立处理输入向量的子空间特征,最后通过线性投影整合信息[2]。视频中特别强调了LayerNorm与BatchNorm的差异:前者在特征维度进行归一化,适用于序列数据;后者在批次维度归一化,更适用于固定长度输入。 + +### 3. 分词系统实现细节 +课程中包含完整的字节对编码(BPE)实现教程,关键算法步骤包括: + +1. 统计所有相邻字符对频率 +2. 合并最高频字符对形成新词元 +3. 迭代执行直至达到预设词汇量 + +实验显示,在莎士比亚文本数据上,经过10,000次合并操作后,分词错误率从初始的23%下降至4.5%[1]。这种数据驱动的方法有效平衡了词表规模与语义粒度,为后续语言模型训练奠定基础。 + +### 4. nanoGPT工程实践 +nanoGPT项目展现了工业级语言模型的简化实现,其超参数配置策略具有重要参考价值: + +| 参数 | 典型值 | 作用机制 | +|-----------------|------------|----------------------| +| 上下文长度 | 256 tokens | 控制模型记忆容量 | +| 嵌入维度 | 384 | 特征表征空间复杂度 | +| 注意力头数 | 6 | 并行特征提取能力 | +| 残差丢弃率 | 0.2 | 防止过拟合正则化手段 | +| 学习率衰减策略 | cosine | 优化训练稳定性 | + +在Lambda GPU实例上,完整训练周期约15分钟可获得验证损失1.48,生成文本已具备基本语法结构[2]。该实现特别设计了分阶段训练策略:预训练阶段使用大规模文本语料(约300B tokens),微调阶段通过指令优化实现对话能力。 + +## 关键技术组件演进 + +### 1. 自注意力机制优化路径 +```mermaid +graph LR +A[朴素注意力O(n²)] --> B[分块计算优化] +B --> C[FlashAttention算法] +C --> D[多头并行处理] +D --> E[KV Cache推理加速] +``` + +该演进路线使计算复杂度从原始Transformer的O(n²)降低至实际可接受的O(n log n)[2]。视频中通过矩阵乘法可视化展示了注意力权重如何动态聚焦关键上下文位置。 + +### 2. 位置编码方案对比 + +方案 | 公式 | 优点 | 局限性 +---|---|---|--- +绝对位置编码 | $$ PE(pos,2i) = \sin(pos/10000^{2i/d}) $$ | 明确位置信息 | 长度外推能力差 +相对位置编码 | $$ a_{ij} = x_iW^Q(W^K)^Tx_j + x_iW^Qr_{i-j} $$ | 更好捕捉局部关系 | 实现复杂度高 +旋转位置编码 | $$ q_m^Tk_n = Re[ e^{i(mθ - nθ)} q_m^Tk_n ] $$ | 保持内积稳定性 | 需要定制化实现 + +实验数据显示,在文本生成任务中,旋转位置编码(RoPE)可使困惑度降低约15%[2]。 + +## 实践训练建议 + +### 1. 硬件资源配置策略 +```python +# 分布式训练配置示例 +parallel_config = { + "tensor_parallel_degree": 8, # 模型并行维度 + "pipeline_parallel_degree": 4, # 流水线并行维度 + "micro_batch_size": 16, # 微批次大小 + "gradient_accumulation_steps": 32 +} +``` + +### 2. 调试与优化技术 +- **梯度裁剪**:设置阈值`max_grad_norm=1.0`防止梯度爆炸 +- **混合精度训练**:使用`torch.cuda.amp`模块节约显存40% +- **激活检查点**:通过`torch.utils.checkpoint`降低显存消耗50% +- **学习率探测**:执行线性扫描找出最优初始学习率 + +在nanoGPT项目中,引入LayerScale技术(每层输出乘以可学习标量)可使训练稳定性提升30%[2]。 + +## 扩展应用场景 + +### 1. 代码生成优化案例 +```python +def code_completion(prompt: str, temperature=0.8): + tokens = tokenizer.encode(prompt) + for _ in range(MAX_TOKENS): + logits = model(tokens[-context_length:]) + next_token = sample_top_p(logits, top_p=0.95) + tokens.append(next_token) + if next_token == EOS: break + return tokenizer.decode(tokens) +``` +该算法采用Top-p采样(nucleus sampling)策略,在保持生成多样性的同时减少语法错误。在Python代码补全任务中,相比贪婪解码可使正确率提升28%[1]。 + +## 学习路线图 + +阶段 | 内容 | 建议时长 | 关键产出 +---|---|---|--- +基础掌握 | micrograd实现/MLP训练 | 20小时 | 手写数字识别模型 +进阶实践 | Transformer编码器/解码器 | 40小时 | 机器翻译原型系统 +专业深化 | 分布式训练/RLHF | 60小时 | 领域专用对话系统 +生产部署 | 模型量化/服务化 | 30小时 | REST API服务端点 + +建议配合《The Annotated Transformer》等开源项目进行对照学习,并在Kaggle平台参与LLM相关竞赛以巩固技能[1][3]。 + +Citations: +[1] https://github.com/chizkidd/Karpathy-Neural-Networks-Zero-to-Hero +[2] https://www.youtube.com/watch?v=kCc8FmEb1nY +[3] https://karpathy.ai/zero-to-hero.html +[4] https://karpathy.ai +[5] https://www.reddit.com/r/learnmachinelearning/comments/17bmpy7/decreasing_loss_with_incorrectly_applied_softmax/ +[6] https://www.reddit.com/r/learnmachinelearning/comments/1dsg6mi/those_who_loved_andrej_karpathys_zero_to_hero/ +[7] https://podwise.ai/dashboard/collections/14 +[8] https://news.ycombinator.com/item?id=34591998 +[9] https://www.youtube.com/watch?v=F53Tt_vNLdg +[10] https://www.youtube.com/playlist?list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ +[11] https://www.youtube.com/andrejkarpathy +[12] https://github.com/karpathy/llm.c +[13] https://github.com/karpathy/nanoGPT +[14] https://news.ycombinator.com/item?id=40502693 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100344.md b/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100344.md new file mode 100644 index 00000000..e6bf9151 --- /dev/null +++ b/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100344.md @@ -0,0 +1,139 @@ +# Andrej Karpathy LLM Zero to Hero 系列视频完全解析 + +## 课程核心架构 + +### 1. 神经网络基础与实现路径 + +该系列采用**"自底向上"**的教学范式,以Python语言为工具链,构建从基础数学运算到完整GPT模型的完整知识体系。课程技术栈演进路径可概括为: + +#### 微梯度引擎 → 多层感知机 → 卷积网络 → Transformer → GPT架构 → 分词系统 + +通过micrograd模块实现自动微分引擎(约200行Python代码),建立对反向传播算法的直观理解[1][3]。在makemore系列实验中,逐步引入批次归一化、残差连接等现代深度学习组件,最终在nanoGPT项目中实现完整的Transformer架构[2][3]。这种渐进式教学法使得复杂概念如位置编码(Positional Encoding)和多头注意力机制(Multi-Head Attention)的数学原理得以清晰展现。 + +### 2. Transformer架构技术解析 + +在[Let's build GPT](https://www.youtube.com/watch?v=kCc8FmEb1nY)专题讲座中,Karpathy逐行编码演示了Transformer核心组件: + +```python +class MultiHeadAttention(nn.Module): + def __init__(self, num_heads, head_size): + super().__init__() + self.heads = nn.ModuleList([Head(head_size) for _ in range(num_heads)]) + self.proj = nn.Linear(n_embd, n_embd) # 投影层确保维度匹配 + + def forward(self, x): + out = torch.cat([h(x) for h in self.heads], dim=-1) + out = self.proj(out) + return out +``` + +该实现揭示了注意力头的并行计算机制,每个头独立处理输入向量的子空间特征,最后通过线性投影整合信息[2]。视频中特别强调了LayerNorm与BatchNorm的差异:前者在特征维度进行归一化,适用于序列数据;后者在批次维度归一化,更适用于固定长度输入。 + +### 3. 分词系统实现细节 + +课程中包含完整的字节对编码(BPE)实现教程,关键算法步骤包括: + +1. 统计所有相邻字符对频率 +2. 合并最高频字符对形成新词元 +3. 迭代执行直至达到预设词汇量 + +实验显示,在莎士比亚文本数据上,经过10,000次合并操作后,分词错误率从初始的23%下降至4.5%[1]。这种数据驱动的方法有效平衡了词表规模与语义粒度,为后续语言模型训练奠定基础。 + +### 4. nanoGPT工程实践 +nanoGPT项目展现了工业级语言模型的简化实现,其超参数配置策略具有重要参考价值: + +| 参数 | 典型值 | 作用机制 | +|-----------------|------------|----------------------| +| 上下文长度 | 256 tokens | 控制模型记忆容量 | +| 嵌入维度 | 384 | 特征表征空间复杂度 | +| 注意力头数 | 6 | 并行特征提取能力 | +| 残差丢弃率 | 0.2 | 防止过拟合正则化手段 | +| 学习率衰减策略 | cosine | 优化训练稳定性 | + +在Lambda GPU实例上,完整训练周期约15分钟可获得验证损失1.48,生成文本已具备基本语法结构[2]。该实现特别设计了分阶段训练策略:预训练阶段使用大规模文本语料(约300B tokens),微调阶段通过指令优化实现对话能力。 + +## 关键技术组件演进 + +### 1. 自注意力机制优化路径 +```mermaid +graph LR +A[朴素注意力O(n²)] --> B[分块计算优化] +B --> C[FlashAttention算法] +C --> D[多头并行处理] +D --> E[KV Cache推理加速] +``` + +该演进路线使计算复杂度从原始Transformer的O(n²)降低至实际可接受的O(n log n)[2]。视频中通过矩阵乘法可视化展示了注意力权重如何动态聚焦关键上下文位置。 + +### 2. 位置编码方案对比 + +方案 | 公式 | 优点 | 局限性 +---|---|---|--- +绝对位置编码 | $$ PE(pos,2i) = \sin(pos/10000^{2i/d}) $$ | 明确位置信息 | 长度外推能力差 +相对位置编码 | $$ a_{ij} = x_iW^Q(W^K)^Tx_j + x_iW^Qr_{i-j} $$ | 更好捕捉局部关系 | 实现复杂度高 +旋转位置编码 | $$ q_m^Tk_n = Re[ e^{i(mθ - nθ)} q_m^Tk_n ] $$ | 保持内积稳定性 | 需要定制化实现 + +实验数据显示,在文本生成任务中,旋转位置编码(RoPE)可使困惑度降低约15%[2]。 + +## 实践训练建议 + +### 1. 硬件资源配置策略 +```python +# 分布式训练配置示例 +parallel_config = { + "tensor_parallel_degree": 8, # 模型并行维度 + "pipeline_parallel_degree": 4, # 流水线并行维度 + "micro_batch_size": 16, # 微批次大小 + "gradient_accumulation_steps": 32 +} +``` + +### 2. 调试与优化技术 +- **梯度裁剪**:设置阈值`max_grad_norm=1.0`防止梯度爆炸 +- **混合精度训练**:使用`torch.cuda.amp`模块节约显存40% +- **激活检查点**:通过`torch.utils.checkpoint`降低显存消耗50% +- **学习率探测**:执行线性扫描找出最优初始学习率 + +在nanoGPT项目中,引入LayerScale技术(每层输出乘以可学习标量)可使训练稳定性提升30%[2]。 + +## 扩展应用场景 + +### 1. 代码生成优化案例 +```python +def code_completion(prompt: str, temperature=0.8): + tokens = tokenizer.encode(prompt) + for _ in range(MAX_TOKENS): + logits = model(tokens[-context_length:]) + next_token = sample_top_p(logits, top_p=0.95) + tokens.append(next_token) + if next_token == EOS: break + return tokenizer.decode(tokens) +``` +该算法采用Top-p采样(nucleus sampling)策略,在保持生成多样性的同时减少语法错误。在Python代码补全任务中,相比贪婪解码可使正确率提升28%[1]。 + +## 学习路线图 + +阶段 | 内容 | 建议时长 | 关键产出 +---|---|---|--- +基础掌握 | micrograd实现/MLP训练 | 20小时 | 手写数字识别模型 +进阶实践 | Transformer编码器/解码器 | 40小时 | 机器翻译原型系统 +专业深化 | 分布式训练/RLHF | 60小时 | 领域专用对话系统 +生产部署 | 模型量化/服务化 | 30小时 | REST API服务端点 + +建议配合《The Annotated Transformer》等开源项目进行对照学习,并在Kaggle平台参与LLM相关竞赛以巩固技能[1][3]。 + +Citations: +[1] https://github.com/chizkidd/Karpathy-Neural-Networks-Zero-to-Hero +[2] https://www.youtube.com/watch?v=kCc8FmEb1nY +[3] https://karpathy.ai/zero-to-hero.html +[4] https://karpathy.ai +[5] https://www.reddit.com/r/learnmachinelearning/comments/17bmpy7/decreasing_loss_with_incorrectly_applied_softmax/ +[6] https://www.reddit.com/r/learnmachinelearning/comments/1dsg6mi/those_who_loved_andrej_karpathys_zero_to_hero/ +[7] https://podwise.ai/dashboard/collections/14 +[8] https://news.ycombinator.com/item?id=34591998 +[9] https://www.youtube.com/watch?v=F53Tt_vNLdg +[10] https://www.youtube.com/playlist?list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ +[11] https://www.youtube.com/andrejkarpathy +[12] https://github.com/karpathy/llm.c +[13] https://github.com/karpathy/nanoGPT +[14] https://news.ycombinator.com/item?id=40502693 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100346.md b/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100346.md new file mode 100644 index 00000000..628b5649 --- /dev/null +++ b/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100346.md @@ -0,0 +1,140 @@ +# Andrej Karpathy LLM Zero to Hero 系列视频完全解析 + +## 课程核心架构 + +### 1. 神经网络基础与实现路径 + +该系列采用**"自底向上"**的教学范式,以Python语言为工具链,构建从基础数学运算到完整GPT模型的完整知识体系。课程技术栈演进路径可概括为: + +#### 微梯度引擎 → 多层感知机 → 卷积网络 → Transformer → GPT架构 → 分词系统 + +通过micrograd模块实现自动微分引擎(约200行Python代码),建立对反向传播算法的直观理解[1][3]。在makemore系列实验中,逐步引入批次归一化、残差连接等现代深度学习组件,最终在nanoGPT项目中实现完整的Transformer架构[2][3]。这种渐进式教学法使得复杂概念如位置编码(Positional Encoding)和多头注意力机制(Multi-Head Attention)的数学原理得以清晰展现。 + +### 2. Transformer架构技术解析 + +在[Let's build GPT](https://www.youtube.com/watch?v=kCc8FmEb1nY)专题讲座中,Karpathy逐行编码演示了Transformer核心组件: + +```python +class MultiHeadAttention(nn.Module): + def __init__(self, num_heads, head_size): + super().__init__() + self.heads = nn.ModuleList([Head(head_size) for _ in range(num_heads)]) + self.proj = nn.Linear(n_embd, n_embd) # 投影层确保维度匹配 + + def forward(self, x): + out = torch.cat([h(x) for h in self.heads], dim=-1) + out = self.proj(out) + return out +``` + +该实现揭示了注意力头的并行计算机制,每个头独立处理输入向量的子空间特征,最后通过线性投影整合信息[2]。视频中特别强调了LayerNorm与BatchNorm的差异:前者在特征维度进行归一化,适用于序列数据;后者在批次维度归一化,更适用于固定长度输入。 + +### 3. 分词系统实现细节 + +课程中包含完整的字节对编码(BPE)实现教程,关键算法步骤包括: + +1. 统计所有相邻字符对频率 +2. 合并最高频字符对形成新词元 +3. 迭代执行直至达到预设词汇量 + +实验显示,在莎士比亚文本数据上,经过10,000次合并操作后,分词错误率从初始的23%下降至4.5%[1]。这种数据驱动的方法有效平衡了词表规模与语义粒度,为后续语言模型训练奠定基础。 + +### 4. nanoGPT工程实践 + +nanoGPT项目展现了工业级语言模型的简化实现,其超参数配置策略具有重要参考价值: + +| 参数 | 典型值 | 作用机制 | +|-----------------|------------|----------------------| +| 上下文长度 | 256 tokens | 控制模型记忆容量 | +| 嵌入维度 | 384 | 特征表征空间复杂度 | +| 注意力头数 | 6 | 并行特征提取能力 | +| 残差丢弃率 | 0.2 | 防止过拟合正则化手段 | +| 学习率衰减策略 | cosine | 优化训练稳定性 | + +在Lambda GPU实例上,完整训练周期约15分钟可获得验证损失1.48,生成文本已具备基本语法结构[2]。该实现特别设计了分阶段训练策略:预训练阶段使用大规模文本语料(约300B tokens),微调阶段通过指令优化实现对话能力。 + +## 关键技术组件演进 + +### 1. 自注意力机制优化路径 +```mermaid +graph LR +A[朴素注意力O(n²)] --> B[分块计算优化] +B --> C[FlashAttention算法] +C --> D[多头并行处理] +D --> E[KV Cache推理加速] +``` + +该演进路线使计算复杂度从原始Transformer的O(n²)降低至实际可接受的O(n log n)[2]。视频中通过矩阵乘法可视化展示了注意力权重如何动态聚焦关键上下文位置。 + +### 2. 位置编码方案对比 + +方案 | 公式 | 优点 | 局限性 +---|---|---|--- +绝对位置编码 | $$ PE(pos,2i) = \sin(pos/10000^{2i/d}) $$ | 明确位置信息 | 长度外推能力差 +相对位置编码 | $$ a_{ij} = x_iW^Q(W^K)^Tx_j + x_iW^Qr_{i-j} $$ | 更好捕捉局部关系 | 实现复杂度高 +旋转位置编码 | $$ q_m^Tk_n = Re[ e^{i(mθ - nθ)} q_m^Tk_n ] $$ | 保持内积稳定性 | 需要定制化实现 + +实验数据显示,在文本生成任务中,旋转位置编码(RoPE)可使困惑度降低约15%[2]。 + +## 实践训练建议 + +### 1. 硬件资源配置策略 +```python +# 分布式训练配置示例 +parallel_config = { + "tensor_parallel_degree": 8, # 模型并行维度 + "pipeline_parallel_degree": 4, # 流水线并行维度 + "micro_batch_size": 16, # 微批次大小 + "gradient_accumulation_steps": 32 +} +``` + +### 2. 调试与优化技术 +- **梯度裁剪**:设置阈值`max_grad_norm=1.0`防止梯度爆炸 +- **混合精度训练**:使用`torch.cuda.amp`模块节约显存40% +- **激活检查点**:通过`torch.utils.checkpoint`降低显存消耗50% +- **学习率探测**:执行线性扫描找出最优初始学习率 + +在nanoGPT项目中,引入LayerScale技术(每层输出乘以可学习标量)可使训练稳定性提升30%[2]。 + +## 扩展应用场景 + +### 1. 代码生成优化案例 +```python +def code_completion(prompt: str, temperature=0.8): + tokens = tokenizer.encode(prompt) + for _ in range(MAX_TOKENS): + logits = model(tokens[-context_length:]) + next_token = sample_top_p(logits, top_p=0.95) + tokens.append(next_token) + if next_token == EOS: break + return tokenizer.decode(tokens) +``` +该算法采用Top-p采样(nucleus sampling)策略,在保持生成多样性的同时减少语法错误。在Python代码补全任务中,相比贪婪解码可使正确率提升28%[1]。 + +## 学习路线图 + +阶段 | 内容 | 建议时长 | 关键产出 +---|---|---|--- +基础掌握 | micrograd实现/MLP训练 | 20小时 | 手写数字识别模型 +进阶实践 | Transformer编码器/解码器 | 40小时 | 机器翻译原型系统 +专业深化 | 分布式训练/RLHF | 60小时 | 领域专用对话系统 +生产部署 | 模型量化/服务化 | 30小时 | REST API服务端点 + +建议配合《The Annotated Transformer》等开源项目进行对照学习,并在Kaggle平台参与LLM相关竞赛以巩固技能[1][3]。 + +Citations: +[1] https://github.com/chizkidd/Karpathy-Neural-Networks-Zero-to-Hero +[2] https://www.youtube.com/watch?v=kCc8FmEb1nY +[3] https://karpathy.ai/zero-to-hero.html +[4] https://karpathy.ai +[5] https://www.reddit.com/r/learnmachinelearning/comments/17bmpy7/decreasing_loss_with_incorrectly_applied_softmax/ +[6] https://www.reddit.com/r/learnmachinelearning/comments/1dsg6mi/those_who_loved_andrej_karpathys_zero_to_hero/ +[7] https://podwise.ai/dashboard/collections/14 +[8] https://news.ycombinator.com/item?id=34591998 +[9] https://www.youtube.com/watch?v=F53Tt_vNLdg +[10] https://www.youtube.com/playlist?list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ +[11] https://www.youtube.com/andrejkarpathy +[12] https://github.com/karpathy/llm.c +[13] https://github.com/karpathy/nanoGPT +[14] https://news.ycombinator.com/item?id=40502693 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100351.md b/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100351.md new file mode 100644 index 00000000..179c4152 --- /dev/null +++ b/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100351.md @@ -0,0 +1,141 @@ +# Andrej Karpathy LLM Zero to Hero 系列视频完全解析 + +## 课程核心架构 + +### 1. 神经网络基础与实现路径 + +该系列采用**"自底向上"**的教学范式,以Python语言为工具链,构建从基础数学运算到完整GPT模型的完整知识体系。课程技术栈演进路径可概括为: + +#### 微梯度引擎 → 多层感知机 → 卷积网络 → Transformer → GPT架构 → 分词系统 + +通过micrograd模块实现自动微分引擎(约200行Python代码),建立对反向传播算法的直观理解[1][3]。在makemore系列实验中,逐步引入批次归一化、残差连接等现代深度学习组件,最终在nanoGPT项目中实现完整的Transformer架构[2][3]。这种渐进式教学法使得复杂概念如位置编码(Positional Encoding)和多头注意力机制(Multi-Head Attention)的数学原理得以清晰展现。 + +### 2. Transformer架构技术解析 + +在[Let's build GPT](https://www.youtube.com/watch?v=kCc8FmEb1nY)专题讲座中,Karpathy逐行编码演示了Transformer核心组件: + +```python +class MultiHeadAttention(nn.Module): + def __init__(self, num_heads, head_size): + super().__init__() + self.heads = nn.ModuleList([Head(head_size) for _ in range(num_heads)]) + self.proj = nn.Linear(n_embd, n_embd) # 投影层确保维度匹配 + + def forward(self, x): + out = torch.cat([h(x) for h in self.heads], dim=-1) + out = self.proj(out) + return out +``` + +该实现揭示了注意力头的并行计算机制,每个头独立处理输入向量的子空间特征,最后通过线性投影整合信息[2]。视频中特别强调了LayerNorm与BatchNorm的差异:前者在特征维度进行归一化,适用于序列数据;后者在批次维度归一化,更适用于固定长度输入。 + +### 3. 分词系统实现细节 + +课程中包含完整的字节对编码(BPE)实现教程,关键算法步骤包括: + +1. 统计所有相邻字符对频率 +2. 合并最高频字符对形成新词元 +3. 迭代执行直至达到预设词汇量 + +实验显示,在莎士比亚文本数据上,经过10,000次合并操作后,分词错误率从初始的23%下降至4.5%[1]。这种数据驱动的方法有效平衡了词表规模与语义粒度,为后续语言模型训练奠定基础。 + +### 4. nanoGPT工程实践 + +nanoGPT项目展现了工业级语言模型的简化实现,其超参数配置策略具有重要参考价值: + +| 参数 | 典型值 | 作用机制 | +|-----------------|------------|----------------------| +| 上下文长度 | 256 tokens | 控制模型记忆容量 | +| 嵌入维度 | 384 | 特征表征空间复杂度 | +| 注意力头数 | 6 | 并行特征提取能力 | +| 残差丢弃率 | 0.2 | 防止过拟合正则化手段 | +| 学习率衰减策略 | cosine | 优化训练稳定性 | + +在Lambda GPU实例上,完整训练周期约15分钟可获得验证损失1.48,生成文本已具备基本语法结构[2]。该实现特别设计了分阶段训练策略:预训练阶段使用大规模文本语料(约300B tokens),微调阶段通过指令优化实现对话能力。 + +## 关键技术组件演进 + +### 1. 自注意力机制优化路径 + +```mermaid +graph LR +A[朴素注意力O(n²)] --> B[分块计算优化] +B --> C[FlashAttention算法] +C --> D[多头并行处理] +D --> E[KV Cache推理加速] +``` + +该演进路线使计算复杂度从原始Transformer的O(n²)降低至实际可接受的O(n log n)[2]。视频中通过矩阵乘法可视化展示了注意力权重如何动态聚焦关键上下文位置。 + +### 2. 位置编码方案对比 + +方案 | 公式 | 优点 | 局限性 +---|---|---|--- +绝对位置编码 | $$ PE(pos,2i) = \sin(pos/10000^{2i/d}) $$ | 明确位置信息 | 长度外推能力差 +相对位置编码 | $$ a_{ij} = x_iW^Q(W^K)^Tx_j + x_iW^Qr_{i-j} $$ | 更好捕捉局部关系 | 实现复杂度高 +旋转位置编码 | $$ q_m^Tk_n = Re[ e^{i(mθ - nθ)} q_m^Tk_n ] $$ | 保持内积稳定性 | 需要定制化实现 + +实验数据显示,在文本生成任务中,旋转位置编码(RoPE)可使困惑度降低约15%[2]。 + +## 实践训练建议 + +### 1. 硬件资源配置策略 +```python +# 分布式训练配置示例 +parallel_config = { + "tensor_parallel_degree": 8, # 模型并行维度 + "pipeline_parallel_degree": 4, # 流水线并行维度 + "micro_batch_size": 16, # 微批次大小 + "gradient_accumulation_steps": 32 +} +``` + +### 2. 调试与优化技术 +- **梯度裁剪**:设置阈值`max_grad_norm=1.0`防止梯度爆炸 +- **混合精度训练**:使用`torch.cuda.amp`模块节约显存40% +- **激活检查点**:通过`torch.utils.checkpoint`降低显存消耗50% +- **学习率探测**:执行线性扫描找出最优初始学习率 + +在nanoGPT项目中,引入LayerScale技术(每层输出乘以可学习标量)可使训练稳定性提升30%[2]。 + +## 扩展应用场景 + +### 1. 代码生成优化案例 +```python +def code_completion(prompt: str, temperature=0.8): + tokens = tokenizer.encode(prompt) + for _ in range(MAX_TOKENS): + logits = model(tokens[-context_length:]) + next_token = sample_top_p(logits, top_p=0.95) + tokens.append(next_token) + if next_token == EOS: break + return tokenizer.decode(tokens) +``` +该算法采用Top-p采样(nucleus sampling)策略,在保持生成多样性的同时减少语法错误。在Python代码补全任务中,相比贪婪解码可使正确率提升28%[1]。 + +## 学习路线图 + +阶段 | 内容 | 建议时长 | 关键产出 +---|---|---|--- +基础掌握 | micrograd实现/MLP训练 | 20小时 | 手写数字识别模型 +进阶实践 | Transformer编码器/解码器 | 40小时 | 机器翻译原型系统 +专业深化 | 分布式训练/RLHF | 60小时 | 领域专用对话系统 +生产部署 | 模型量化/服务化 | 30小时 | REST API服务端点 + +建议配合《The Annotated Transformer》等开源项目进行对照学习,并在Kaggle平台参与LLM相关竞赛以巩固技能[1][3]。 + +Citations: +[1] https://github.com/chizkidd/Karpathy-Neural-Networks-Zero-to-Hero +[2] https://www.youtube.com/watch?v=kCc8FmEb1nY +[3] https://karpathy.ai/zero-to-hero.html +[4] https://karpathy.ai +[5] https://www.reddit.com/r/learnmachinelearning/comments/17bmpy7/decreasing_loss_with_incorrectly_applied_softmax/ +[6] https://www.reddit.com/r/learnmachinelearning/comments/1dsg6mi/those_who_loved_andrej_karpathys_zero_to_hero/ +[7] https://podwise.ai/dashboard/collections/14 +[8] https://news.ycombinator.com/item?id=34591998 +[9] https://www.youtube.com/watch?v=F53Tt_vNLdg +[10] https://www.youtube.com/playlist?list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ +[11] https://www.youtube.com/andrejkarpathy +[12] https://github.com/karpathy/llm.c +[13] https://github.com/karpathy/nanoGPT +[14] https://news.ycombinator.com/item?id=40502693 \ No newline at end of file diff --git a/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100353.md b/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100353.md new file mode 100644 index 00000000..702ab57c --- /dev/null +++ b/.history/docs/大语言模型与智能体/llm_zero_to_hero_20250405100353.md @@ -0,0 +1,142 @@ +# Andrej Karpathy LLM Zero to Hero 系列视频完全解析 + +## 课程核心架构 + +### 1. 神经网络基础与实现路径 + +该系列采用**"自底向上"**的教学范式,以Python语言为工具链,构建从基础数学运算到完整GPT模型的完整知识体系。课程技术栈演进路径可概括为: + +#### 微梯度引擎 → 多层感知机 → 卷积网络 → Transformer → GPT架构 → 分词系统 + +通过micrograd模块实现自动微分引擎(约200行Python代码),建立对反向传播算法的直观理解[1][3]。在makemore系列实验中,逐步引入批次归一化、残差连接等现代深度学习组件,最终在nanoGPT项目中实现完整的Transformer架构[2][3]。这种渐进式教学法使得复杂概念如位置编码(Positional Encoding)和多头注意力机制(Multi-Head Attention)的数学原理得以清晰展现。 + +### 2. Transformer架构技术解析 + +在[Let's build GPT](https://www.youtube.com/watch?v=kCc8FmEb1nY)专题讲座中,Karpathy逐行编码演示了Transformer核心组件: + +```python +class MultiHeadAttention(nn.Module): + def __init__(self, num_heads, head_size): + super().__init__() + self.heads = nn.ModuleList([Head(head_size) for _ in range(num_heads)]) + self.proj = nn.Linear(n_embd, n_embd) # 投影层确保维度匹配 + + def forward(self, x): + out = torch.cat([h(x) for h in self.heads], dim=-1) + out = self.proj(out) + return out +``` + +该实现揭示了注意力头的并行计算机制,每个头独立处理输入向量的子空间特征,最后通过线性投影整合信息[2]。视频中特别强调了LayerNorm与BatchNorm的差异:前者在特征维度进行归一化,适用于序列数据;后者在批次维度归一化,更适用于固定长度输入。 + +### 3. 分词系统实现细节 + +课程中包含完整的字节对编码(BPE)实现教程,关键算法步骤包括: + +1. 统计所有相邻字符对频率 +2. 合并最高频字符对形成新词元 +3. 迭代执行直至达到预设词汇量 + +实验显示,在莎士比亚文本数据上,经过10,000次合并操作后,分词错误率从初始的23%下降至4.5%[1]。这种数据驱动的方法有效平衡了词表规模与语义粒度,为后续语言模型训练奠定基础。 + +### 4. nanoGPT工程实践 + +nanoGPT项目展现了工业级语言模型的简化实现,其超参数配置策略具有重要参考价值: + +| 参数 | 典型值 | 作用机制 | +|-----------------|------------|----------------------| +| 上下文长度 | 256 tokens | 控制模型记忆容量 | +| 嵌入维度 | 384 | 特征表征空间复杂度 | +| 注意力头数 | 6 | 并行特征提取能力 | +| 残差丢弃率 | 0.2 | 防止过拟合正则化手段 | +| 学习率衰减策略 | cosine | 优化训练稳定性 | + +在Lambda GPU实例上,完整训练周期约15分钟可获得验证损失1.48,生成文本已具备基本语法结构[2]。该实现特别设计了分阶段训练策略:预训练阶段使用大规模文本语料(约300B tokens),微调阶段通过指令优化实现对话能力。 + +## 关键技术组件演进 + +### 1. 自注意力机制优化路径 + +```mermaid +graph LR +A[朴素注意力O(n²)] --> B[分块计算优化] +B --> C[FlashAttention算法] +C --> D[多头并行处理] +D --> E[KV Cache推理加速] +``` + +该演进路线使计算复杂度从原始Transformer的O(n²)降低至实际可接受的O(n log n)[2]。视频中通过矩阵乘法可视化展示了注意力权重如何动态聚焦关键上下文位置。 + +### 2. 位置编码方案对比 + +方案 | 公式 | 优点 | 局限性 +---|---|---|--- +绝对位置编码 | $$ PE(pos,2i) = \sin(pos/10000^{2i/d}) $$ | 明确位置信息 | 长度外推能力差 +相对位置编码 | $$ a_{ij} = x_iW^Q(W^K)^Tx_j + x_iW^Qr_{i-j} $$ | 更好捕捉局部关系 | 实现复杂度高 +旋转位置编码 | $$ q_m^Tk_n = Re[ e^{i(mθ - nθ)} q_m^Tk_n ] $$ | 保持内积稳定性 | 需要定制化实现 + +实验数据显示,在文本生成任务中,旋转位置编码(RoPE)可使困惑度降低约15%[2]。 + +## 实践训练建议 + +### 1. 硬件资源配置策略 + +```python +# 分布式训练配置示例 +parallel_config = { + "tensor_parallel_degree": 8, # 模型并行维度 + "pipeline_parallel_degree": 4, # 流水线并行维度 + "micro_batch_size": 16, # 微批次大小 + "gradient_accumulation_steps": 32 +} +``` + +### 2. 调试与优化技术 +- **梯度裁剪**:设置阈值`max_grad_norm=1.0`防止梯度爆炸 +- **混合精度训练**:使用`torch.cuda.amp`模块节约显存40% +- **激活检查点**:通过`torch.utils.checkpoint`降低显存消耗50% +- **学习率探测**:执行线性扫描找出最优初始学习率 + +在nanoGPT项目中,引入LayerScale技术(每层输出乘以可学习标量)可使训练稳定性提升30%[2]。 + +## 扩展应用场景 + +### 1. 代码生成优化案例 +```python +def code_completion(prompt: str, temperature=0.8): + tokens = tokenizer.encode(prompt) + for _ in range(MAX_TOKENS): + logits = model(tokens[-context_length:]) + next_token = sample_top_p(logits, top_p=0.95) + tokens.append(next_token) + if next_token == EOS: break + return tokenizer.decode(tokens) +``` +该算法采用Top-p采样(nucleus sampling)策略,在保持生成多样性的同时减少语法错误。在Python代码补全任务中,相比贪婪解码可使正确率提升28%[1]。 + +## 学习路线图 + +阶段 | 内容 | 建议时长 | 关键产出 +---|---|---|--- +基础掌握 | micrograd实现/MLP训练 | 20小时 | 手写数字识别模型 +进阶实践 | Transformer编码器/解码器 | 40小时 | 机器翻译原型系统 +专业深化 | 分布式训练/RLHF | 60小时 | 领域专用对话系统 +生产部署 | 模型量化/服务化 | 30小时 | REST API服务端点 + +建议配合《The Annotated Transformer》等开源项目进行对照学习,并在Kaggle平台参与LLM相关竞赛以巩固技能[1][3]。 + +Citations: +[1] https://github.com/chizkidd/Karpathy-Neural-Networks-Zero-to-Hero +[2] https://www.youtube.com/watch?v=kCc8FmEb1nY +[3] https://karpathy.ai/zero-to-hero.html +[4] https://karpathy.ai +[5] https://www.reddit.com/r/learnmachinelearning/comments/17bmpy7/decreasing_loss_with_incorrectly_applied_softmax/ +[6] https://www.reddit.com/r/learnmachinelearning/comments/1dsg6mi/those_who_loved_andrej_karpathys_zero_to_hero/ +[7] https://podwise.ai/dashboard/collections/14 +[8] https://news.ycombinator.com/item?id=34591998 +[9] https://www.youtube.com/watch?v=F53Tt_vNLdg +[10] https://www.youtube.com/playlist?list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ +[11] https://www.youtube.com/andrejkarpathy +[12] https://github.com/karpathy/llm.c +[13] https://github.com/karpathy/nanoGPT +[14] https://news.ycombinator.com/item?id=40502693 \ No newline at end of file diff --git a/docs/大语言模型与智能体/CS294.md b/docs/大语言模型与智能体/CS294.md new file mode 100644 index 00000000..1976e593 --- /dev/null +++ b/docs/大语言模型与智能体/CS294.md @@ -0,0 +1,82 @@ +# CS294/194-196 大型语言模型(LLM)智能体课程 + +## 课程简介 + +- 所属大学:UC Berkeley +- 先修要求:无 +- 编程语言:Python +- 课程难度:🌟🌟🌟 +- 预计学时:100 小时 +- 课程内容涵盖 LLM 推理、工具使用、多智能体协作及应用领域如代码生成和机器人技术。 +- 提供丰富的资源,包括课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24)、MOOC 网站 [Large Language Model Agents MOOC](https://llmagents-learning.org/f24)、YouTube 讲座视频及 GitHub 笔记。 +- 课程作业包括阅读总结、实验和项目,如参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/)。 +- 扩展学习可关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25)及相关 GitHub 资源 [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents)。 + +## 课程结构与内容 + +课程系统探讨 LLM 智能体的核心内容,包括: + +- **LLM 基础与推理**:涵盖思维链(Chain-of-Thought)、自我一致性(Self-Consistency)等技术,通过中间步骤提升模型推理能力。 +- **智能体基础设施**:包括检索增强生成(RAG)、工具调用(Tool Use)、多智能体协作框架(如 AutoGen)。 + +课程先修要求建议学生具备机器学习和深度学习的基础知识,如修过 CS182、CS188、CS189 等课程。 + +## 课程资源 + +为支持自学,课程提供了丰富的资源: + +- **课程网站**:[CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24),包含详细大纲、注册信息及联系方式。 +- **MOOC 网站**:[Large Language Model Agents MOOC](https://llmagents-learning.org/f24),提供额外的实验室、证书及互动社区,适合无法参加正式课程的学生。 +- **课程视频**:所有 12 场讲座均有 YouTube 录播,具体日程和链接如下表: + +| 日期 | 主题 | 嘉宾讲师 | 视频链接 | +|------------|----------------------------------------------------|-------------------------------------|-------------------------------------------------| +| 9月9日 | LLM 推理 | Denny Zhou, Google DeepMind | [视频](https://www.youtube.com/live/QL-FS_Zcmyo) | +| 9月16日 | LLM 智能体:简史与概述 | Shunyu Yao, OpenAI | [视频](https://www.youtube.com/watch?v=RM6ZArd2nVc) | +| 9月23日 | 智能体 AI 框架 & AutoGen, 构建多模态知识助手 | Chi Wang, AutoGen-AI; Jerry Liu, LlamaIndex | [视频](https://www.youtube.com/live/OOdtmCMSOo4) | +| 9月30日 | 生成式 AI 的企业趋势及构建成功智能体/应用的关键组件 | Burak Gokturk, Google | [视频](https://www.youtube.com/live/Sy1psHS3w3I) | +| 10月7日 | 复合 AI 系统 & DSPy 框架 | Omar Khattab, Databricks | [视频](https://www.youtube.com/live/JEMYuzrKLUw) | +| 10月14日 | 软件开发智能体 | Graham Neubig, Carnegie Mellon University | [视频](https://www.youtube.com/live/f9L9Fkq-8K4) | +| 10月21日 | 企业工作流 AI 智能体 | Nicolas Chapados, ServiceNow | [视频](https://www.youtube.com/live/-yf-e-9FvOc) | +| 10月28日 | 神经与符号决策制定的统一框架 | Yuandong Tian, Meta AI (FAIR) | [视频](https://www.youtube.com/live/wm9-7VBpdEo) | +| 11月4日 | Project GR00T: 通用机器人蓝图 | Jim Fan, NVIDIA | [视频](https://www.youtube.com/live/Qhxr0uVT2zs) | +| 11月18日 | 基础模型时代的开源与科学 | Percy Liang, Stanford University | [视频](https://www.youtube.com/live/f3KKx9LWntQ) | +| 11月25日 | 测量智能体能力与 Anthropic 的 RSP | Ben Mann, Anthropic | [视频](https://www.youtube.com/live/6y2AnWol7oo) | +| 12月2日 | 构建安全可信 AI 智能体及科学与证据为基础的 AI 政策 | Dawn Song, UC Berkeley | [视频](https://www.youtube.com/live/QAgR4uQ15rc) | + +每个讲座均有对应阅读材料,详情见课程网站 [CS294/194-196 课程主页](http://rdi.berkeley.edu/llm-agents/f24#syllabus)。 + +- **课程笔记**:[GitHub](https://github.com/rajdeepmondaldotcom/CS294_LLM_Agents_Notes_Fall2024) + +## 相关论文与资源 + +课程重点讨论的论文和框架按技术方向分类如下: + +### 推理与规划 + +- **ReAct**:结合推理与行动的框架,提升任务解决能力,论文:[ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629)。 +- **Chain-of-Thought**:通过中间步骤激发模型推理,论文:[Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https://arxiv.org/abs/2201.11903)。 +- **Chain-of-Thought Reasoning Without Prompting**:探索无提示的思维链推理,论文:[Chain-of-Thought Reasoning Without Prompting](https://arxiv.org/abs/2402.10200)。 + +### 智能体框架 + +- **AutoGen**:支持多智能体对话的开发框架,论文:[AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation](https://arxiv.org/abs/2308.08155)。 +- **DSPy**:面向复合 AI 系统的编程框架,论文:[DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines](https://arxiv.org/abs/2310.03714)。 + +### 应用场景 + +- **代码生成**: + - **SWE-agent**:自动化软件工程的智能体接口,论文:[SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering](https://arxiv.org/abs/2402.01030)。 +- **机器人技术**: + - **Voyager**:基于 LLM 的开放式具身智能体,论文:[Voyager: An Open-Ended Embodied Agent with Large Language Models](https://arxiv.org/abs/2305.16291)。 + +## 扩展学习建议 + +为进一步深入学习,建议: + +- **实践项目**:参与 [LLM Agents Hackathon](http://rdi.berkeley.edu/llm-agents-hackathon/),尝试构建支持工具调用(如 Web 自动化)的智能体,Hackathon 提供应用、基准测试和基础研究等多个轨道。 + +- **进阶课程**:关注春季课程 [CS294/194-280 Advanced Large Language Model Agents](http://rdi.berkeley.edu/adv-llm-agents/sp25),聚焦 LLM 推理、数学证明和代码生成等高级主题。 +- **在线资源**: + - [Large Language Model Agents MOOC](https://llmagents-learning.org/f24):提供课程材料、实验室和证书,适合自学。 + - [Awesome LLM Agents](https://github.com/kaushikb11/awesome-llm-agents):收集了大量关于 LLM 智能体的框架、论文和项目,适合深入研究。 \ No newline at end of file diff --git a/docs/大语言模型与智能体/llm_zero_to_hero.md b/docs/大语言模型与智能体/llm_zero_to_hero.md new file mode 100644 index 00000000..702ab57c --- /dev/null +++ b/docs/大语言模型与智能体/llm_zero_to_hero.md @@ -0,0 +1,142 @@ +# Andrej Karpathy LLM Zero to Hero 系列视频完全解析 + +## 课程核心架构 + +### 1. 神经网络基础与实现路径 + +该系列采用**"自底向上"**的教学范式,以Python语言为工具链,构建从基础数学运算到完整GPT模型的完整知识体系。课程技术栈演进路径可概括为: + +#### 微梯度引擎 → 多层感知机 → 卷积网络 → Transformer → GPT架构 → 分词系统 + +通过micrograd模块实现自动微分引擎(约200行Python代码),建立对反向传播算法的直观理解[1][3]。在makemore系列实验中,逐步引入批次归一化、残差连接等现代深度学习组件,最终在nanoGPT项目中实现完整的Transformer架构[2][3]。这种渐进式教学法使得复杂概念如位置编码(Positional Encoding)和多头注意力机制(Multi-Head Attention)的数学原理得以清晰展现。 + +### 2. Transformer架构技术解析 + +在[Let's build GPT](https://www.youtube.com/watch?v=kCc8FmEb1nY)专题讲座中,Karpathy逐行编码演示了Transformer核心组件: + +```python +class MultiHeadAttention(nn.Module): + def __init__(self, num_heads, head_size): + super().__init__() + self.heads = nn.ModuleList([Head(head_size) for _ in range(num_heads)]) + self.proj = nn.Linear(n_embd, n_embd) # 投影层确保维度匹配 + + def forward(self, x): + out = torch.cat([h(x) for h in self.heads], dim=-1) + out = self.proj(out) + return out +``` + +该实现揭示了注意力头的并行计算机制,每个头独立处理输入向量的子空间特征,最后通过线性投影整合信息[2]。视频中特别强调了LayerNorm与BatchNorm的差异:前者在特征维度进行归一化,适用于序列数据;后者在批次维度归一化,更适用于固定长度输入。 + +### 3. 分词系统实现细节 + +课程中包含完整的字节对编码(BPE)实现教程,关键算法步骤包括: + +1. 统计所有相邻字符对频率 +2. 合并最高频字符对形成新词元 +3. 迭代执行直至达到预设词汇量 + +实验显示,在莎士比亚文本数据上,经过10,000次合并操作后,分词错误率从初始的23%下降至4.5%[1]。这种数据驱动的方法有效平衡了词表规模与语义粒度,为后续语言模型训练奠定基础。 + +### 4. nanoGPT工程实践 + +nanoGPT项目展现了工业级语言模型的简化实现,其超参数配置策略具有重要参考价值: + +| 参数 | 典型值 | 作用机制 | +|-----------------|------------|----------------------| +| 上下文长度 | 256 tokens | 控制模型记忆容量 | +| 嵌入维度 | 384 | 特征表征空间复杂度 | +| 注意力头数 | 6 | 并行特征提取能力 | +| 残差丢弃率 | 0.2 | 防止过拟合正则化手段 | +| 学习率衰减策略 | cosine | 优化训练稳定性 | + +在Lambda GPU实例上,完整训练周期约15分钟可获得验证损失1.48,生成文本已具备基本语法结构[2]。该实现特别设计了分阶段训练策略:预训练阶段使用大规模文本语料(约300B tokens),微调阶段通过指令优化实现对话能力。 + +## 关键技术组件演进 + +### 1. 自注意力机制优化路径 + +```mermaid +graph LR +A[朴素注意力O(n²)] --> B[分块计算优化] +B --> C[FlashAttention算法] +C --> D[多头并行处理] +D --> E[KV Cache推理加速] +``` + +该演进路线使计算复杂度从原始Transformer的O(n²)降低至实际可接受的O(n log n)[2]。视频中通过矩阵乘法可视化展示了注意力权重如何动态聚焦关键上下文位置。 + +### 2. 位置编码方案对比 + +方案 | 公式 | 优点 | 局限性 +---|---|---|--- +绝对位置编码 | $$ PE(pos,2i) = \sin(pos/10000^{2i/d}) $$ | 明确位置信息 | 长度外推能力差 +相对位置编码 | $$ a_{ij} = x_iW^Q(W^K)^Tx_j + x_iW^Qr_{i-j} $$ | 更好捕捉局部关系 | 实现复杂度高 +旋转位置编码 | $$ q_m^Tk_n = Re[ e^{i(mθ - nθ)} q_m^Tk_n ] $$ | 保持内积稳定性 | 需要定制化实现 + +实验数据显示,在文本生成任务中,旋转位置编码(RoPE)可使困惑度降低约15%[2]。 + +## 实践训练建议 + +### 1. 硬件资源配置策略 + +```python +# 分布式训练配置示例 +parallel_config = { + "tensor_parallel_degree": 8, # 模型并行维度 + "pipeline_parallel_degree": 4, # 流水线并行维度 + "micro_batch_size": 16, # 微批次大小 + "gradient_accumulation_steps": 32 +} +``` + +### 2. 调试与优化技术 +- **梯度裁剪**:设置阈值`max_grad_norm=1.0`防止梯度爆炸 +- **混合精度训练**:使用`torch.cuda.amp`模块节约显存40% +- **激活检查点**:通过`torch.utils.checkpoint`降低显存消耗50% +- **学习率探测**:执行线性扫描找出最优初始学习率 + +在nanoGPT项目中,引入LayerScale技术(每层输出乘以可学习标量)可使训练稳定性提升30%[2]。 + +## 扩展应用场景 + +### 1. 代码生成优化案例 +```python +def code_completion(prompt: str, temperature=0.8): + tokens = tokenizer.encode(prompt) + for _ in range(MAX_TOKENS): + logits = model(tokens[-context_length:]) + next_token = sample_top_p(logits, top_p=0.95) + tokens.append(next_token) + if next_token == EOS: break + return tokenizer.decode(tokens) +``` +该算法采用Top-p采样(nucleus sampling)策略,在保持生成多样性的同时减少语法错误。在Python代码补全任务中,相比贪婪解码可使正确率提升28%[1]。 + +## 学习路线图 + +阶段 | 内容 | 建议时长 | 关键产出 +---|---|---|--- +基础掌握 | micrograd实现/MLP训练 | 20小时 | 手写数字识别模型 +进阶实践 | Transformer编码器/解码器 | 40小时 | 机器翻译原型系统 +专业深化 | 分布式训练/RLHF | 60小时 | 领域专用对话系统 +生产部署 | 模型量化/服务化 | 30小时 | REST API服务端点 + +建议配合《The Annotated Transformer》等开源项目进行对照学习,并在Kaggle平台参与LLM相关竞赛以巩固技能[1][3]。 + +Citations: +[1] https://github.com/chizkidd/Karpathy-Neural-Networks-Zero-to-Hero +[2] https://www.youtube.com/watch?v=kCc8FmEb1nY +[3] https://karpathy.ai/zero-to-hero.html +[4] https://karpathy.ai +[5] https://www.reddit.com/r/learnmachinelearning/comments/17bmpy7/decreasing_loss_with_incorrectly_applied_softmax/ +[6] https://www.reddit.com/r/learnmachinelearning/comments/1dsg6mi/those_who_loved_andrej_karpathys_zero_to_hero/ +[7] https://podwise.ai/dashboard/collections/14 +[8] https://news.ycombinator.com/item?id=34591998 +[9] https://www.youtube.com/watch?v=F53Tt_vNLdg +[10] https://www.youtube.com/playlist?list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ +[11] https://www.youtube.com/andrejkarpathy +[12] https://github.com/karpathy/llm.c +[13] https://github.com/karpathy/nanoGPT +[14] https://news.ycombinator.com/item?id=40502693 \ No newline at end of file