更好使用大模型:从聊天机器人到agent
本文目的:从用户视角出发,建立一个关于大模型“能做什么”和“如何使用AI提高效率”的全局认知。
本文是一个大模型扫盲文章,即使零基础也能系统性了解整个AI领域目前发展的情况。
从聊天机器人到百花齐放
- 第一次认识大模型:简单的文字聊天。
- 现状:模型能力各有千秋(如 Claude 的代码,Gemini 的综合能力),产品形态层出不穷。
头部通用模型简介
精选LMArena排行榜上综合排名靠前的模型。
从写作、编程、数学、指令遵循、推理、创意、幻觉等各方面能力、使用场景、使用成本、使用体验等角度,进行综合对比。
全部模型可以参考全球AI模型发布时间线(持续更新)。我这下面主要按照公司整理。
OpenAI的GPT系列
发布时间线
作为 AI 领域的领军者,OpenAI 的 GPT 系列无疑是行业内的标杆。但由于各家追赶,大模型领域已不再是OpenAI一家之言。
- GPT-1(2018年) OpenAI于2018年发布了GPT-1模型,这是基于生成式预训练(Generative Pre-Training)的Transformer架构,采用了仅有解码器的Transformer模型,专注于预测下一个词元。
- GPT-2(2019年2月) GPT-2继承了GPT-1的架构,并将参数规模扩大到15亿,使用大规模网页数据集WebText进行预训练。
- GPT-3(2020年6月) GPT-3首次提出了“上下文学习”概念,允许大语言模型通过少样本学习解决各种任务,消除了对新任务进行微调的需求。
- InstructGPT(2022年1月) OpenAI推出了InstructGPT,正式建立了基于人类反馈的强化学习算法RLHF,旨在改进GPT-3模型与人类对齐的能力,提高指令遵循能力,并缓解有害内容的生成。
- ChatGPT(2022年11月) ChatGPT沿用了InstructGPT的训练技术,并针对对话能力进行了优化。
- GPT-4(2023年3月) GPT-4是GPT系列模型的重要升级,首次将输入模态从单一文本扩展到图文双模态。
- GPT-4V(2023年9月) GPT-4V专注于视觉输入的安全部署,广泛讨论了相关风险评估和缓解策略。
- GPT-4 Turbo(2023年11月) GPT-4 Turbo在多个方面进行了优化,包括提升模型整体能力、扩展知识来源、支持更长上下文窗口、优化性能和价格,并引入了新功能。
- GPT-4o(2024年5月14日) GPT-4o是一个多模态大模型,支持文本、音频和图像的任意组合输入,并能生成文本、音频和图像的任意组合输出。
- 推理模型o1(2024年9月) o1模型正式版发布,“o” 代表 “optimized”(优化),o1 是针对逻辑推理能力专项强化的实验性版本,提升了数学和编程能力,并支持多模态识别。
- o1-pro(2024年12月):增强版o1,超级贵
- Sora(2024年12月8日) AI视频生成工具Sora正式发布,支持生成最长20秒、最高1080p的视频。
- Canvas(2024年12月9日) OpenAI推出了集智能写作、代码协作和AI智能体为一体的工作台Canvas。
- 推理模型o3和o3-mini(2024年12月20日) OpenAI发布了o3模型,作为o1模型的后续版本,聚焦长对话连贯性与语境记忆优化。解决多轮对话中 “遗忘前文” 的问题,支持数万字上下文的持续交互,适合剧本创作、项目协作等长流程任务。同时发布AI智能体Operator,支持GUI交互,基于推理思考模型o3微调而成。
- GPT4.5(2025年2月) 性能有所提升,但并非革命性突破。在GPT4之后时隔两年,推出了没啥进步的模型。而DeepSeek R1的技术进步与开源让OpenAI处于尴尬境地。官方解释说它在理解用户意图、对话更自然、能捕捉用户情感和言外之意,幻觉减少。 但 API价格高昂(API输入75美元/百万token,输出更是150)。此时舆论对OpenAI充满了质疑。
- OpenAI发布轻量版DeepResearch(2025年4月25日),基于o4-mini, 面向免费用户,回答更短,但智能水平与全量版相当。
- GPT4.1(2025年4月):由于GPT4.5是在太贵,OpenAI推出这个号称“效果和4.5差距不大,但是价格非常便宜”的模型(输入2,输出8)。
- 推理模型o4-mini(2025年4月):新增了工具使用能力,优化了速度和成本的推理模型。能力整体不如o3(但部分场景o4mini比o3好),但是胜在速度。
- 推理模型o3-pro(2025年6月):设计为“思考更久”以提供最可靠响应,擅长数学、科学、编码,可访问工具。API定价为每百万token输入20美元/输出80美元。宣布 o3 降价80%,比GPT4o还便宜。
- GPT-image-1(2025年4月):基于 GPT-4o 的多模态架构打造,继承了强大的语言理解能力,这使其对复杂、多对象、长描述的提示词理解更为精准,生成图像与描述高度契合。文本输入每百万 Token 5 美元,图像输入每百万 Token 10 美元,图像输出每百万 Token 40 美元。
- ChatGPT Agent(2025年7月18日):是产品而不是模型,具备自主思考和行动的能力,能够主动从其技能库中选择合适的工具,完成各种复杂任务,结合Deep research多步研究和高质量报告生成能力、通过远程可视化浏览器环境执行任务的能力等。
- GPT-5(2025年8月):GPT-5 在数学、编程、视觉感知和健康等领域均展现顶尖性能。虽然整体提升不少,但发布会前夸张的宣传提高了所有人预期,发布后大家普遍感到失望。GPT5的特点是把一大堆模型集成起来,然后加了个决策机制,实时决策路由机制会依据对话类型、复杂程度、工具需求以及用户明确意图,快速匹配最适宜模型,自主决定是否进入深度思考模式。但由于不确定OpenAI会不会处于成本考虑,在路由中总是选取较差的模型,所以争议也不小。整体来说还是很强的。
各个付费级别可以用什么模型
Google的Gemini系列
Anthropic的Claude系列
马斯克的Grok系列
深度求索的Deepseek系列
阿里的千问系列
字节的豆包Seed系列
月之暗面的Kimi系列
智谱的GLM系列
大模型技术发展过程与关键概念
基本核心概念解析
模型基础概念
- Token (令牌): 理解模型输入、输出和成本的基本单位
- 作为计价方式
- 中文约1.5-2个字符=1个token
- 模型规模: 参数量决定模型能力(7B、13B、70B等)
- 上下文窗口 (Context Window): 模型的"短期记忆",决定了它一次能处理多少信息
- 从4K到2M tokens的发展历程
- 幻觉 (Hallucination): 为何模型会"一本正经地胡说八道"?
- 温度 (Temperature): 控制输出的随机性和创造性
- Top-p/Top-k: 控制输出概率分布的参数
训练相关概念
- 预训练 (Pre-training): 大规模无监督学习阶段
- 微调 (Fine-tuning): 针对特定任务的调优
- RLHF (人类反馈强化学习): 让AI更符合人类价值观
- 指令跟随 (Instruction Following): 理解和执行用户指令的能力
- 对齐 (Alignment): 确保AI行为符合人类意图和价值观
提示词
提示词工程
- 零样本 (Zero-shot): 无示例直接完成任务
- 少样本 (Few-shot): 提供少量示例学习
- 思维链 (Chain of Thought, CoT): 让AI展示推理过程
- 角色扮演: 让AI扮演特定角色完成任务
- 分步骤提示: 将复杂任务分解为简单步骤
系统提示词
- 系统消息 (System Message): 设定AI的行为准则和角色
- 用户消息 (User Message): 具体的任务指令
- 助手消息 (Assistant Message): AI的回复
高级提示技巧
- 自我一致性 (Self-Consistency): 多次采样取最一致答案
- 反思提示 (Reflection): 让AI检查和改进自己的答案
- 元提示 (Meta-prompting): 让AI生成更好的提示词
联网
- 实时信息获取: 突破训练数据时间限制
- 网络搜索集成: 结合搜索引擎提供最新信息
- 网页内容理解: 直接分析网页内容
AI搜索
- 传统搜索 vs AI搜索: 关键词匹配 vs 语义理解
- RAG (检索增强生成): 结合搜索和生成的技术
- 向量搜索: 基于语义相似度的搜索方式
- 重排序 (Re-ranking): 优化搜索结果排序
函数调用 (Function Calling)
- 工具使用能力: AI调用外部工具和API
- 结构化输出: 生成符合特定格式的数据
- 多步骤任务执行: 组合多个工具完成复杂任务
- 实时数据获取: 调用API获取最新信息
开源与闭源
- 开源模型: Llama、Qwen、GLM等
- 可本地部署
- 数据隐私保护
- 定制化程度高
- 闭源模型: GPT、Claude、Gemini等
- 性能通常更强
- 使用便捷
- 持续更新
- 模型评测: MMLU、HellaSwag、HumanEval等基准
推理模型
- o1系列: 专门用于复杂推理的模型
- 思维时间 (Thinking Time): 模型内部推理过程
- 数学和科学推理: 专业领域的深度思考能力
- 代码推理: 程序逻辑分析和调试
多模态
- 视觉理解: 图片识别、分析、描述
- 文档解析: PDF、表格、图表理解
- 视频分析: 视频内容理解和总结
- 音频处理: 语音识别和音频分析
- 跨模态生成: 文本生成图片、图片生成文本
知识库增强 (RAG)
- 向量数据库: 存储和检索语义信息
- 文档切片 (Chunking): 将长文档分割为小块
- 嵌入模型 (Embedding): 将文本转换为向量
- 相似度计算: 找到最相关的信息片段
- 上下文注入: 将检索到的信息加入提示词
大模型Agent
- 自主性 (Autonomy): AI独立完成复杂任务的能力
- 规划能力 (Planning): 将大任务分解为子任务
- 记忆系统 (Memory): 长期和短期记忆管理
- 工具调用链: 组合多个工具完成任务
- 反思和自我修正: 评估和改进执行结果
Agent开发平台
- Coze: 字节跳动的Agent构建平台
- Dify: 开源的LLM应用开发平台
- LangChain: Python/JS的Agent开发框架
- AutoGPT: 自主执行任务的Agent
MCP (Model Context Protocol)
- 标准化接口: 统一的模型上下文协议
- 工具集成: 标准化的工具调用方式
- 跨平台兼容: 不同平台间的互操作性
安全与伦理
- 提示注入 (Prompt Injection): 恶意提示词攻击
- 数据泄露风险: 训练数据中的敏感信息
- 偏见和歧视: 模型输出中的不公平现象
- 深度伪造 (Deepfake): 虚假内容生成的风险
- AI检测: 识别AI生成内容的技术
成本优化
- 模型选择策略: 根据任务选择合适规模的模型
- 缓存机制: 避免重复计算相同内容
- 批处理: 批量处理提高效率
- 流式输出: 实时返回部分结果
- API调用优化: 减少不必要的API请求
部署方式
- 云端API: 直接调用厂商提供的API
- 本地部署: 在自己的服务器上运行模型
- 边缘计算: 在移动设备或边缘设备上运行
- 混合部署: 结合云端和本地的优势
DeepRearch
- 深度研究能力: AI进行复杂研究任务
- 多轮对话研究: 持续深入探讨问题
- 文献综述: 自动整理和分析大量文献
- 假设生成和验证: 科学研究的AI辅助
大模型产品
通用对话AI
- ChatGPT: OpenAI的旗舰产品
- Claude: Anthropic的AI助手
- Gemini: Google的多模态AI
- 文心一言: 百度的中文大模型
- 通义千问: 阿里巴巴的大模型
- 智谱清言: 智谱AI的对话产品
大模型角色定制
- Character.AI: 角色扮演对话平台
- Poe: 多模型聚合平台
- 自定义GPTs: OpenAI的个性化AI助手
- 角色一致性: 保持特定人格和说话风格
AI生图
- 文生图 (Text-to-Image): 根据描述生成图片
- 图生图 (Image-to-Image): 基于参考图生成新图
- 控制生成: ControlNet、IP-Adapter等精确控制
- 风格迁移: 改变图片艺术风格
主流生图工具
- Midjourney: 艺术性最强的AI绘画工具
- DALL-E 3: OpenAI的图像生成模型
- Stable Diffusion: 开源的图像生成模型
- Firefly: Adobe的商用AI绘画工具
AI搜索
- Perplexity: AI驱动的搜索引擎
- 秘塔AI搜索: 中文AI搜索产品
- Kimi搜索: 月之暗面的搜索功能
- 实时信息整合: 结合多个信源提供答案
AI编程
- 代码生成: 根据需求自动编写代码
- 代码解释: 理解和解释复杂代码逻辑
- 调试辅助: 找出和修复代码错误
- 代码重构: 优化代码结构和性能
- 文档生成: 自动生成代码文档
AI IDE和编程工具
- Cursor: AI原生的代码编辑器
- Trae: 新一代AI编程环境
- GitHub Copilot: 微软的AI编程助手
- Codeium: 免费的AI编程助手
命令行编程工具
- Claude Code: Anthropic的命令行编程工具
- Gemini CLI: Google的命令行AI工具
- Aider: 开源的AI编程助手
AI编程插件
- Cline (原Claude Dev): VS Code的AI编程插件
- Continue: 开源的AI编程插件
- Tabnine: AI代码补全工具
AI设计
- UI/UX设计: 界面和用户体验设计
- 原型制作: 快速创建产品原型
- 设计系统: 统一的设计规范和组件
- 可访问性优化: 提升产品可用性
设计工具
- Figma AI: 集成AI功能的设计工具
- Canva AI: AI驱动的图形设计平台
- Framer AI: AI辅助的网站构建工具
AI写作
- 内容创作: 文章、博客、营销文案
- 学术写作: 论文、报告、研究文档
- 创意写作: 小说、诗歌、剧本
- 多语言翻译: 高质量的语言转换
AI音视频
- 语音合成 (TTS): 文字转语音
- 语音识别 (ASR): 语音转文字
- 音乐生成: AI创作音乐
- 视频生成: 文本生成视频内容
- 视频编辑: AI辅助的视频后期制作
AI办公
- 文档处理: PDF解析、表格分析
- 会议纪要: 自动生成会议记录
- 邮件助手: 智能邮件回复和管理
- 数据分析: 自动化数据洞察
- 项目管理: AI辅助的任务规划
垂直领域AI
- 医疗AI: 诊断辅助、药物发现
- 教育AI: 个性化学习、智能辅导
- 法律AI: 合同分析、法律研究
- 金融AI: 风险评估、投资分析
- 科研AI: 文献综述、实验设计
学习路径建议
初学者入门
- 基础概念理解: Token、上下文窗口、幻觉等核心概念
- 提示词技巧: 学会与AI有效沟通
- 工具体验: 尝试不同的AI产品和功能
- 实际应用: 在工作和学习中使用AI提高效率
进阶学习
- 技术深入: 了解模型架构、训练过程
- 开发实践: 使用API构建自己的AI应用
- Agent开发: 创建能自主完成任务的AI助手
- 行业应用: 探索特定领域的AI解决方案
持续关注
- 技术发展: 关注最新的模型和技术突破
- 产品更新: 跟踪主流AI产品的功能迭代
- 行业趋势: 了解AI在各行业的应用进展
- 伦理安全: 关注AI发展带来的社会影响
实用建议
选择合适的工具
- 任务导向: 根据具体需求选择最适合的AI工具
- 成本考虑: 平衡功能需求和使用成本
- 数据安全: 注意敏感信息的保护
- 效率优化: 学会组合使用多种工具
提高使用效果
- 明确目标: 清楚地表达你的需求
- 迭代优化: 根据结果调整提示词
- 验证结果: 对AI输出进行必要的检查
- 持续学习: 跟上AI技术的发展步伐