大模型使用手册:从GPT到国产全家桶
一、问题
选型困境:
- 市面上几十个大模型,怎么选?
- GPT-4贵,国产便宜,性能差多少?
- 写代码用哪个?翻译用哪个?
核心疑问:不同模型的能力边界在哪?
二、方案
大模型选型三要素:
1. 能力:文本生成/代码/推理/多模态
2. 规格:Token上限/参数量/速度
3. 成本:API价格/开源可部署
生活比喻:
- GPT-4:瑞士军刀,啥都能干,就是贵
- Claude:写作专家,长文本之王
- DeepSeek:性价比之王,国产之光
- Llama:开源基座,自己部署
三、核心能力
3.1 四大基础能力
能力1:文本生成
# 示例:写营销文案
prompt = "为AI编程助手写一段50字推广文案"
response = llm.generate(prompt)
# 输出:"让AI成为你的编程搭档,实时代码补全、Bug修复、架构建议,效率提升10倍"
能力2:语义理解
# 示例:情感分析
text = "这个产品太垃圾了,完全不能用"
sentiment = llm.analyze_sentiment(text)
# 输出:{"sentiment": "negative", "score": 0.92}
能力3:知识问答
# 示例:专业知识
question = "什么是CAP定理?"
answer = llm.qa(question)
# 输出:"CAP定理指分布式系统无法同时满足一致性(Consistency)、可用性(Availability)、分区容错性(Partition tolerance)"
能力4:代码辅助
# 示例:代码生成
prompt = "写一个Python快速排序"
code = llm.generate_code(prompt)
# 输出:
def quicksort(arr):
if len(arr) <= 1:
return arr
pivot = arr[len(arr) // 2]
left = [x for x in arr if x < pivot]
middle = [x for x in arr if x == pivot]
right = [x for x in arr if x > pivot]
return quicksort(left) + middle + quicksort(right)
四、模型规格
4.1 Token上限对比
模型
Token上限
适用场景
GPT-4 Turbo
128K
长文档分析
Claude 3.5 Sonnet
200K
代码库理解
Gemini 1.5 Pro
1M
视频/书籍分析
DeepSeek-V3
64K
通用对话
QwQ-32B
32K
推理任务
Llama 3.1
128K
开源部署
Token计算:
- 中文:1个字 ≈ 1.5 token
- 英文:1个单词 ≈ 1.3 token
- 代码:1行 ≈ 10-20 token
示例:
# 一篇3000字文章
tokens = 3000 * 1.5 = 4500 tokens
# GPT-4 Turbo定价
input_cost = 4500 * $0.01 / 1000 = $0.045
output_cost = 1000 * $0.03 / 1000 = $0.03
total = $0.075 # 约0.5元人民币
4.2 推理模型专项
什么是推理模型:输出思考过程的模型
# 普通模型
prompt = "9.11和9.9哪个大?"
response = gpt4.generate(prompt)
# 输出:"9.11更大" # ❌ 错误
# 推理模型
response = deepseek_r1.generate(prompt)
# 输出:
# 【思考过程】
# 1. 9.11 = 9 + 0.11
# 2. 9.9 = 9 + 0.9
# 3. 0.9 > 0.11
# 4. 所以 9.9 > 9.11
# 【答案】9.9更大 # ✅ 正确
推理模型对比:
模型
参数量
推理Token
准确率
DeepSeek-R1
671B
平均5K
96%
QwQ-32B
32B
平均3K
89%
o1-preview
未知
平均10K
98%
适用场景:
- ✅ 数学题、逻辑推理、代码Debug
- ❌ 简单对话(浪费Token)
五、全球模型分类
5.1 按开发者分类
美国阵营:
- OpenAI:GPT-4、GPT-4 Turbo、o1
- Anthropic:Claude 3.5 Sonnet、Claude 3 Opus
- Google:Gemini 1.5 Pro、Gemini 2.0 Flash
- Meta:Llama 3.1(开源)
中国阵营:
- 字节:豆包(Doubao)
- 阿里:通义千问(Qwen)
- 百度:文心一言(ERNIE)
- 深度求索:DeepSeek-V3
- 智谱:GLM-4
5.2 按开源程度分类
闭源商业:
- GPT-4、Claude、Gemini
- 优势:性能最强
- 劣势:贵、数据隐私风险
开源商业:
- Llama 3.1、Qwen、DeepSeek
- 优势:可自部署、免费
- 劣势:需要GPU资源
完全开源:
- Mistral、Falcon
- 优势:可商用、可修改
- 劣势:性能略弱
5.3 按参数量分类
规模
参数量
代表模型
部署成本
小型
<7B
Llama 3.2 3B
1张RTX 4090
中型
7B-70B
Llama 3.1 70B
4张A100
大型
>100B
GPT-4、DeepSeek-V3
云端API
选型建议:
- 个人学习:7B模型(Llama 3.2)
- 企业部署:70B模型(Qwen 72B)
- 生产环境:云端API(GPT-4/Claude)
六、垂直领域模型
6.1 代码专用
模型
特点
适用语言
GitHub Copilot
实时补全
全语言
CodeLlama
开源免费
Python/C++/Java
DeepSeek-Coder
中文注释友好
全语言
6.2 医疗专用
- MedPaLM 2(Google):医学问答
- BioGPT(Microsoft):生物医学文献
- 华佗GPT(国产):中医诊断
6.3 法律专用
- LawGPT:法律咨询
- ChatLaw:中国法律检索
6.4 多模态
模型
能力
特点
GPT-4V
图像理解
识别图表/OCR
Gemini 1.5 Pro
视频分析
1小时视频理解
DALL-E 3
文生图
高质量图像
Whisper
语音转文字
99种语言
七、选型决策树
开始
├─ 需要开源部署?
│ ├─ 是 → Llama 3.1 / DeepSeek-V3
│ └─ 否 → 继续
├─ 预算充足?
│ ├─ 是 → GPT-4 Turbo / Claude 3.5
│ └─ 否 → 继续
├─ 主要用途?
│ ├─ 写代码 → GitHub Copilot / DeepSeek-Coder
│ ├─ 长文本 → Claude 3.5(200K) / Gemini 1.5(1M)
│ ├─ 推理任务 → DeepSeek-R1 / o1
│ ├─ 中文优化 → 通义千问 / 文心一言
│ └─ 多模态 → GPT-4V / Gemini 1.5 Pro
八、小结
核心要点:
1. 四大能力:文本生成、语义理解、知识问答、代码辅助
2. Token上限:GPT-4(128K)、Claude(200K)、Gemini(1M)
3. 推理模型:DeepSeek-R1、QwQ-32B,输出思考过程
4. 开源选择:Llama 3.1、DeepSeek-V3可自部署
选型建议:
- 通用场景:GPT-4 Turbo(性能) / DeepSeek-V3(性价比)
- 代码场景:GitHub Copilot(实时) / DeepSeek-Coder(开源)
- 长文本:Claude 3.5(200K) / Gemini 1.5(1M)
- 推理任务:DeepSeek-R1 / o1-preview
- 中文优化:通义千问 / 文心一言
成本对比(1M token):
- GPT-4 Turbo:$10
- Claude 3.5:$3
- DeepSeek-V3:$0.27
- 开源自部署:$0(仅GPU成本)
参考资料:
- OpenAI官方文档:https://platform.openai.com/docs
- Anthropic Claude文档:https://docs.anthropic.com
- DeepSeek技术报告:https://github.com/deepseek-ai
- Llama模型库:https://huggingface.co/meta-llama