大模型使用手册：从GPT到国产全家桶

一、问题

选型困境：
- 市面上几十个大模型,怎么选?
- GPT-4贵,国产便宜,性能差多少?
- 写代码用哪个?翻译用哪个?

核心疑问：不同模型的能力边界在哪?

二、方案

大模型选型三要素：
1. 能力：文本生成/代码/推理/多模态
2. 规格：Token上限/参数量/速度
3. 成本：API价格/开源可部署

生活比喻：
- GPT-4：瑞士军刀,啥都能干,就是贵
- Claude：写作专家,长文本之王
- DeepSeek：性价比之王,国产之光
- Llama：开源基座,自己部署

三、核心能力

3.1 四大基础能力

能力1：文本生成

# 示例：写营销文案
prompt = "为AI编程助手写一段50字推广文案"
response = llm.generate(prompt)
# 输出："让AI成为你的编程搭档,实时代码补全、Bug修复、架构建议,效率提升10倍"

能力2：语义理解

# 示例：情感分析
text = "这个产品太垃圾了,完全不能用"
sentiment = llm.analyze_sentiment(text)
# 输出：{"sentiment": "negative", "score": 0.92}

能力3：知识问答

# 示例：专业知识
question = "什么是CAP定理?"
answer = llm.qa(question)
# 输出："CAP定理指分布式系统无法同时满足一致性(Consistency)、可用性(Availability)、分区容错性(Partition tolerance)"

能力4：代码辅助

# 示例：代码生成
prompt = "写一个Python快速排序"
code = llm.generate_code(prompt)
# 输出：
def quicksort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quicksort(left) + middle + quicksort(right)

四、模型规格

4.1 Token上限对比

模型
Token上限
适用场景

GPT-4 Turbo
128K
长文档分析

Claude 3.5 Sonnet
200K
代码库理解

Gemini 1.5 Pro
1M
视频/书籍分析

DeepSeek-V3
64K
通用对话

QwQ-32B
32K
推理任务

Llama 3.1
128K
开源部署

Token计算：
- 中文：1个字 ≈ 1.5 token
- 英文：1个单词 ≈ 1.3 token
- 代码：1行 ≈ 10-20 token

示例：

# 一篇3000字文章
tokens = 3000 * 1.5 = 4500 tokens

# GPT-4 Turbo定价
input_cost = 4500 * $0.01 / 1000 = $0.045
output_cost = 1000 * $0.03 / 1000 = $0.03
total = $0.075  # 约0.5元人民币

4.2 推理模型专项

什么是推理模型：输出思考过程的模型

# 普通模型
prompt = "9.11和9.9哪个大?"
response = gpt4.generate(prompt)
# 输出："9.11更大"  # ❌ 错误

# 推理模型
response = deepseek_r1.generate(prompt)
# 输出：
# 【思考过程】
# 1. 9.11 = 9 + 0.11
# 2. 9.9 = 9 + 0.9
# 3. 0.9 > 0.11
# 4. 所以 9.9 > 9.11
# 【答案】9.9更大  # ✅ 正确

推理模型对比：

模型
参数量
推理Token
准确率

DeepSeek-R1
671B
平均5K
96%

QwQ-32B
32B
平均3K
89%

o1-preview
未知
平均10K
98%

适用场景：
- ✅ 数学题、逻辑推理、代码Debug
- ❌ 简单对话(浪费Token)

五、全球模型分类

5.1 按开发者分类

美国阵营：
- OpenAI：GPT-4、GPT-4 Turbo、o1
- Anthropic：Claude 3.5 Sonnet、Claude 3 Opus
- Google：Gemini 1.5 Pro、Gemini 2.0 Flash
- Meta：Llama 3.1(开源)

中国阵营：
- 字节：豆包(Doubao)
- 阿里：通义千问(Qwen)
- 百度：文心一言(ERNIE)
- 深度求索：DeepSeek-V3
- 智谱：GLM-4

5.2 按开源程度分类

闭源商业：
- GPT-4、Claude、Gemini
- 优势：性能最强
- 劣势：贵、数据隐私风险

开源商业：
- Llama 3.1、Qwen、DeepSeek
- 优势：可自部署、免费
- 劣势：需要GPU资源

完全开源：
- Mistral、Falcon
- 优势：可商用、可修改
- 劣势：性能略弱

5.3 按参数量分类

规模
参数量
代表模型
部署成本

小型
<7B
Llama 3.2 3B
1张RTX 4090

中型
7B-70B
Llama 3.1 70B
4张A100

大型
>100B
GPT-4、DeepSeek-V3
云端API

选型建议：
- 个人学习：7B模型(Llama 3.2)
- 企业部署：70B模型(Qwen 72B)
- 生产环境：云端API(GPT-4/Claude)

六、垂直领域模型

6.1 代码专用

模型
特点
适用语言

GitHub Copilot
实时补全
全语言

CodeLlama
开源免费
Python/C++/Java

DeepSeek-Coder
中文注释友好
全语言

6.2 医疗专用

MedPaLM 2(Google)：医学问答
BioGPT(Microsoft)：生物医学文献
华佗GPT(国产)：中医诊断

6.3 法律专用

LawGPT：法律咨询
ChatLaw：中国法律检索

6.4 多模态

模型
能力
特点

GPT-4V
图像理解
识别图表/OCR

Gemini 1.5 Pro
视频分析
1小时视频理解

DALL-E 3
文生图
高质量图像

Whisper
语音转文字
99种语言

七、选型决策树

开始
├─ 需要开源部署?
│  ├─ 是 → Llama 3.1 / DeepSeek-V3
│  └─ 否 → 继续
├─ 预算充足?
│  ├─ 是 → GPT-4 Turbo / Claude 3.5
│  └─ 否 → 继续
├─ 主要用途?
│  ├─ 写代码 → GitHub Copilot / DeepSeek-Coder
│  ├─ 长文本 → Claude 3.5(200K) / Gemini 1.5(1M)
│  ├─ 推理任务 → DeepSeek-R1 / o1
│  ├─ 中文优化 → 通义千问 / 文心一言
│  └─ 多模态 → GPT-4V / Gemini 1.5 Pro

八、小结

核心要点：
1. 四大能力：文本生成、语义理解、知识问答、代码辅助
2. Token上限：GPT-4(128K)、Claude(200K)、Gemini(1M)
3. 推理模型：DeepSeek-R1、QwQ-32B,输出思考过程
4. 开源选择：Llama 3.1、DeepSeek-V3可自部署

选型建议：
- 通用场景：GPT-4 Turbo(性能) / DeepSeek-V3(性价比)
- 代码场景：GitHub Copilot(实时) / DeepSeek-Coder(开源)
- 长文本：Claude 3.5(200K) / Gemini 1.5(1M)
- 推理任务：DeepSeek-R1 / o1-preview
- 中文优化：通义千问 / 文心一言

成本对比(1M token)：
- GPT-4 Turbo：$10
- Claude 3.5：$3
- DeepSeek-V3：$0.27
- 开源自部署：$0(仅GPU成本)

参考资料：
- OpenAI官方文档：https://platform.openai.com/docs
- Anthropic Claude文档：https://docs.anthropic.com
- DeepSeek技术报告：https://github.com/deepseek-ai
- Llama模型库：https://huggingface.co/meta-llama