2025-12-26 · 实战
32
实战 · 2025-12-26

大模型使用手册:从GPT到国产全家桶

大模型使用手册:从GPT到国产全家桶

一、问题

选型困境
- 市面上几十个大模型,怎么选?
- GPT-4贵,国产便宜,性能差多少?
- 写代码用哪个?翻译用哪个?

核心疑问:不同模型的能力边界在哪?


二、方案

大模型选型三要素
1. 能力:文本生成/代码/推理/多模态
2. 规格:Token上限/参数量/速度
3. 成本:API价格/开源可部署

生活比喻
- GPT-4:瑞士军刀,啥都能干,就是贵
- Claude:写作专家,长文本之王
- DeepSeek:性价比之王,国产之光
- Llama:开源基座,自己部署


三、核心能力

3.1 四大基础能力

能力1:文本生成

# 示例:写营销文案
prompt = "为AI编程助手写一段50字推广文案"
response = llm.generate(prompt)
# 输出:"让AI成为你的编程搭档,实时代码补全、Bug修复、架构建议,效率提升10倍"

能力2:语义理解

# 示例:情感分析
text = "这个产品太垃圾了,完全不能用"
sentiment = llm.analyze_sentiment(text)
# 输出:{"sentiment": "negative", "score": 0.92}

能力3:知识问答

# 示例:专业知识
question = "什么是CAP定理?"
answer = llm.qa(question)
# 输出:"CAP定理指分布式系统无法同时满足一致性(Consistency)、可用性(Availability)、分区容错性(Partition tolerance)"

能力4:代码辅助

# 示例:代码生成
prompt = "写一个Python快速排序"
code = llm.generate_code(prompt)
# 输出:
def quicksort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quicksort(left) + middle + quicksort(right)

四、模型规格

4.1 Token上限对比

模型
Token上限
适用场景

GPT-4 Turbo
128K
长文档分析

Claude 3.5 Sonnet
200K
代码库理解

Gemini 1.5 Pro
1M
视频/书籍分析

DeepSeek-V3
64K
通用对话

QwQ-32B
32K
推理任务

Llama 3.1
128K
开源部署

Token计算
- 中文:1个字 ≈ 1.5 token
- 英文:1个单词 ≈ 1.3 token
- 代码:1行 ≈ 10-20 token

示例

# 一篇3000字文章
tokens = 3000 * 1.5 = 4500 tokens

# GPT-4 Turbo定价
input_cost = 4500 * $0.01 / 1000 = $0.045
output_cost = 1000 * $0.03 / 1000 = $0.03
total = $0.075  # 约0.5元人民币

4.2 推理模型专项

什么是推理模型:输出思考过程的模型

# 普通模型
prompt = "9.11和9.9哪个大?"
response = gpt4.generate(prompt)
# 输出:"9.11更大"  # ❌ 错误

# 推理模型
response = deepseek_r1.generate(prompt)
# 输出:
# 【思考过程】
# 1. 9.11 = 9 + 0.11
# 2. 9.9 = 9 + 0.9
# 3. 0.9 > 0.11
# 4. 所以 9.9 > 9.11
# 【答案】9.9更大  # ✅ 正确

推理模型对比

模型
参数量
推理Token
准确率

DeepSeek-R1
671B
平均5K
96%

QwQ-32B
32B
平均3K
89%

o1-preview
未知
平均10K
98%

适用场景
- ✅ 数学题、逻辑推理、代码Debug
- ❌ 简单对话(浪费Token)


五、全球模型分类

5.1 按开发者分类

美国阵营
- OpenAI:GPT-4、GPT-4 Turbo、o1
- Anthropic:Claude 3.5 Sonnet、Claude 3 Opus
- Google:Gemini 1.5 Pro、Gemini 2.0 Flash
- Meta:Llama 3.1(开源)

中国阵营
- 字节:豆包(Doubao)
- 阿里:通义千问(Qwen)
- 百度:文心一言(ERNIE)
- 深度求索:DeepSeek-V3
- 智谱:GLM-4

5.2 按开源程度分类

闭源商业
- GPT-4、Claude、Gemini
- 优势:性能最强
- 劣势:贵、数据隐私风险

开源商业
- Llama 3.1、Qwen、DeepSeek
- 优势:可自部署、免费
- 劣势:需要GPU资源

完全开源
- Mistral、Falcon
- 优势:可商用、可修改
- 劣势:性能略弱

5.3 按参数量分类

规模
参数量
代表模型
部署成本

小型
<7B
Llama 3.2 3B
1张RTX 4090

中型
7B-70B
Llama 3.1 70B
4张A100

大型
>100B
GPT-4、DeepSeek-V3
云端API

选型建议
- 个人学习:7B模型(Llama 3.2)
- 企业部署:70B模型(Qwen 72B)
- 生产环境:云端API(GPT-4/Claude)


六、垂直领域模型

6.1 代码专用

模型
特点
适用语言

GitHub Copilot
实时补全
全语言

CodeLlama
开源免费
Python/C++/Java

DeepSeek-Coder
中文注释友好
全语言

6.2 医疗专用

6.3 法律专用

6.4 多模态

模型
能力
特点

GPT-4V
图像理解
识别图表/OCR

Gemini 1.5 Pro
视频分析
1小时视频理解

DALL-E 3
文生图
高质量图像

Whisper
语音转文字
99种语言


七、选型决策树

开始
├─ 需要开源部署?
│  ├─ 是 → Llama 3.1 / DeepSeek-V3
│  └─ 否 → 继续
├─ 预算充足?
│  ├─ 是 → GPT-4 Turbo / Claude 3.5
│  └─ 否 → 继续
├─ 主要用途?
│  ├─ 写代码 → GitHub Copilot / DeepSeek-Coder
│  ├─ 长文本 → Claude 3.5(200K) / Gemini 1.5(1M)
│  ├─ 推理任务 → DeepSeek-R1 / o1
│  ├─ 中文优化 → 通义千问 / 文心一言
│  └─ 多模态 → GPT-4V / Gemini 1.5 Pro

八、小结

核心要点
1. 四大能力:文本生成、语义理解、知识问答、代码辅助
2. Token上限:GPT-4(128K)、Claude(200K)、Gemini(1M)
3. 推理模型:DeepSeek-R1、QwQ-32B,输出思考过程
4. 开源选择:Llama 3.1、DeepSeek-V3可自部署

选型建议
- 通用场景:GPT-4 Turbo(性能) / DeepSeek-V3(性价比)
- 代码场景:GitHub Copilot(实时) / DeepSeek-Coder(开源)
- 长文本:Claude 3.5(200K) / Gemini 1.5(1M)
- 推理任务:DeepSeek-R1 / o1-preview
- 中文优化:通义千问 / 文心一言

成本对比(1M token):
- GPT-4 Turbo:$10
- Claude 3.5:$3
- DeepSeek-V3:$0.27
- 开源自部署:$0(仅GPU成本)


参考资料
- OpenAI官方文档:https://platform.openai.com/docs
- Anthropic Claude文档:https://docs.anthropic.com
- DeepSeek技术报告:https://github.com/deepseek-ai
- Llama模型库:https://huggingface.co/meta-llama

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单