AI模型分析報告 | Notion

发布日期：2025年3月20日

一、模型能力地图

1. 性能关键指标对比

模型	参数量	上下文窗口	推理速度（tokens/s）	核心能力	数据来源
Claude 3.7 Sonnet	1000亿	128K	120	混合推理、代码生成、长文本处理
Gemini 2.0 Flash	未披露	1M	168.9	多模态生成、低延迟、高并发支持
DeepSeek R1	671B（激活37B）	128K	150	开源、低成本、数学与编程推理
o3-mini	未披露	200K	7.7秒/TTFB	三级推理调节、STEM优化、高响应速度

注释：

Claude 3.7 Sonnet：通过知识蒸馏技术实现性能与成本的平衡，支持128K输出token的“扩展思维”模式（Extended Thinking）。
Gemini 2.0 Flash：支持1M token上下文窗口，原生多模态生成（文本→图像/音频）能力超越同类模型。
DeepSeek R1：基于MoE架构，激活参数仅37B，MIT开源协议支持本地化定制。
o3-mini：三级推理模式（低/中/高）可动态调节计算资源，STEM领域错误率降低39%。

二、成本效益对比

1. API成本（USD/百万token）

模型	输入成本	输出成本	本地化部署成本（万美元/年）	维护复杂度
Claude 3.7 Sonnet	3.00	15.00	50-80（企业级）	高（需专业运维）
Gemini 2.0 Flash	0.10	0.40	20-30（云托管）	低（Google云集成）
DeepSeek R1	0.55	2.19	5-10（开源社区支持）	中（需技术适配）
o3-mini	1.10	4.40	不支持本地化	低（全托管API）

数据来源：

关键洞察：

Gemini 2.0 Flash的API成本仅为Claude的3%，适合高并发场景（如广告生成）。
DeepSeek R1开源特性显著降低本地化成本，但需企业自建技术团队。
o3-mini免费用户每日100次调用，适合初创企业试水。