wiki:deepseek
差别
这里会显示出您选择的修订版和当前版本之间的差别。
后一修订版 | 前一修订版 | ||
wiki:deepseek [2025/01/27 21:09] – 创建 math | wiki:deepseek [2025/03/30 19:06] (当前版本) – [DeepSeek] 哈哈 | ||
---|---|---|---|
行 3: | 行 3: | ||
---- | ---- | ||
+ | DeepSeek-R1 | ||
+ | ====== 背景与目标 ====== | ||
+ | |||
+ | ---- | ||
- | https:// | + | DeepSeek-R1 的设计目标是通过强化学习(RL)而非传统的监督式微调(SFT)提升模型推理能力。与常规方法不同,它采用 “冷启动” |
+ | |||
+ | ====== 技术特点 ====== | ||
+ | |||
+ | ---- | ||
+ | |||
+ | 强化学习驱动 | ||
+ | DeepSeek-R1 完全基于强化学习训练,而非传统的监督式微调。其训练过程分为多阶段,包括: | ||
+ | |||
+ | * 冷启动阶段 :通过自生成数据初始化模型推理能力; | ||
+ | * 强化学习优化 :利用奖励模型迭代提升输出质量; | ||
+ | * 蒸馏阶段 :将复杂推理过程压缩为更高效的模型结构。 | ||
+ | |||
+ | ====== 模型架构 ====== | ||
+ | |||
+ | ---- | ||
+ | |||
+ | 采用混合专家(MoE)架构,结合分阶段强化学习策略,支持长上下文理解和生成。随着训练步数增加,模型生成的响应长度和复杂度显著提升。 | ||
+ | |||
+ | ====== 性能表现 ====== | ||
+ | |||
+ | ---- | ||
+ | |||
+ | 在数学、代码及多步骤推理任务中,DeepSeek-R1 的表现接近OpenAI o1,并在基准测试中超过其他所有开源模型。 | ||
+ | |||
+ | |||
+ | ====== 应用场景 ====== | ||
+ | |||
+ | ---- | ||
+ | |||
+ | 已被用于构建低成本 API 服务(如逆向工程实现的高速流式输出接口)、多轮对话系统及代码生成工具。 | ||
+ | |||
+ | |||
+ | ====== 社区影响 ====== | ||
+ | |||
+ | ---- | ||
+ | |||
+ | |||
+ | DeepSeek-R1 的开源推动了大模型推理能力的研究范式转变。其 MIT 协议允许自由商用,吸引了大量开发者参与改进和适配(如支持多语言、优化推理速度)。截至 2025 年 2 月,其 GitHub 仓库已获得数万星标,成为当月热门项目。 | ||
+ | |||
+ | ====== 项目地址 ====== | ||
+ | |||
+ | ---- | ||
+ | |||
+ | |||
+ | [[https:// |
wiki/deepseek.1737983380.txt.gz · 最后更改: 2025/01/27 21:09 由 math