开源大世界

kydsj.vip 【首页】

您的足迹:

wiki:deepseek

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

--- wiki:deepseek [2025/01/27 21:09] – 创建 math
+++ wiki:deepseek [2025/03/30 19:06] (当前版本) – [DeepSeek] 哈哈
@@ 行 3: / 行 3: @@
 ----
+DeepSeek-R1  是由深度求索（DeepSeek）开发的开源大语言模型，专注于数学、代码生成及自然语言推理任务。其性能被宣称可比肩 OpenAI 的 o1  模型正式版，且采用 MIT 许可协议完全开源。项目代码托管于 GitHub 仓库 deepseek-ai/DeepSeek-R1 ，自发布以来迅速成为研究社区焦点。 可以采用[[ollama]]实现Deepseek-R1蒸馏模型或量化模型在本地部署。
+====== 背景与目标 ======
+----
-https://github.com/deepseek-ai/DeepSeek-R1
+DeepSeek-R1 的设计目标是通过强化学习（RL）而非传统的监督式微调（SFT）提升模型推理能力。与常规方法不同，它采用 “冷启动”  策略解决纯强化学习训练中的数据匮乏问题，并结合模型蒸馏技术优化性能。这一方法降低了对大规模标注数据的依赖，同时提升了复杂任务处理能力。
+====== 技术特点 ======
+----
+强化学习驱动
+DeepSeek-R1 完全基于强化学习训练，而非传统的监督式微调。其训练过程分为多阶段，包括：
+  * 冷启动阶段 ：通过自生成数据初始化模型推理能力；
+  * 强化学习优化 ：利用奖励模型迭代提升输出质量；
+  * 蒸馏阶段 ：将复杂推理过程压缩为更高效的模型结构。
+====== 模型架构 ======
+----
+采用混合专家（MoE）架构，结合分阶段强化学习策略，支持长上下文理解和生成。随着训练步数增加，模型生成的响应长度和复杂度显著提升。
+====== 性能表现 ======
+----
+在数学、代码及多步骤推理任务中，DeepSeek-R1 的表现接近OpenAI o1，并在基准测试中超过其他所有开源模型。
+====== 应用场景 ======
+----
+已被用于构建低成本 API 服务（如逆向工程实现的高速流式输出接口）、多轮对话系统及代码生成工具。
+====== 社区影响 ======
+----
+DeepSeek-R1 的开源推动了大模型推理能力的研究范式转变。其 MIT 协议允许自由商用，吸引了大量开发者参与改进和适配（如支持多语言、优化推理速度）。截至 2025 年 2 月，其 GitHub 仓库已获得数万星标，成为当月热门项目。
+====== 项目地址 ======
+----
+[[https://github.com/deepseek-ai/DeepSeek-R1|Deepseek-R1项目地址]]

wiki/deepseek.1737983380.txt.gz · 最后更改: 2025/01/27 21:09 由 math