DeepSeek-V3 仓库

digger · 发表于 2025-11-4 15:31:55

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册微信登陆 QQ登录 sms 手机登录

×

<p><img src="data/attachment/forum/202511/04/153145a0w8phw60pmh8w00.webp" alt="QQ20251104-152959.webp" title="QQ20251104-152959.webp" /></p>
<p>DeepSeek-V3 仓库是一个围绕同名大语言模型（DeepSeek-V3）构建的开源项目，主要包含模型相关的代码、配置及文档。以下是其核心信息介绍：</p>
<h2>1. 模型概述</h2>
<p>DeepSeek-V3 是一款高性能的混合专家模型（Mixture-of-Experts, MoE），总参数规模为 671B，每个 token 处理时激活 37B 参数。其核心特点包括：</p>
<ul>
<li>采用 Multi-head Latent Attention (MLA) 和 DeepSeekMoE 架构，兼顾效率与性能；</li>
<li>创新无辅助损失的负载均衡策略，减少性能损耗；</li>
<li>引入多 token 预测（Multi-Token Prediction, MTP）训练目标，提升性能并支持推理加速；</li>
<li>预训练基于 14.8 万亿高质量 token，后续经监督微调（SFT）和强化学习（RL）优化；</li>
<li>训练效率极高，全流程仅需 2.788M H800 GPU 小时，且训练过程稳定无显著损失波动。</li>
</ul>
<h2>2. 模型下载</h2>
<p>提供两个主要模型版本，可从 Hugging Face 获取：</p>
<ul>
<li><strong>DeepSeek-V3-Base</strong>：基础预训练模型，上下文长度 128K；</li>
<li><strong>DeepSeek-V3</strong>：经微调的对话模型，上下文长度 128K。</li>
</ul>
<p>模型总大小为 685B，包含 671B 主模型权重和 14B MTP 模块权重（MTP 支持仍在开发中）。</p>
<h2>3. 评估结果</h2>
<p>在多项基准测试中表现优异，优于多数开源模型，接近闭源模型水平：</p>
<ul>
<li><strong>通用能力</strong>：在 BBH、MMLU、DROP 等任务上领先，如 MMLU（5-shot）准确率达 87.1%；</li>
<li><strong>代码能力</strong>：HumanEval（0-shot）Pass@1 达 65.2%，MBPP（3-shot）达 75.4%；</li>
<li><strong>数学能力</strong>：GSM8K（8-shot）准确率 89.3%，MATH（4-shot）达 61.6%。</li>
</ul>
<h2>4. 本地运行方法</h2>
<p>支持多种框架和硬件，包括：</p>
<ul>
<li><strong>框架</strong>：DeepSeek-Infer Demo、SGLang、LMDeploy、TensorRT-LLM、vLLM、LightLLM 等；</li>
<li><strong>硬件</strong>：NVIDIA GPU（支持 FP8/BF16）、AMD GPU（通过 SGLang 支持 FP8/BF16）、华为 Ascend NPU（支持 INT8/BF16）。</li>
</ul>
<p>模型原生提供 FP8 权重，如需 BF16 格式，可使用仓库中的 <code>fp8_cast_bf16.py</code> 脚本转换。</p>
<h2>5. 许可证</h2>
<ul>
<li>代码仓库遵循 <a href="LICENSE-CODE">MIT 许可</a>；</li>
<li>模型使用受 <a href="LICENSE-MODEL">Model License</a> 约束，支持商业用途。</li>
</ul>
<h2>6. 其他信息</h2>
<ul>
<li>权重结构：包含主模型权重（61 层 Transformer）和 MTP 模块（共享嵌入层和输出头）；</li>
<li>文档：提供详细的权重说明（<code>README_WEIGHTS.md</code>）和本地运行指南；</li>
<li>反馈与支持：可通过 GitHub Issues 或邮箱 <code>service@deepseek.com</code> 联系。</li>
</ul>
<p>更多细节可参考仓库中的 <code>README.md</code> 及相关文档。</p>

[源码] DeepSeek-V3 仓库

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

温馨提示：

回复

浏览过的版块