返回列表 发布新帖

[源码] DeepSeek-V3 仓库

535 0
digger 发表于 2025-11-4 15:31:55 | 查看全部 阅读模式 来自:Error

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
<p><img src="data/attachment/forum/202511/04/153145a0w8phw60pmh8w00.webp" alt="QQ20251104-152959.webp" title="QQ20251104-152959.webp" /></p>& I$ F5 d' ]% i8 E
<p>DeepSeek-V3 仓库是一个围绕同名大语言模型(DeepSeek-V3)构建的开源项目,主要包含模型相关的代码、配置及文档。以下是其核心信息介绍:</p>
, X- x/ u( W. e. ^) v<h2>1. 模型概述</h2>
0 Z5 h2 C4 E0 s2 l# Z, ]! R<p>DeepSeek-V3 是一款高性能的混合专家模型(Mixture-of-Experts, MoE),总参数规模为 671B,每个 token 处理时激活 37B 参数。其核心特点包括:</p>: O3 d( f% Q% j
<ul>
; [3 H$ u1 I, P<li>采用 Multi-head Latent Attention (MLA) 和 DeepSeekMoE 架构,兼顾效率与性能;</li>' ?5 U9 D0 I: @: j
<li>创新无辅助损失的负载均衡策略,减少性能损耗;</li>' ?3 ^# O8 c% b0 h. Y! p# o) ~% Z
<li>引入多 token 预测(Multi-Token Prediction, MTP)训练目标,提升性能并支持推理加速;</li>5 S" ^7 e( a4 t/ H3 m( R5 |( \
<li>预训练基于 14.8 万亿高质量 token,后续经监督微调(SFT)和强化学习(RL)优化;</li>
; F2 H8 S7 g" T# L% N<li>训练效率极高,全流程仅需 2.788M H800 GPU 小时,且训练过程稳定无显著损失波动。</li>
( U6 N( y# r/ _2 [5 D</ul>
$ o2 F+ B; y! T; I1 E% u<h2>2. 模型下载</h2>5 e% @2 q0 u3 P! R; I) _& z
<p>提供两个主要模型版本,可从 Hugging Face 获取:</p>
- W, \3 R6 M1 R<ul>6 N9 g; T& f% r& e7 M1 v* N/ W- ^4 P
<li><strong>DeepSeek-V3-Base</strong>:基础预训练模型,上下文长度 128K;</li>
7 J% r' L+ i5 {( {2 k( \<li><strong>DeepSeek-V3</strong>:经微调的对话模型,上下文长度 128K。</li>
  T+ U( T* f# X</ul>
6 K$ M$ @# V9 d. E, w<p>模型总大小为 685B,包含 671B 主模型权重和 14B MTP 模块权重(MTP 支持仍在开发中)。</p>
; k. T0 Q4 U9 _/ z# s: e! _( a2 P% Y<h2>3. 评估结果</h2>
9 h9 C6 j2 |- F) d( U0 n. g. i<p>在多项基准测试中表现优异,优于多数开源模型,接近闭源模型水平:</p>. k0 w) `, A0 |8 g2 F1 J0 y' C: G
<ul>! j) R' I( a8 E% \2 @; }# `2 l" }
<li><strong>通用能力</strong>:在 BBH、MMLU、DROP 等任务上领先,如 MMLU(5-shot)准确率达 87.1%;</li>
2 [% A& H0 _8 m/ K5 R. ?<li><strong>代码能力</strong>:HumanEval(0-shot)Pass@1 达 65.2%,MBPP(3-shot)达 75.4%;</li>
/ {  [+ i5 V* p8 k; B3 V3 [<li><strong>数学能力</strong>:GSM8K(8-shot)准确率 89.3%,MATH(4-shot)达 61.6%。</li>
* {# N" c1 z; z$ C) O% H2 r: _</ul>
% k. u  V: L# Y1 |$ _<h2>4. 本地运行方法</h2>
- w, K/ j- N* J/ I$ N. o<p>支持多种框架和硬件,包括:</p>' q! k! ?! K2 l- [5 U! x, U
<ul>
) n" I% x( B; }- E! m2 M1 }% t<li><strong>框架</strong>:DeepSeek-Infer Demo、SGLang、LMDeploy、TensorRT-LLM、vLLM、LightLLM 等;</li>
, [# n# j2 B- J; [<li><strong>硬件</strong>:NVIDIA GPU(支持 FP8/BF16)、AMD GPU(通过 SGLang 支持 FP8/BF16)、华为 Ascend NPU(支持 INT8/BF16)。</li>5 W3 j5 w; a- Z
</ul>( x/ l) a7 y' S! L
<p>模型原生提供 FP8 权重,如需 BF16 格式,可使用仓库中的 <code>fp8_cast_bf16.py</code> 脚本转换。</p>
* p. d* p; X) n<h2>5. 许可证</h2>
6 A6 N0 Y+ P' a9 O* G7 |4 L- a<ul>
2 R: w* I3 w7 b. _$ {& |<li>代码仓库遵循 <a href="LICENSE-CODE">MIT 许可</a>;</li>6 P) _, B. u+ q- N) e
<li>模型使用受 <a href="LICENSE-MODEL">Model License</a> 约束,支持商业用途。</li>
% G* @' |9 K1 f* L4 F, f</ul>
1 B, B9 x6 d, Q' k<h2>6. 其他信息</h2># @. N8 k0 r+ t4 V: Y, p
<ul>
1 [2 B/ J' k$ [$ X4 @/ u1 W<li>权重结构:包含主模型权重(61 层 Transformer)和 MTP 模块(共享嵌入层和输出头);</li>  O) g4 y) x# a* G3 y! h
<li>文档:提供详细的权重说明(<code>README_WEIGHTS.md</code>)和本地运行指南;</li>
( a! W6 }! u3 _6 i8 |6 R0 d<li>反馈与支持:可通过 GitHub Issues 或邮箱 <code>service@deepseek.com</code> 联系。</li>
; t7 H& t9 Y! ?</ul>
4 }2 z- Y# P% `& G) f<p>更多细节可参考仓库中的 <code>README.md</code> 及相关文档。</p>9 |4 T% n/ S# P, I; }, g
QQ20251104-152959.webp
[!luckypost!]: digger 发帖时在路边捡到 3 匠币,偷偷放进了口袋. !lucky_goodrank! / !lucky_badrank!
匠心独运,千锤百炼,品质非凡。
回复 转播

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

您需要 登录 后才可以回复,轻松玩转社区,没有帐号?立即注册
快速回复
关灯 在本版发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表