4月30日,DeepSeek在AI开源社区HuggingFace发布了升级版模型DeepSeek Prover-V2-671B。该模型参数量达6710亿,是2024年Prover-V1.5数学模型的迭代版本,支持更高效的训练与部署。
在架构设计上,DeepSeek Prover-V2采用V3框架,结合MO混合专家模式,通过61层Transformer层和7168隐藏层设计提升模型性能。其最大位置嵌入扩展至163840,赋予模型超长上下文处理能力,可应对复杂数学证明场景。
技术优化方面,模型引入高效SciFi Tensor格式,支持多计算精度适配,并应用FP8量化技术优化推理效率。这一系列改进显著降低了资源消耗,同时兼顾模型部署的灵活性与专业领域的计算需求。