“AI界的拼多多” DeepSeek发布开源模型，超越阿里Qwen、Meta Llama

无言*** · 发表于 2024-12-29 15:12:09

马上注册，下载更多AI资源软件

您需要登录才可以下载或查看，没有账号？立即注册

×

12月26日晚，AI公司深度求索（DeepSeek）正式上线全新系列模型DeepSeek-V3首个版本并同步开源。该模型在多项评测集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他开源模型，并逼近GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型。

幻方量化旗下DeepSeek发布开源模型，超越阿里Qwen、Meta Llama

据官方技术论文披露，v3模型的总训练成本为557.6万美元，GPT-4o等模型的训练成本约为1亿美元。DeepSeek-V3定价为每百万输入tokens 0.5元（缓存命中）/2元（缓存未命中），每百万输出tokens 8元，并享有45天的优惠价格体验期。今年5月，DeepSeek是率先发起国内大模型价格战的公司之一。

“AI界的拼多多” DeepSeek发布开源模型，超越阿里Qwen、Meta Llama

国产大模型DeepSeek推出DeepSeek-V3，一个强大的混合专家（Mixture-of-Experts, MoE）语言模型。主要的技术迭代是671B的MoE，37B的激活参数，在14.8万亿个高质量token上进行了预训练。

首先，从训练时间看，正如DeepSeek在发布报告中指出的那样，“尽管其表现出色，DeepSeek-V3的完整训练仅需2.788M H800 GPU小时。”  打个比方，如果对标Llama 3 系列模型，其计算预算为 3930 万 H100 GPU Hours—— 大约可以训练 DeepSeek-V3 十五次。

从成本上看，如果我们假设 H800 GPU 的租金为每 GPU 小时 2 美元，DeepSeek-V3 的总训练成本仅为 557.6万美元。  不仅如此，在最新发布的技术报告里，经过与DeepSeek-V2.5、Qwen2.5-72B-Inst、Llama-3.1-405B-Inst、GPT-4o-0513和Claude-3.5-Sonnet-1022几个模型的跑分， DeepSeek-V3 在多个性能基准测试中表现出色。在MATH500、AIME2024和Codeforces三个维度更是遥遥领先，数学和编程能力极强，一度超过 GPT-4o 和 Claude 3.5 Sonnet 这两大领先的闭源模型。虽然在某些语言理解和软件工程任务中稍有逊色，但也是TOP2尖子选手。

DeepSeek 是一家创新型科技公司，长久以来专注于开发先进的大语言模型（LLM）和相关技术，由知名私募巨头幻方量化孕育而生，作为大厂外唯一一家储备万张 A100 芯片的公司，幻方量化为DeepSeek的技术研发提供了强大的硬件支持。  早在通过开源大模型如 DeepSeek Coder 等，DeepSeek 就展示了在人工智能技术领域的实力。DeepSeek V2 模型的发布，更是提供了一种史无前例的性价比，推动了中国大模型价格战的发展，并因其创新的 MLA 架构和 DeepSeekMoESparse 结构而受到业界的广泛关注。  DeepSeek 被硅谷誉为“来自东方的神秘力量”，其 V2 模型论文在当时即被认为可能是今年最好的一篇。半年后，DeepSeek 带着 V3 再次登场，用行动说明，中国大模型创业者，也可以加入到这场全球技术创新的 AI 竞赛中。

		自动登录	找回密码
密码			立即注册

“AI界的拼多多” DeepSeek发布开源模型，超越阿里Qwen、Meta Llama

马上注册，下载更多AI资源软件

宣传达人

灌水之王

突出贡献

荣誉管理

论坛元老