马上注册,下载更多AI资源软件
您需要 登录 才可以下载或查看,没有账号?立即注册
×
12月26日晚,AI公司深度求索(DeepSeek)正式上线全新系列模型DeepSeek-V3首个版本并同步开源。该模型在多项评测集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他开源模型,并逼近GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型。
幻方量化旗下DeepSeek发布开源模型,超越阿里Qwen、Meta Llama
据官方技术论文披露,v3模型的总训练成本为557.6万美元,GPT-4o等模型的训练成本约为1亿美元。DeepSeek-V3定价为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元,并享有45天的优惠价格体验期。今年5月,DeepSeek是率先发起国内大模型价格战的公司之一。
“AI界的拼多多” DeepSeek发布开源模型,超越阿里Qwen、Meta Llama
国产大模型DeepSeek推出DeepSeek-V3,一个强大的混合专家(Mixture-of-Experts, MoE)语言模型。主要的技术迭代是671B的MoE,37B的激活参数,在14.8万亿个高质量token上进行了预训练。
首先,从训练时间看,正如DeepSeek在发布报告中指出的那样,“尽管其表现出色,DeepSeek-V3的完整训练仅需2.788M H800 GPU小时。” 打个比方,如果对标Llama 3 系列模型,其计算预算为 3930 万 H100 GPU Hours—— 大约可以训练 DeepSeek-V3 十五次。
从成本上看,如果我们假设 H800 GPU 的租金为每 GPU 小时 2 美元,DeepSeek-V3 的总训练成本仅为 557.6万美元。 不仅如此,在最新发布的技术报告里,经过与DeepSeek-V2.5、Qwen2.5-72B-Inst、Llama-3.1-405B-Inst、GPT-4o-0513和Claude-3.5-Sonnet-1022几个模型的跑分, DeepSeek-V3 在多个性能基准测试中表现出色。在MATH500、AIME2024和Codeforces三个维度更是遥遥领先,数学和编程能力极强,一度超过 GPT-4o 和 Claude 3.5 Sonnet 这两大领先的闭源模型。虽然在某些语言理解和软件工程任务中稍有逊色,但也是TOP2尖子选手。
DeepSeek 是一家创新型科技公司,长久以来专注于开发先进的大语言模型(LLM)和相关技术,由知名私募巨头幻方量化孕育而生,作为大厂外唯一一家储备万张 A100 芯片的公司,幻方量化为DeepSeek的技术研发提供了强大的硬件支持。 早在通过开源大模型如 DeepSeek Coder 等,DeepSeek 就展示了在人工智能技术领域的实力。DeepSeek V2 模型的发布,更是提供了一种史无前例的性价比,推动了中国大模型价格战的发展,并因其创新的 MLA 架构和 DeepSeekMoESparse 结构而受到业界的广泛关注。 DeepSeek 被硅谷誉为“来自东方的神秘力量”,其 V2 模型论文在当时即被认为可能是今年最好的一篇。半年后,DeepSeek 带着 V3 再次登场,用行动说明,中国大模型创业者,也可以加入到这场全球技术创新的 AI 竞赛中。
|