1、DeepSeek属于大语言模型,而豆包属于多模态大模型。22因此在算力需求上本身不在同一数量级。2、deepseek v3算力用的少,主要是通过激活参数少、把精度降低实现的(16位变8位),这是在不断改进基础大模型,而r1是在v3这个基础模型上,又花了大量算力去让他推理能力更强。而豆包属于基于前期大语言模型训练的同时,基于训练其他图片/音频/视频等模型能力,且训练和推理仍在持续。#相当于Dee