大模型基建升级与AI生图商业化演进
展开
一、大模型基建升级降低应用端开发门槛
4月下旬,DeepSeek正式推出V4预览版并同步开源,包含Pro与Flash两大版本,全面适配百万级超长上下文。在长文本处理场景中,新版本通过底层混合注意力架构优化,使推理侧的算力消耗与缓存空间占用实现大幅度下降。在训练侧,该模型在万亿参数规模下有效平衡了成本控制与系统稳定性,用极少的硬件资源跑通了超长文本解析任务。
除核心模型外,该版本同步开放了底层算子库
4月下旬,DeepSeek正式推出V4预览版并同步开源,包含Pro与Flash两大版本,全面适配百万级超长上下文。在长文本处理场景中,新版本通过底层混合注意力架构优化,使推理侧的算力消耗与缓存空间占用实现大幅度下降。在训练侧,该模型在万亿参数规模下有效平衡了成本控制与系统稳定性,用极少的硬件资源跑通了超长文本解析任务。
除核心模型外,该版本同步开放了底层算子库
