讲讲deepseek
展开
Deepseek的成功可以从成本和智能两个方面来分析:
成本优势源于采用MoE架构:
MoE架构其实是一个已被采用多年的架构,而Deepseek对MoE架构进行了改进,使其效率更高,智能程度也有所提升。一个典型的例子是,马斯克的模型也使用了MoE架构(但Deepseek的MoE架构更为先进)。
一个重要的点是:GPT-4被广泛认为是MoE模型,因为其参数量过于庞大,若采用传统架构,很难高效运行。
成本优势源于采用MoE架构:
MoE架构其实是一个已被采用多年的架构,而Deepseek对MoE架构进行了改进,使其效率更高,智能程度也有所提升。一个典型的例子是,马斯克的模型也使用了MoE架构(但Deepseek的MoE架构更为先进)。
一个重要的点是:GPT-4被广泛认为是MoE模型,因为其参数量过于庞大,若采用传统架构,很难高效运行。
