Mixtral 发布了 Mixtral 8X22B,它采用了稀疏混合专家(Sparse Mixture-of-Experts, SMoE)的架构。这种架构允许模型在运行时只激活部分参数,从而在维持高性能的同时大幅度提升了成本效率。具体来说,Mixtral 8x22B 的总参数量为141B,但实际运行时仅激活39B参数。
这种架构的主要优势:
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
Deepbrain是一个AI视频生成制作平台,可以让你用简单的文本就能制作出逼真的AI虚拟人视频。