Mixtral 发布了 Mixtral 8X22B,它采用了稀疏混合专家(Sparse Mixture-of-Experts, SMoE)的架构。这种架构允许模型在运行时只激活部分参数,从而在维持高性能的同时大幅度提升了成本效率。具体来说,Mixtral 8x22B 的总参数量为141B,但实际运行时仅激活39B参数。
这种架构的主要优势:
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
Yarnit是一个以人工智能驱动的生成式数字内容创作平台,可以让用户在同一个地方方便地构思、写作、设计、审核和发布内容。