蚂蚁百灵大模型团队推出了代号为Elephant Alpha的匿名模型——Ling-2.6-flash。该模型总参数达104B,激活参数为7.4B,采用MLA+Lightning Linear混合注意力与稀疏MoE架构。在4卡H20环境下,其推理速度可达340 tokens/s,评测Token消耗仅为同类模型的约十分之一,并且在BFCL-V4、SWE-bench Verified等Agent基准测试中取得了SOTA( state-of-the-art,最先进)的成绩。