DeepSeek已在GitHub平台推出多模态大模型,并同步公开相关技术报告。该报告提出了‘基于视觉原语的思考’框架,将点、边界框等空间标记升级为推理过程中的‘基本思维单元’,助力模型获得精准的空间指代与推演能力,从而打破传统链式思维在复杂空间参照任务中存在的瓶颈。此模型架构精简,视觉标记效率突出,在计数及空间推理基准测试中,能够与前沿模型相媲美。