小红书团队近期发布并开源了一款端到端文档识别模型FireRed-OCR。该模型基于Qwen3-VL架构打造,创新采用了“三阶段渐进优化”策略与“几何+语义”数据工厂,有效解决了通用视觉语言模型(VLM)在处理复杂文档时存在的“结构性幻觉”问题。在权威评测OmniDocBench v1.5中,FireRed-OCR在端到端方案中斩获SOTA( state-of-the-art,最先进)成绩,综合评分达92.9%,领先于Gemini-3.0 Pro等同类模型。
小红书团队近期发布并开源了一款端到端文档识别模型FireRed-OCR。该模型基于Qwen3-VL架构打造,创新采用了“三阶段渐进优化”策略与“几何+语义”数据工厂,有效解决了通用视觉语言模型(VLM)在处理复杂文档时存在的“结构性幻觉”问题。在权威评测OmniDocBench v1.5中,FireRed-OCR在端到端方案中斩获SOTA( state-of-the-art,最先进)成绩,综合评分达92.9%,领先于Gemini-3.0 Pro等同类模型。