百度正式开源了一款全新的OCR模型Unlimited-OCR,该模型的核心优势在于能够一次性解析长达数十页的长文档。在权威基准测试OmniDocBench上,Unlimited-OCR表现出色,以93.23%的综合得分刷新了该领域的SOTA( state-of-the-art,最先进)纪录,其成绩超越了DeepSeek OCR。该模型的关键创新点在于采用了参考滑动窗口注意力(R-SWA)机制,通过独特的“软遗忘”策略,确保KV Cache(键值缓存)始终保持恒定大小,从而实现推理速度不受文档长度影响的突破——在处理6000 Token时,其每秒处理Token数(TPS)较此前提升约35%。