谷歌正式发布旗下首款原生多模态嵌入模型Gemini Embedding 2,该模型能够将文本、图像、视频、音频与文档等多种类型的数据映射至同一嵌入空间,并且具备识别100种语言语义意图的能力。在单次请求中,该模型可处理的内容包括最多6张图片、时长120秒的视频、6页PDF文件以及直接输入的音频,适用于检索增强生成(RAG)、语义搜索、情感分析和数据聚类等多种应用场景。
谷歌正式发布旗下首款原生多模态嵌入模型Gemini Embedding 2,该模型能够将文本、图像、视频、音频与文档等多种类型的数据映射至同一嵌入空间,并且具备识别100种语言语义意图的能力。在单次请求中,该模型可处理的内容包括最多6张图片、时长120秒的视频、6页PDF文件以及直接输入的音频,适用于检索增强生成(RAG)、语义搜索、情感分析和数据聚类等多种应用场景。