一个小站的自留地
Gemini API 现可调用多模态能力阅读 PDF Gemini API 和 AI Studio 现在支持通过文本和视觉识别理解 PDF。 如果 PDF 包含图形、图像,或其他可视内容,模型会使用内置的多模态功能来处理 PDF。 用户可以通过 Google AI Studio 或 Gemini API 体验这一功能。
Google AI Studio 和 Gemini API 提升 PDF 上传限制至 1000 页或 2GB

Google 近日对其 AI Studio 和 Gemini API 进行了更新,将 PDF 文件的上传限制从原先的 300 页大幅提升至 1000 页或 2GB

Google 利用 Gemini 的文本理解和多模态功能来处理这些文档,每页支持一张图片。此外,用户可以在上传后通过文件 ID 进行多次请求,文件在默认情况下会保留 48 小时
 
 
Back to Top