一个小站的自留地
Gemini API 现可调用多模态能力阅读 PDF Gemini API 和 AI Studio 现在支持通过文本和视觉识别理解 PDF。 如果 PDF 包含图形、图像,或其他可视内容,模型会使用内置的多模态功能来处理 PDF。 用户可以通过 Google AI Studio 或 Gemini API 体验这一功能。
Google Gemini Live 发布

Google 在 Made by Google 活动上发布了 Gemini Live,这是一款移动端 AI 对话产品,支持 10 种自然语音。用户可以与 Gemini Live 进行自由流畅的对话,甚至可以在应用后台或手机锁屏时继续交互。

Gemini Live 将与多种安卓应用功能集成,目前已向 Android 手机的 Gemini Advanced 用户推出英语版本,未来几周内将扩展到 iOS 和更多语言。

同一场活动上,Google 发布了 Pixel 9、Pixel 9 Pro、Pixel 9 Pro XL 和 Pixel 9 Pro Fold 四款新手机,均搭载全新的 Tensor G4 芯片。

Tensor G4 是由 Google DeepMind 设计、三星代工的新一代手机芯片,支持多模态 Gemini Nano 模型。新款 Pixel 手机还带来了多项 AI 增强的拍照功能,如 Add Me、重新设计的全景模式等。

Pixel 9 系列起价 799 美元,将于 8 月 22 日起陆续上市。
 
 
Back to Top