在今年5月的开发者大会上,谷歌首次揭示了其正在研发的AI大模型Gemini。时隔7个月,Gemini终于正式亮相。

根据谷歌官方公众号的消息,Gemini 1.0已经正式发布,这是谷歌迄今为止构建的最强大、最通用、最灵活的模型。

据介绍,谷歌为不同场景发布了三个不同版本:

  • Gemini Ultra:规模最大且功能最强大,适用于高度复杂的任务。
  • Gemini Pro:适用于各种任务的最佳模型。
  • Gemini Nano:手机等设备上最高效的模型。

谷歌还将Gemini与OpenAI的GPT-4进行了比较,结果显示除HellaSwag数据集外,在其他基准测试中,Gemini全面领先GPT-4。

官方表示,Gemini Ultra在32项学术基准中的性能超过了目前最先进的水平,包括自然图像、音频和视频理解,以及数学推理等多个领域。Gemini Ultra在MMLU(大规模多任务语言理解)测试中以90.0%的得分成为第一个超过人类专家水平的模型。MMLU综合使用了57个科目,涵盖了数学、物理、历史、法律、医学和伦理等多个领域。

在新的MMMU基准测试中,Gemini Ultra也取得了59.4%的成绩,该基准测试由横跨不同领域、需要仔细推理的多模态任务组成。

Gemini 1.0具备复杂多模态推理能力,可帮助理解复杂的书面和视觉信息,挖掘海量数据中的难以辨别的知识内容。Gemini 1.0经过训练,可以同时识别并理解文本、图像、音频等,尤其擅长解释数学和物理等复杂科目中的推理。

在编码能力方面,Gemini的第一代可以理解、解释和生成世界上最流行的编程语言,如Python、Java、C++和Go的高质量代码。

据谷歌介绍,Bard将使用Gemini Pro的微调版本进行更高级的推理、规划和理解等,在170多个国家和地区提供英语服务,并计划在未来扩展不同的模态,支持新的语言和地区。

此外,谷歌Pixel 8 Pro是首款搭载Gemini Nano的智能手机,将支持录音应用中的新功能,并在Gboard中推出“智能回复”功能。

未来几个月,Gemini将应用于谷歌搜索、广告、Chrome和Duet AI。从12月13日开始,开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API获取Gemini Pro。谷歌表示,Gemini的发布是AI发展中的一个重要里程碑,标志着谷歌迈向新纪元的开始。

Scroll to top