谷歌發(fā)布Gemini 3:創(chuàng)下多個基準(zhǔn)測試紀錄

0 評論 659 瀏覽 1 收藏 4 分鐘

這篇文章將帶你直擊 Gemini 3 的核心性能突破、基準(zhǔn)測試亮點與配套工具升級,看懂谷歌在 AI 大模型賽道的最新布局與競爭優(yōu)勢。

借助Gemini 3,我們看到了推理能力的巨大飛躍。

周二,谷歌發(fā)布了最新的基礎(chǔ)模型 Gemini 3,現(xiàn)已通過 Gemini 應(yīng)用和 AI 搜索界面同時上線。

距 Gemini 2.5 發(fā)布僅過去七個月,這款新模型成為谷歌迄今為止性能最強的大語言模型(LLM),也成為市場上最具競爭力的 AI 工具之一。

此次發(fā)布距 OpenAI 推出 GPT 5.1 不到一周,距 Anthropic 發(fā)布 Sonnet 4.5 僅兩個月后。 這一節(jié)奏印證了美國前沿模型領(lǐng)域迅猛的發(fā)展速度。

Gemini 3 的一個更側(cè)重研究的版本 Gemini 3 Deepthink,在通過進一步安全測試后,將于未來幾周向 Google AI Ultra 訂閱用戶開放。

“借助 Gemini 3,我們看到了推理能力的巨大飛躍”。

谷歌 Gemini 模型產(chǎn)品負責(zé)人 Tulsee Doshi 表示:“它的回應(yīng)展現(xiàn)出前所未有的深度和細膩度”。

這種推理能力已在多個獨立基準(zhǔn)測試中得到體現(xiàn)。

在衡量綜合推理能力與專業(yè)知識的 Humanity’s Last Exam 基準(zhǔn)測試中,該模型以 37.4 分創(chuàng)下紀錄最高分,此前的最高分由 GPT-5 Pro 保持,為 31.64 分。

此外,Gemini 3 還在由人類主導(dǎo)、衡量用戶滿意度的 LMArena 基準(zhǔn)測試中位居榜首。

據(jù)谷歌透露,Gemini 目前月活躍用戶已超 6.5 億,已有 1300 萬名軟件開發(fā)者將該模型納入工作流程。

除基礎(chǔ)模型外,谷歌還同步推出了一款基于 Gemini 技術(shù)的編程界面 Google Antigravity,支持多面板智能編程功能,類似 Warp 或 Cursor 2.0 等智能集成開發(fā)環(huán)境(agentic IDEs)。

具體而言,Antigravity 整合了 ChatGPT 風(fēng)格的提示窗口、命令行界面以及瀏覽器窗口,可實時展示編程智能體(coding agent)所做修改的效果。

Antigravity 能夠與用戶的編輯器、終端和瀏覽器協(xié)同工作,確保以最優(yōu)方式協(xié)助用戶構(gòu)建應(yīng)用程序。

本文由人人都是產(chǎn)品經(jīng)理作者【AI新智能】,微信公眾號:【AIOrbit】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!