OpenAI一月內(nèi)連續(xù)升級(jí)GPT-5至5.2,主因應(yīng)對(duì)谷歌11月雙子座3的競(jìng)爭(zhēng)壓力,CEO奧爾特曼啟動(dòng)“紅色警報(bào)”加速迭代(8月GPT-5、11月GPT-5.1、12月GPT-5.2)。GPT-5.2在多專業(yè)任務(wù)超人類專家:編碼(Thinking版SWE-bench Verified 80%、SWE-Bench Pro 55.6%),專業(yè)知識(shí)工作(GDPval測(cè)試44職業(yè)70.9%達(dá)/超專家,速度11倍、成本1%),數(shù)學(xué)推理(FrontierMath解40.3%問題),視覺模型(錯(cuò)誤率降半),長(zhǎng)文本(25.6萬token近100%準(zhǔn)),科研(GPQA Diamond Pro版93.2%)。
Q:OpenAI為何在一個(gè)月內(nèi)連續(xù)升級(jí)GPT-5到GPT-5.2?
A:核心驅(qū)動(dòng)是應(yīng)對(duì)生成式AI領(lǐng)域激烈競(jìng)爭(zhēng)。直接觸發(fā)因素為谷歌11月發(fā)布表現(xiàn)突出的雙子座3模型,OpenAI CEO薩姆·奧爾特曼為此啟動(dòng)“紅色警報(bào)”,加速升級(jí)節(jié)奏。具體迭代路徑顯示競(jìng)爭(zhēng)壓力:8月推出GPT-5,11月即發(fā)布GPT-5.1,12月11日再更新至GPT-5.2,形成一月內(nèi)連續(xù)升級(jí)態(tài)勢(shì)。業(yè)界分析認(rèn)為,此舉凸顯AI行業(yè)頭部玩家對(duì)技術(shù)領(lǐng)先權(quán)的爭(zhēng)奪。OpenAI明確表示,升級(jí)旨在保持模型先進(jìn)性,應(yīng)對(duì)對(duì)手挑戰(zhàn)。
Q:GPT-5.2在哪些具體專業(yè)任務(wù)中達(dá)到了超越人類專家的表現(xiàn)?
A:GPT-5.2是OpenAI迄今最先進(jìn)模型,首個(gè)性能達(dá)/超人類專家水平的版本,在專業(yè)任務(wù)中多領(lǐng)域突破:
-編碼:GPT-5.2 Thinking在SWE-bench Verified(真實(shí)世界軟件工程任務(wù))達(dá)80%(新高)、SWE-Bench Pro 55.6%,被OpenAI稱為“智能體編碼最強(qiáng)”,Windsurf等初創(chuàng)公司驗(yàn)證其“最先進(jìn)智能體編碼性能”。
-專業(yè)知識(shí)工作:GDPval測(cè)試44個(gè)職業(yè)知識(shí)任務(wù),70.9%表現(xiàn)達(dá)/超專家水平,速度是專家11倍,成本不足1%。
-數(shù)學(xué)推理:FrontierMath測(cè)試解決40.3%問題(新紀(jì)錄),研究副總Adain Clark稱其進(jìn)步助力金融建模等任務(wù)。
-視覺模型:圖表推理、軟件界面理解錯(cuò)誤率降約一半,OpenAI稱“世界最好視覺模型”。
-長(zhǎng)文本處理:MRCRv2測(cè)試25.6萬token近100%準(zhǔn)確率,適配深度文檔分析。
-科學(xué)研究:GPQA Diamond測(cè)試Pro版93.2%、Thinking版92.4%,F(xiàn)rontierMath Thinking版40.3%,被定義為“世界最好科學(xué)家助手模型”。此外,其在電子表格、演示文稿、圖像感知、長(zhǎng)上下文理解等任務(wù)均優(yōu)于前代,旨在“創(chuàng)造更多經(jīng)濟(jì)價(jià)值”。
每經(jīng)頭條
每經(jīng)熱評(píng)
Copyright? 2014 成都每日經(jīng)濟(jì)新聞社有限公司版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載使用,違者必究
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:51120190017
川公網(wǎng)安備 51019002002025號(hào)