應(yīng)對(duì)谷歌挑戰(zhàn) OpenAI從GPT-5.1緊急升級(jí)至5.2 5.2多專業(yè)任務(wù)超人類專家

2025年12月12日 20:38

OpenAI一月內(nèi)連續(xù)升級(jí)GPT-5至5.2，主因應(yīng)對(duì)谷歌11月雙子座3的競(jìng)爭(zhēng)壓力，CEO奧爾特曼啟動(dòng)“紅色警報(bào)”加速迭代（8月GPT-5、11月GPT-5.1、12月GPT-5.2）。GPT-5.2在多專業(yè)任務(wù)超人類專家：編碼（Thinking版SWE-bench Verified 80%、SWE-Bench Pro 55.6%），專業(yè)知識(shí)工作（GDPval測(cè)試44職業(yè)70.9%達(dá)/超專家，速度11倍、成本1%），數(shù)學(xué)推理（FrontierMath解40.3%問題），視覺模型（錯(cuò)誤率降半），長(zhǎng)文本（25.6萬token近100%準(zhǔn)），科研（GPQA Diamond Pro版93.2%）。

Q:OpenAI為何在一個(gè)月內(nèi)連續(xù)升級(jí)GPT-5到GPT-5.2？

A:核心驅(qū)動(dòng)是應(yīng)對(duì)生成式AI領(lǐng)域激烈競(jìng)爭(zhēng)。直接觸發(fā)因素為谷歌11月發(fā)布表現(xiàn)突出的雙子座3模型，OpenAI CEO薩姆·奧爾特曼為此啟動(dòng)“紅色警報(bào)”，加速升級(jí)節(jié)奏。具體迭代路徑顯示競(jìng)爭(zhēng)壓力：8月推出GPT-5，11月即發(fā)布GPT-5.1，12月11日再更新至GPT-5.2，形成一月內(nèi)連續(xù)升級(jí)態(tài)勢(shì)。業(yè)界分析認(rèn)為，此舉凸顯AI行業(yè)頭部玩家對(duì)技術(shù)領(lǐng)先權(quán)的爭(zhēng)奪。OpenAI明確表示，升級(jí)旨在保持模型先進(jìn)性，應(yīng)對(duì)對(duì)手挑戰(zhàn)。

Q:GPT-5.2在哪些具體專業(yè)任務(wù)中達(dá)到了超越人類專家的表現(xiàn)？

A:GPT-5.2是OpenAI迄今最先進(jìn)模型，首個(gè)性能達(dá)/超人類專家水平的版本，在專業(yè)任務(wù)中多領(lǐng)域突破：

-編碼：GPT-5.2 Thinking在SWE-bench Verified（真實(shí)世界軟件工程任務(wù)）達(dá)80%（新高）、SWE-Bench Pro 55.6%，被OpenAI稱為“智能體編碼最強(qiáng)”，Windsurf等初創(chuàng)公司驗(yàn)證其“最先進(jìn)智能體編碼性能”。

-專業(yè)知識(shí)工作：GDPval測(cè)試44個(gè)職業(yè)知識(shí)任務(wù)，70.9%表現(xiàn)達(dá)/超專家水平，速度是專家11倍，成本不足1%。

-數(shù)學(xué)推理：FrontierMath測(cè)試解決40.3%問題（新紀(jì)錄），研究副總Adain Clark稱其進(jìn)步助力金融建模等任務(wù)。

-視覺模型：圖表推理、軟件界面理解錯(cuò)誤率降約一半，OpenAI稱“世界最好視覺模型”。

-長(zhǎng)文本處理：MRCRv2測(cè)試25.6萬token近100%準(zhǔn)確率，適配深度文檔分析。

-科學(xué)研究：GPQA Diamond測(cè)試Pro版93.2%、Thinking版92.4%，F(xiàn)rontierMath Thinking版40.3%，被定義為“世界最好科學(xué)家助手模型”。此外，其在電子表格、演示文稿、圖像感知、長(zhǎng)上下文理解等任務(wù)均優(yōu)于前代，旨在“創(chuàng)造更多經(jīng)濟(jì)價(jià)值”。

責(zé)編胡玲

每經(jīng)頭條