GPT-4.1 已經(jīng)改變世界與數(shù)據(jù)交互的方式

0 評論 2497 瀏覽 0 收藏 10 分鐘

最近發(fā)布的 GPT-4.1 不僅在性能上超越了前代,更在數(shù)據(jù)交互領(lǐng)域引發(fā)了變革。本文深入探討了 GPT-4.1 的技術(shù)特點,尤其是在 SQL 查詢生成方面的強(qiáng)大能力,以及它對數(shù)據(jù)分析師工作方式的深遠(yuǎn)影響。

當(dāng)一個名為“Quasar Alpha”的神秘模型跳入現(xiàn)場時,我公開宣布這很可能是 OpenAI 最新的旗艦?zāi)P?。雖然我錯誤地稱它為“GPT-5”,但我 100% 正確,這確實是 OpenAI 的最新模型。

前不久,“GPT-4.1”正式發(fā)布,這些模型的有效性令人發(fā)指。然而,沒有討論的是它對各地數(shù)據(jù)分析師的現(xiàn)實影響。

什么是 GPT-4.1?

GPT-4.1 系列是 OpenAI API 中提供的三個新模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。

這些模型幾乎在所有方面都優(yōu)于 GPT-4o 和 GPT-4o mini,尤其是在編碼和指令跟隨方面。它們還具有更大的上下文窗口 — 支持多達(dá) 100 萬個token —并且實際上能夠使用整個窗口。

然而,對于任何新模型,我不一定相信它們的創(chuàng)造者對他們性能的評價。我喜歡親自測試它們。

Google 和 OpenAI 之間爭奪“最佳 AI 模型”

2024 年,OpenAI 系列模型被認(rèn)為是最好的。這種情況在 2025 年發(fā)生了翻天覆地的變化。

  • DeepSeek R1 以首創(chuàng)的廉價 “推理” 模型搶盡風(fēng)頭;
  • xAI 發(fā)布了 Grok,這是另一個非常有效的模型,特別是對于搜索或推理任務(wù);
  • Google 發(fā)布了 Gemini Flash2,它的性能優(yōu)于所有其他主要的大型語言模型而價格只是其中的一小部分;
  • Anthropic 發(fā)布了 Claude 3.7Sonnet,就原始性能而言,它是世界上最好的 AI模型之一;

隨著所有這些版本的發(fā)布,GPT-4 失去了“最佳 AI 模型”的稱號。該頭銜屬于 Anthropic(憑借 Claude 3.7 Sonnet 的原始功能)和 Google(憑借 Gemini Flash 2.0 的成本效益)。

在復(fù)雜推理任務(wù)中測試所有其他大型語言模型

為了測試這些模型的有效性,我在一項復(fù)雜的推理任務(wù)中對每個大型語言模型進(jìn)行了測試,該任務(wù)的重點是用于財務(wù)分析的 SQL 查詢生成。這項任務(wù)涉及向每個模型詢問 60 個財務(wù)問題,并讓模型生成能夠正確回答這些問題的 SQL 查詢。

GPT-4.1 的成功率最高,為 93.3%,平均分最高,為 0.884,以微弱優(yōu)勢超過雙子座 2.5 Pro 的 92.5% 成功率和 0.880 的平均分。

特別有趣的是性價比平衡。雖然 GPT-4.1 以高價位(每百萬token 2.00 美元輸入/8.00 美元輸出)提供最佳原始性能,但它與 Gemini 2.5 Pro(1.25 美元/10.00 美元)的價格段相似。

將此與以前的“世界上最好的模型”(Claude 3.7 Sonnet)相比,Google 和 OpenAI 毫不費(fèi)力地贏得了這個獎項。它們在成本、速度和原始性能方面更好。

Gemini 2.0 Flash 與 GPT-4.1-mini 相比仍然具有競爭力,但成本幾乎是 4 倍。雖然 GPT-4.1-nano 的定價與 Flash 相似,但它是迄今為止在該任務(wù)的每個指標(biāo)上表現(xiàn)最差的模型,因此它幾乎無法用于該任務(wù)。

其他模型甚至不在對話中。Grok、DeepSeek 和 Llama 4 都比 OpenAI 和 Google 模型更差、更昂貴、更慢。在這項任務(wù)中,OpenAI 在純粹性能方面是贏家(以非常微弱的優(yōu)勢),而 Google 在成本效益方面仍然是贏家。競爭從未如此激烈。

GPT-4.1 的 SQL 查詢生成能力的影響

GPT-4.1 所展示的進(jìn)步,尤其是在 SQL 查詢生成方面,對多個行業(yè)都有深遠(yuǎn)的影響。像 GPT-4.1 這樣的大型語言模型正在迅速改變數(shù)據(jù)驅(qū)動任務(wù)的執(zhí)行方式,以非凡的精度和效率自動執(zhí)行復(fù)雜的查詢。

從歷史上看,為復(fù)雜的數(shù)據(jù)分析生成 SQL 查詢需要大量的手動工作。數(shù)據(jù)分析師必須:

  • 清楚地理解并定義業(yè)務(wù)問題;
  • 將這種理解映射到可用的數(shù)據(jù)庫上,確保以正確的表和字段為目標(biāo);
  • 手動編寫和優(yōu)化 SQL 查詢,這通常是一個迭代且耗時的過程;

例如,考慮投資者希望根據(jù)公司是否隨著時間的推移而提高運(yùn)營效率來做出決策。要回答一個簡單的問題,例如“查找過去 3 年利潤率不斷提高的公司”,他們必須:

  • 訪問金融數(shù)據(jù)庫(通常使用 Bloomberg Terminal 等昂貴的平臺或自定義 API);
  • 將所有這些數(shù)據(jù)合并到自定義數(shù)據(jù)庫(或上帝保佑 Excel 工作表)中;
  • 識別并聯(lián)接包含利潤和收入數(shù)據(jù)的多個表;
  • 編寫和優(yōu)化復(fù)雜的 SQL 語句以計算年同比利潤率;
  • 通過反復(fù)試驗手動驗證結(jié)果的準(zhǔn)確性;

這種傳統(tǒng)方法雖然有效,但耗時、成本高且容易出錯。最重要的是,它使絕大多數(shù)人完全無法進(jìn)行財務(wù)分析。

GPT-4.1 改變了游戲規(guī)則

現(xiàn)在,同一位投資者可以直接向模型提出問題,該模型會在幾秒鐘內(nèi)生成準(zhǔn)確、優(yōu)化的 SQL 查詢。對生產(chǎn)力和準(zhǔn)確性的影響是巨大的:

  • 速度:查詢生成立即發(fā)生,而不是花費(fèi)數(shù)小時或數(shù)天;
  • 準(zhǔn)確性:GPT-4.1 在生成復(fù)雜 SQL 查詢方面取得了 88.5% 的平均分?jǐn)?shù),顯著減少了人為錯誤;
  • 可訪問性:非技術(shù)人員現(xiàn)在無需深厚的 SQL 專業(yè)知識即可執(zhí)行復(fù)雜的數(shù)據(jù)分析;

現(xiàn)在,同一位投資者可以訪問像 NexusTrade 這樣的應(yīng)用程序,并在幾秒鐘內(nèi)免費(fèi)獲得他們的答案。例如:

不過它會變得更好。如果我這個非技術(shù)人員有后續(xù)問題,我就不必去找數(shù)據(jù)科學(xué)團(tuán)隊浪費(fèi)資源。我可以問 AI。

查找過去 3 年利潤率不斷提高的公司。篩選出僅市值超過 250 億美元且在過去 3 年中一直盈利的股票:

對此的影響是巨大的?!皟r值投資”由大型機(jī)構(gòu)把關(guān)的日子已經(jīng)一去不復(fù)返了,分析這些數(shù)據(jù)需要花費(fèi)數(shù)百萬美元?,F(xiàn)在,任何人都可以進(jìn)行真實的財務(wù)分析,并對結(jié)果的準(zhǔn)確性有合理的信心。

數(shù)據(jù)質(zhì)量和來源重要性

但是,GPT-4.1 的 SQL 生成的有效性在很大程度上取決于底層數(shù)據(jù)的質(zhì)量。對于精確的財務(wù)分析,穩(wěn)健和準(zhǔn)確的基本面數(shù)據(jù)至關(guān)重要。你不能依賴 scarperper、unverify、third source 來獲取你的數(shù)據(jù)。

GPT-4.1 的到來標(biāo)志著數(shù)據(jù)分析的一個分水嶺,這應(yīng)該讓各行各業(yè)的專業(yè)人士既興奮又警惕。憑借其前所未有的 93.3% 的復(fù)雜 SQL 查詢生成成功率,我們見證了一個時代的開始,過去需要數(shù)年才能掌握的專業(yè)技術(shù)技能現(xiàn)在可以通過自然語言獲得。數(shù)據(jù)分析師、財務(wù)顧問和 SQL 專家可能會發(fā)現(xiàn)他們的專屬域名突然向所有人開放——這種民主化威脅著既定的職業(yè)道路,同時創(chuàng)造了非凡的新機(jī)會。

本文由 @來學(xué)習(xí)一下 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!