Github Copilot付費模型對比

7種模型

Github Copilot 目前提供了 7 種模型,

  • Claude 3.5 Sonnet
  • Claude 3.7 Sonnet
  • Claude 3.7 Sonnet Thinking
  • Gemini 2.0 Flash
  • GPT-4o
  • o1
  • o3-mini

官方缺少對這 7 種模型的介紹, 本文簡略的描述它們在各領域的評分, 以區分它們擅長的領域, 方便讀者在處理特定問題時, 切換到更合適的模型.

模型對比

基於公開評測數據(部分數據為估算與不同來源折算後得出)的多維度對比表,涵蓋編碼(SWE‑Bench Verified)、數學(AIME’24)和推理(GPQA Diamond)三個關鍵指標:

模型 編碼表現
(SWE‑Bench Verified)
數學表現
(AIME'24)
推理表現
(GPQA Diamond)
Claude 3.5 Sonnet 70.3% 49.0% 77.0%
Claude 3.7 Sonnet (標準模式) ≈83.7%
(提高 ≈19%)
≈58.3%
(提高 ≈19%)
≈91.6%
(提高 ≈19%)
Claude 3.7 Sonnet Thinking ≈83.7%
(與標準相近)
≈64.0%
(思考模式進一步提升)
≈95.0%
(更強推理能力)
Gemini 2.0 Flash ≈65.0%
(估算)
≈45.0%
(估算)
≈75.0%
(估算)
GPT‑4o 38.0% 36.7% 71.4%
o1 48.9% 83.3% 78.0%
o3‑mini 49.3% 87.3% 79.7%

說明:

  • 上表數值取自部分公開評測(例如 Vellum 平台的對比報告 VELLUM.AI)以及部分數據折算(例如 Claude 3.7 相比 3.5 大約提升 19%),部分 Gemini 2.0 Flash 數值為估算值。
  • “Claude 3.7 Sonnet Thinking”指的是在開啟“思考模式”(即延長內部推理步驟)的情況下,模型在數學與推理任務上的表現顯著改善。

優劣勢總結與應用領域

Claude 系列(3.5/3.7 Sonnet 與其 Thinking 變體)

  • 優勢: 在編碼和多步推理任務上具有較高準確率,尤其是 3.7 版本較 3.5 有明顯提升; “Thinking”模式下數學和推理表現更佳,適合處理複雜邏輯或需要詳細計劃的任務; 內置對工具調用和長上下文處理有優勢。
  • 劣勢: 標準模式下數學指標相對較低,只有在開啟延長推理時才能顯著改善; 成本和響應時長在某些場景下可能較高。 適用領域: 軟體工程、程式碼生成與偵錯、複雜問題求解、多步決策及企業級自動化工作流程。

Gemini 2.0 Flash

  • 優勢: 具備較大上下文窗口,適合長文件處理與多模態輸入(例如圖像解析); 推理能力與編碼表現在部分測試中表現不俗,且響應速度快。
  • 劣勢: 部分場景下(如複雜編碼任務)可能會出現“卡住”現象,穩定性有待驗證; 部分指標為初步估算,整體表現仍需更多公開數據確認。 適用領域: 多模態任務、即時互動、需要大上下文的應用場景,如長文件摘要、影片解析及資訊檢索。

GPT‑4o

  • 優勢: 語言理解和生成自然流暢,適合開放性對話和一般文本處理。
  • 劣勢: 在編碼、數學等專業任務上的表現相對較弱,部分指標遠低於同類模型; 成本較高(與 GPT‑4.5 類似),性價比不如部分競爭對手。 適用領域: 通用對話系統、內容創作、文案撰寫及日常問答任務。

o1 與 o3‑mini(OpenAI 系列)

  • 優勢: 數學推理方面表現出色,o1 與 o3‑mini 在 AIME 類任務上分別達到 83.3% 和 87.3%; 推理能力較穩定,適合需要高精度數學和邏輯分析的應用。
  • 劣勢: 編碼表現中等,相較於 Claude 系列稍遜一籌; 整體性能在不同任務上表現略有不平衡。 適用領域: 科學計算、數學問題求解、邏輯推理、教育輔導及專業數據分析領域。