Github Copilot付費模型對比

Tuesday, March 04, 2025

Tags:

Categories:

評測

7種模型

Github Copilot 目前提供了 7 種模型,

Claude 3.5 Sonnet
Claude 3.7 Sonnet
Claude 3.7 Sonnet Thinking
Gemini 2.0 Flash
GPT-4o
o1
o3-mini

官方缺少對這 7 種模型的介紹, 本文簡略的描述它們在各領域的評分, 以區分它們擅長的領域, 方便讀者在處理特定問題時, 切換到更合適的模型.

模型對比

基於公開評測數據（部分數據為估算與不同來源折算後得出）的多維度對比表，涵蓋編碼（SWE‑Bench Verified）、數學（AIME’24）和推理（GPQA Diamond）三個關鍵指標：

模型	編碼表現 (SWE‑Bench Verified)	數學表現 (AIME'24)	推理表現 (GPQA Diamond)
Claude 3.5 Sonnet	70.3%	49.0%	77.0%
Claude 3.7 Sonnet (標準模式)	≈83.7% (提高 ≈19%)	≈58.3% (提高 ≈19%)	≈91.6% (提高 ≈19%)
Claude 3.7 Sonnet Thinking	≈83.7% (與標準相近)	≈64.0% (思考模式進一步提升)	≈95.0% (更強推理能力)
Gemini 2.0 Flash	≈65.0% (估算)	≈45.0% (估算)	≈75.0% (估算)
GPT‑4o	38.0%	36.7%	71.4%
o1	48.9%	83.3%	78.0%
o3‑mini	49.3%	87.3%	79.7%

說明：

上表數值取自部分公開評測（例如 Vellum 平台的對比報告 VELLUM.AI）以及部分數據折算（例如 Claude 3.7 相比 3.5 大約提升 19%），部分 Gemini 2.0 Flash 數值為估算值。
“Claude 3.7 Sonnet Thinking”指的是在開啟“思考模式”（即延長內部推理步驟）的情況下，模型在數學與推理任務上的表現顯著改善。

優劣勢總結與應用領域

Claude 系列（3.5/3.7 Sonnet 與其 Thinking 變體）

優勢：在編碼和多步推理任務上具有較高準確率，尤其是 3.7 版本較 3.5 有明顯提升； “Thinking”模式下數學和推理表現更佳，適合處理複雜邏輯或需要詳細計劃的任務；內置對工具調用和長上下文處理有優勢。
劣勢：標準模式下數學指標相對較低，只有在開啟延長推理時才能顯著改善；成本和響應時長在某些場景下可能較高。適用領域：軟體工程、程式碼生成與偵錯、複雜問題求解、多步決策及企業級自動化工作流程。

Gemini 2.0 Flash

優勢：具備較大上下文窗口，適合長文件處理與多模態輸入（例如圖像解析）；推理能力與編碼表現在部分測試中表現不俗，且響應速度快。
劣勢：部分場景下（如複雜編碼任務）可能會出現“卡住”現象，穩定性有待驗證；部分指標為初步估算，整體表現仍需更多公開數據確認。適用領域：多模態任務、即時互動、需要大上下文的應用場景，如長文件摘要、影片解析及資訊檢索。

GPT‑4o

優勢：語言理解和生成自然流暢，適合開放性對話和一般文本處理。
劣勢：在編碼、數學等專業任務上的表現相對較弱，部分指標遠低於同類模型；成本較高（與 GPT‑4.5 類似），性價比不如部分競爭對手。適用領域：通用對話系統、內容創作、文案撰寫及日常問答任務。

o1 與 o3‑mini（OpenAI 系列）

優勢：數學推理方面表現出色，o1 與 o3‑mini 在 AIME 類任務上分別達到 83.3% 和 87.3%；推理能力較穩定，適合需要高精度數學和邏輯分析的應用。
劣勢：編碼表現中等，相較於 Claude 系列稍遜一籌；整體性能在不同任務上表現略有不平衡。適用領域：科學計算、數學問題求解、邏輯推理、教育輔導及專業數據分析領域。