Github Copilot पेड मॉडल तुलना

7 मॉडल

Github Copilot वर्तमान में 7 मॉडल प्रदान करता है,

  • Claude 3.5 Sonnet
  • Claude 3.7 Sonnet
  • Claude 3.7 Sonnet Thinking
  • Gemini 2.0 Flash
  • GPT-4o
  • o1
  • o3-mini

अधिकारी के पास इन 7 मॉडल का परिचय नहीं है, इस लेख में उनके विभिन्न क्षेत्रों में स्कोर का संक्षिप्त विवरण है, उनके क्षेत्रों को अलग करने के लिए, ताकि पाठक विशिष्ट समस्याओं को हल करते समय उपयुक्त मॉडल में स्विच कर सकें.

मॉडल तुलना

तीन महत्वपूर्ण मापदंडों - कोडिंग (SWE‑Bench Verified), गणित (AIME'24) और तर्क (GPQA Diamond) पर आधारित बहु-आयामी तुलना तालिका, जिसमें सार्वजनिक मूल्यांकन डेटा (कुछ डेटा अनुमानित और विभिन्न स्रोतों से परिवर्तित) शामिल हैं:

मॉडल कोडिंग प्रदर्शन
(SWE‑Bench Verified)
गणित प्रदर्शन
(AIME'24)
तर्क प्रदर्शन
(GPQA Diamond)
Claude 3.5 Sonnet 70.3% 49.0% 77.0%
Claude 3.7 Sonnet (स्टैंडर्ड मोड) ≈83.7%
(वृद्धि ≈19%)
≈58.3%
(वृद्धि ≈19%)
≈91.6%
(वृद्धि ≈19%)
Claude 3.7 Sonnet Thinking ≈83.7%
(स्टैंडर्ड के समान)
≈64.0%
(थिंकिंग मोड में और सुधार)
≈95.0%
(तर्क क्षमता मजबूत)
Gemini 2.0 Flash ≈65.0%
(अनुमानित)
≈45.0%
(अनुमानित)
≈75.0%
(अनुमानित)
GPT‑4o 38.0% 36.7% 71.4%
o1 48.9% 83.3% 78.0%
o3‑mini 49.3% 87.3% 79.7%

स्पष्टीकरण:

  • उपर्युक्त मान Vellum प्लेटफॉर्म की तुलना रिपोर्ट (VELLUM.AI) और कुछ डेटा परिवर्तन (उदाहरण के लिए Claude 3.7 की तुलना 3.5 से लगभग 19% वृद्धि) से लिए गए हैं, और कुछ Gemini 2.0 Flash मान अनुमानित हैं।
  • “Claude 3.7 Sonnet Thinking” का अर्थ है “थिंकिंग मोड” (यानी आंतरिक तर्क कदमों का विस्तार) चालू करने की स्थिति में, जहां मॉडल गणित और तर्क कार्यों पर उल्लेखनीय रूप से बेहतर प्रदर्शन करता है।

ताकत और कमजोरियों का सारांश और अनुप्रयोग क्षेत्र

Claude श्रृंखला (3.5/3.7 Sonnet और उनके Thinking वेरिएंट)

  • ताकत: कोडिंग और बहु-कदम तर्क कार्यों में उच्च सटीकता दिखाती है, विशेष रूप से 3.7 संस्करण 3.5 की तुलना में स्पष्ट सुधार दिखाता है; “Thinking” मोड में गणित और तर्क प्रदर्शन में और सुधार होता है, जो जटिल तर्क या विस्तृत योजना की आवश्यकता वाले कार्यों के लिए उपयुक्त है; टूल कॉल और लंबे संदर्भ संसाधन में लाभ है।
  • कमजोरियां: स्टैंडर्ड मोड में गणित संकेतक अपेक्षाकृत कम होते हैं, केवल विस्तृत तर्क चालू करने पर ही उल्लेखनीय सुधार होता है; कुछ परिदृश्यों में लागत और प्रतिक्रिया समय अधिक हो सकता है। उपयुक्त क्षेत्र: सॉफ्टवेयर इंजीनियरिंग, कोड उत्पादन और डीबगिंग, जटिल समस्या समाधान, बहु-कदम निर्णय और उद्यम स्तरीय स्वचालित कार्य प्रवाह।

Gemini 2.0 Flash

  • ताकत: बड़े संदर्भ विंडो के साथ, लंबे दस्तावेज़ संसाधन और बहु-मोडल इनपुट (उदाहरण के लिए छवि विश्लेषण) के लिए उपयुक्त है; कुछ परीक्षणों में तर्क क्षमता और कोडिंग प्रदर्शन अच्छा है, और प्रतिक्रिया गति तेज़ है।
  • कमजोरियां: कुछ परिदृश्यों में (जटिल कोडिंग कार्य आदि) “अटकने” की घटना हो सकती है, स्थिरता की पुष्टि की आवश्यकता है; कुछ संकेतक प्रारंभिक अनुमान हैं, समग्र प्रदर्शन की पुष्टि के लिए और अधिक सार्वजनिक डेटा की आवश्यकता है। उपयुक्त क्षेत्र: बहु-मोडल कार्य, रियल-टाइम इंटरैक्शन, बड़े संदर्भ की आवश्यकता वाले अनुप्रयोग, जैसे लंबे दस्तावेज़ सारांश, वीडियो विश्लेषण और जानकारी पुनःप्राप्ति।

GPT‑4o

  • ताकत: भाषा समझ और उत्पादन प्राकृतिक और सुगम है, खुले संवाद और सामान्य टेक्स्ट संसाधन के लिए उपयुक्त है।
  • कमजोरियां: कोडिंग, गणित आदि विशेषज्ञ कार्यों में प्रदर्शन अपेक्षाकृत कमजोर है, कुछ संकेतक समकालीन मॉडल से काफी कम हैं; लागत अधिक है (GPT‑4.5 के समान), कुछ प्रतियोगियों की तुलना में मूल्य-प्रभावशीलता कम है। उपयुक्त क्षेत्र: सामान्य संवाद प्रणाली, सामग्री निर्माण, प्रस्ताव लेखन और दैनिक प्रश्नोत्तर कार्य।

o1 और o3‑mini (OpenAI श्रृंखला)

  • ताकत: गणित तर्क में उत्कृष्ट प्रदर्शन, AIME जैसे कार्यों में o1 और o3‑mini क्रमशः 83.3% और 87.3% तक पहुंचते हैं; तर्क क्षमता स्थिर है, उच्च परिशुद्धता वाले गणित और तार्किक विश्लेषण की आवश्यकता वाले अनुप्रयोग के लिए उपयुक्त है।
  • कमजोरियां: कोडिंग प्रदर्शन मध्यम है, Claude श्रृंखला से थोड़ा कमजोर; विभिन्न कार्यों में समग्र प्रदर्शन में थोड़ा असंतुलन है। उपयुक्त क्षेत्र: वैज्ञानिक गणना, गणित समस्या समाधान, तार्किक तर्क, शिक्षा मार्गदर्शन और विशेषज्ञ डेटा विश्लेषण क्षेत्र।