Сравнение платных моделей Github Copilot
Categories:

В настоящее время Github Copilot предоставляет 7 моделей:
- Claude 3.5 Sonnet
- Claude 3.7 Sonnet
- Claude 3.7 Sonnet Thinking
- Gemini 2.0 Flash
- GPT-4o
- o1
- o3-mini
Официальная документация не содержит описания этих 7 моделей. В данной статье кратко описываются их оценки в различных областях, чтобы различать сильные стороны каждой модели и помочь читателям выбирать более подходящую модель при решении конкретных задач.
Сравнение моделей
Сравнительная таблица по нескольким критериям на основе публичных данных оценки (часть данных получена путем оценки и пересчета из различных источников), охватывающая три ключевых показателя: программирование (SWE‑Bench Verified), математика (AIME’24) и логика (GPQA Diamond):
| Модель | Результаты программирования (SWE‑Bench Verified) |
Математические результаты (AIME'24) |
Результаты логики (GPQA Diamond) |
|---|---|---|---|
| Claude 3.5 Sonnet | 70.3% | 49.0% | 77.0% |
| Claude 3.7 Sonnet (стандартный режим) | ≈83.7% (повышение ≈19%) |
≈58.3% (повышение ≈19%) |
≈91.6% (повышение ≈19%) |
| Claude 3.7 Sonnet Thinking | ≈83.7% (схожий с стандартным) |
≈64.0% (режим “мышления” дает дополнительный рост) |
≈95.0% (усиленные способности логики) |
| Gemini 2.0 Flash | ≈65.0% (оценка) |
≈45.0% (оценка) |
≈75.0% (оценка) |
| GPT‑4o | 38.0% | 36.7% | 71.4% |
| o1 | 48.9% | 83.3% | 78.0% |
| o3‑mini | 49.3% | 87.3% | 79.7% |
Пояснения:
- Приведенные значения взяты из части публичных тестов (например, отчет Vellum VELLUM.AI) и пересчитанных данных (например, Claude 3.7 примерно на 19% лучше 3.5), часть значений Gemini 2.0 Flash — это оценки.
- “Claude 3.7 Sonnet Thinking” означает режим “мышления” (то есть удлинение внутренних шагов логики), в котором модель показывает значительное улучшение в математических и логических задачах.
Краткое резюме преимуществ и недостатков и области применения
Серия Claude (3.5/3.7 Sonnet и их варианты с Thinking)
- Преимущества: Высокая точность в задачах программирования и многошаговой логики, особенно версия 3.7 по сравнению с 3.5 демонстрирует заметное улучшение; В режиме “мышления” математические и логические результаты значительно улучшаются, подходит для обработки сложной логики или задач, требующих подробного планирования; Встроенные преимущества в вызове инструментов и обработке длинных контекстов.
- Недостатки: В стандартном режиме математические показатели относительно низкие, значительно улучшаются только при активации удлиненного логического процесса; Стоимость и время ответа в некоторых сценариях могут быть выше. Области применения: Инженерия программного обеспечения, генерация и отладка кода, решение сложных задач, многошаговые решения и автоматизация корпоративных рабочих процессов.
Gemini 2.0 Flash
- Преимущества: Имеет большой контекстный размер, подходит для обработки длинных документов и многомодальных входов (например, анализ изображений); Способности логики и программирования в некоторых тестах неплохие, а скорость ответа высокая.
- Недостатки: В некоторых сценариях (например, сложные задачи программирования) может возникать “зависание”, стабильность требует проверки; Часть показателей — предварительные оценки, общая производительность требует подтверждения большего количества публичных данных. Области применения: Многомодальные задачи, реальное взаимодействие, приложения, требующие большого контекста, такие как краткие изложения длинных документов, анализ видео и информационный поиск.
GPT‑4o
- Преимущества: Естественное и плавное понимание и генерация языка, подходит для открытых диалогов и общих текстовых задач.
- Недостатки: Относительно слабые результаты в профессиональных задачах, таких как программирование и математика, некоторые показатели значительно ниже, чем у аналогичных моделей; Высокая стоимость (схожая с GPT‑4.5), соотношение цена/качество уступает некоторым конкурентам. Области применения: Универсальные диалоговые системы, создание контента, написание текстов и повседневные задачи вопросов и ответов.
o1 и o3‑mini (серия OpenAI)
- Преимущества: Отличные результаты в математических рассуждениях, o1 и o3‑mini в задачах типа AIME достигают 83.3% и 87.3% соответственно; Стабильные способности логики, подходят для приложений, требующих высокой точности математического и логического анализа.
- Недостатки: Средние результаты в программировании, уступают серии Claude; Общая производительность в разных задачах немного несбалансирована. Области применения: Научные вычисления, решение математических задач, логические рассуждения, образовательное руководство и профессиональный анализ данных.