Сравнение платных моделей Github Copilot

Tuesday, March 04, 2025

Categories:

Отзывы

7 моделей

В настоящее время Github Copilot предоставляет 7 моделей:

Claude 3.5 Sonnet
Claude 3.7 Sonnet
Claude 3.7 Sonnet Thinking
Gemini 2.0 Flash
GPT-4o
o1
o3-mini

Официальная документация не содержит описания этих 7 моделей. В данной статье кратко описываются их оценки в различных областях, чтобы различать сильные стороны каждой модели и помочь читателям выбирать более подходящую модель при решении конкретных задач.

Сравнение моделей

Сравнительная таблица по нескольким критериям на основе публичных данных оценки (часть данных получена путем оценки и пересчета из различных источников), охватывающая три ключевых показателя: программирование (SWE‑Bench Verified), математика (AIME’24) и логика (GPQA Diamond):

Модель	Результаты программирования (SWE‑Bench Verified)	Математические результаты (AIME'24)	Результаты логики (GPQA Diamond)
Claude 3.5 Sonnet	70.3%	49.0%	77.0%
Claude 3.7 Sonnet (стандартный режим)	≈83.7% (повышение ≈19%)	≈58.3% (повышение ≈19%)	≈91.6% (повышение ≈19%)
Claude 3.7 Sonnet Thinking	≈83.7% (схожий с стандартным)	≈64.0% (режим “мышления” дает дополнительный рост)	≈95.0% (усиленные способности логики)
Gemini 2.0 Flash	≈65.0% (оценка)	≈45.0% (оценка)	≈75.0% (оценка)
GPT‑4o	38.0%	36.7%	71.4%
o1	48.9%	83.3%	78.0%
o3‑mini	49.3%	87.3%	79.7%

Пояснения:

Приведенные значения взяты из части публичных тестов (например, отчет Vellum VELLUM.AI) и пересчитанных данных (например, Claude 3.7 примерно на 19% лучше 3.5), часть значений Gemini 2.0 Flash — это оценки.
“Claude 3.7 Sonnet Thinking” означает режим “мышления” (то есть удлинение внутренних шагов логики), в котором модель показывает значительное улучшение в математических и логических задачах.

Краткое резюме преимуществ и недостатков и области применения

Серия Claude (3.5/3.7 Sonnet и их варианты с Thinking)

Преимущества: Высокая точность в задачах программирования и многошаговой логики, особенно версия 3.7 по сравнению с 3.5 демонстрирует заметное улучшение; В режиме “мышления” математические и логические результаты значительно улучшаются, подходит для обработки сложной логики или задач, требующих подробного планирования; Встроенные преимущества в вызове инструментов и обработке длинных контекстов.
Недостатки: В стандартном режиме математические показатели относительно низкие, значительно улучшаются только при активации удлиненного логического процесса; Стоимость и время ответа в некоторых сценариях могут быть выше. Области применения: Инженерия программного обеспечения, генерация и отладка кода, решение сложных задач, многошаговые решения и автоматизация корпоративных рабочих процессов.

Gemini 2.0 Flash

Преимущества: Имеет большой контекстный размер, подходит для обработки длинных документов и многомодальных входов (например, анализ изображений); Способности логики и программирования в некоторых тестах неплохие, а скорость ответа высокая.
Недостатки: В некоторых сценариях (например, сложные задачи программирования) может возникать “зависание”, стабильность требует проверки; Часть показателей — предварительные оценки, общая производительность требует подтверждения большего количества публичных данных. Области применения: Многомодальные задачи, реальное взаимодействие, приложения, требующие большого контекста, такие как краткие изложения длинных документов, анализ видео и информационный поиск.

GPT‑4o

Преимущества: Естественное и плавное понимание и генерация языка, подходит для открытых диалогов и общих текстовых задач.
Недостатки: Относительно слабые результаты в профессиональных задачах, таких как программирование и математика, некоторые показатели значительно ниже, чем у аналогичных моделей; Высокая стоимость (схожая с GPT‑4.5), соотношение цена/качество уступает некоторым конкурентам. Области применения: Универсальные диалоговые системы, создание контента, написание текстов и повседневные задачи вопросов и ответов.

o1 и o3‑mini (серия OpenAI)

Преимущества: Отличные результаты в математических рассуждениях, o1 и o3‑mini в задачах типа AIME достигают 83.3% и 87.3% соответственно; Стабильные способности логики, подходят для приложений, требующих высокой точности математического и логического анализа.
Недостатки: Средние результаты в программировании, уступают серии Claude; Общая производительность в разных задачах немного несбалансирована. Области применения: Научные вычисления, решение математических задач, логические рассуждения, образовательное руководство и профессиональный анализ данных.