Сравнение платных моделей Github Copilot

7 моделей

В настоящее время Github Copilot предоставляет 7 моделей:

  • Claude 3.5 Sonnet
  • Claude 3.7 Sonnet
  • Claude 3.7 Sonnet Thinking
  • Gemini 2.0 Flash
  • GPT-4o
  • o1
  • o3-mini

Официальная документация не содержит описания этих 7 моделей. В данной статье кратко описываются их оценки в различных областях, чтобы различать сильные стороны каждой модели и помочь читателям выбирать более подходящую модель при решении конкретных задач.

Сравнение моделей

Сравнительная таблица по нескольким критериям на основе публичных данных оценки (часть данных получена путем оценки и пересчета из различных источников), охватывающая три ключевых показателя: программирование (SWE‑Bench Verified), математика (AIME’24) и логика (GPQA Diamond):

Модель Результаты программирования
(SWE‑Bench Verified)
Математические результаты
(AIME'24)
Результаты логики
(GPQA Diamond)
Claude 3.5 Sonnet 70.3% 49.0% 77.0%
Claude 3.7 Sonnet (стандартный режим) ≈83.7%
(повышение ≈19%)
≈58.3%
(повышение ≈19%)
≈91.6%
(повышение ≈19%)
Claude 3.7 Sonnet Thinking ≈83.7%
(схожий с стандартным)
≈64.0%
(режим “мышления” дает дополнительный рост)
≈95.0%
(усиленные способности логики)
Gemini 2.0 Flash ≈65.0%
(оценка)
≈45.0%
(оценка)
≈75.0%
(оценка)
GPT‑4o 38.0% 36.7% 71.4%
o1 48.9% 83.3% 78.0%
o3‑mini 49.3% 87.3% 79.7%

Пояснения:

  • Приведенные значения взяты из части публичных тестов (например, отчет Vellum VELLUM.AI) и пересчитанных данных (например, Claude 3.7 примерно на 19% лучше 3.5), часть значений Gemini 2.0 Flash — это оценки.
  • “Claude 3.7 Sonnet Thinking” означает режим “мышления” (то есть удлинение внутренних шагов логики), в котором модель показывает значительное улучшение в математических и логических задачах.

Краткое резюме преимуществ и недостатков и области применения

Серия Claude (3.5/3.7 Sonnet и их варианты с Thinking)

  • Преимущества: Высокая точность в задачах программирования и многошаговой логики, особенно версия 3.7 по сравнению с 3.5 демонстрирует заметное улучшение; В режиме “мышления” математические и логические результаты значительно улучшаются, подходит для обработки сложной логики или задач, требующих подробного планирования; Встроенные преимущества в вызове инструментов и обработке длинных контекстов.
  • Недостатки: В стандартном режиме математические показатели относительно низкие, значительно улучшаются только при активации удлиненного логического процесса; Стоимость и время ответа в некоторых сценариях могут быть выше. Области применения: Инженерия программного обеспечения, генерация и отладка кода, решение сложных задач, многошаговые решения и автоматизация корпоративных рабочих процессов.

Gemini 2.0 Flash

  • Преимущества: Имеет большой контекстный размер, подходит для обработки длинных документов и многомодальных входов (например, анализ изображений); Способности логики и программирования в некоторых тестах неплохие, а скорость ответа высокая.
  • Недостатки: В некоторых сценариях (например, сложные задачи программирования) может возникать “зависание”, стабильность требует проверки; Часть показателей — предварительные оценки, общая производительность требует подтверждения большего количества публичных данных. Области применения: Многомодальные задачи, реальное взаимодействие, приложения, требующие большого контекста, такие как краткие изложения длинных документов, анализ видео и информационный поиск.

GPT‑4o

  • Преимущества: Естественное и плавное понимание и генерация языка, подходит для открытых диалогов и общих текстовых задач.
  • Недостатки: Относительно слабые результаты в профессиональных задачах, таких как программирование и математика, некоторые показатели значительно ниже, чем у аналогичных моделей; Высокая стоимость (схожая с GPT‑4.5), соотношение цена/качество уступает некоторым конкурентам. Области применения: Универсальные диалоговые системы, создание контента, написание текстов и повседневные задачи вопросов и ответов.

o1 и o3‑mini (серия OpenAI)

  • Преимущества: Отличные результаты в математических рассуждениях, o1 и o3‑mini в задачах типа AIME достигают 83.3% и 87.3% соответственно; Стабильные способности логики, подходят для приложений, требующих высокой точности математического и логического анализа.
  • Недостатки: Средние результаты в программировании, уступают серии Claude; Общая производительность в разных задачах немного несбалансирована. Области применения: Научные вычисления, решение математических задач, логические рассуждения, образовательное руководство и профессиональный анализ данных.