Современные LLM-модели в 2026 году: кто делает, чем отличаются и какую выбрать
Внимание, лонгрид! Актуально на: февраль 2026 года. Рынок LLM меняется быстро — отдельные характеристики и цены могут устареть к моменту прочтения.
Два года назад выбор языковой модели укладывался в одно решение: ChatGPT или ChatGPT. Сегодня на рынке десятки LLM от полутора десятков компаний, и каждая вторая позиционирует себя как «лучшая в своём классе». Маркетинговые бенчмарки обещают сверхразум, а на практике модель может споткнуться о запрос с тремя условиями. Эта статья — попытка навести порядок: разобрать ключевых разработчиков, их модели и главное — помочь выбрать ту, которая решит вашу конкретную задачу, а не ту, у которой красивее график в презентации.
Мы пройдёмся по всем основным игрокам — от OpenAI и Anthropic до DeepSeek и российского GigaChat. Для каждой модели разберём сильные стороны, ограничения, реальные кейсы и ситуации, где она не справится. В конце — сравнительная таблица и практический чек-лист для тех, кто выбирает LLM под продукт или рабочий процесс.
Рынок LLM в 2026 году: что изменилось и куда движется
Глобальный рынок больших языковых моделей по разным оценкам достиг 8-10 миллиардов долларов к началу 2026 года. Расходы компаний на API языковых моделей выросли с 3,5 млрд долларов в конце 2024 года до 8,4 млрд к середине 2025-го — и продолжают расти. Около 78% крупных организаций уже используют ИИ хотя бы в одном бизнес-процессе. При этом 95% внедрений, по данным MIT, не оправдывают ожиданий. Модели стали мощнее, но разрыв между «попробовать в чатике» и «внедрить в продукт» никуда не делся.
Закрытые vs open-source: не всё так просто
На первый взгляд разделение простое. Закрытые модели (GPT, Claude, Gemini) — мощнее, но работают только через API провайдера: данные уходят на чужие серверы, вы привязаны к ценовой политике и условиям обслуживания. Open-source (Llama, Mistral, DeepSeek, Qwen) — можно развернуть у себя, дообучить, заглянуть под капот.
На практике граница размылась. Meta выпускает Llama с «открытыми весами», но с лицензионными ограничениями на коммерческое использование свыше 700 млн пользователей. DeepSeek открывает архитектуру, но запустить модель на своём железе — это отдельный бюджет на GPU и отдельный инженер для поддержки. По данным Menlo Ventures, доля open-source моделей в продакшен-нагрузках составляет около 13% — и пока не растёт. Корпорации выбирают предсказуемость закрытых API, а энтузиасты — гибкость открытых весов. Оба подхода имеют смысл, и «правильного» ответа нет.
Что реально имеет значение при выборе
Маркетинг LLM-провайдеров крутится вокруг бенчмарков: MMLU, HumanEval, GPQA. Цифры в таблицах красивые, но при выборе модели под реальную задачу они играют роль примерно как максимальная скорость автомобиля — теоретически важна, практически вы в неё не упираетесь. Вот параметры, которые действительно влияют на результат.
Контекстное окно — сколько текста модель может обработать за один запрос. Разброс огромный: от 128K токенов у старых моделей до 10 миллионов у Llama 4 Scout. Миллион токенов — это примерно 750 000 слов, или около 1500 страниц. Звучит впечатляюще, но большое контекстное окно не означает, что модель одинаково внимательна ко всем частям текста. Загрузить в неё полную документацию проекта можно, а вот найдёт ли она нужное место — зависит от конкретной реализации.
Скорость и латентность. Для интерактивного чат-бота на сайте критична скорость первого токена — пользователь не будет ждать 5 секунд. Для пакетной обработки тысяч документов важнее пропускная способность. Reasoning-модели (o1, o3, DeepSeek-R1) думают дольше, но и ответы дают точнее на сложных задачах. Платить за «размышления» модели, которая отвечает на вопрос «какой у вас график работы» — всё равно что нанимать архитектора для замены лампочки.
Стоимость API. Диапазон — от 0,07 доллара за миллион токенов (DeepSeek с кэшированием) до 75 долларов (GPT-5 в максимальной конфигурации). Разница в тысячу раз между самым дешёвым и самым дорогим вариантом — это не опечатка, а реальность рынка. Для прототипа стоимость не важна, для продукта с миллионом запросов в день — это строка в P&L, которая может определить судьбу проекта.
Мультимодальность. Большинство современных LLM умеют работать не только с текстом. GPT-4o принимает изображения, аудио и видео. Gemini обрабатывает видео нативно. Claude анализирует PDF и скриншоты. Но «умеет» и «делает хорошо» — разные вещи. Распознавание текста на фото одна модель делает идеально, а другая путает кириллицу с латиницей. Мультимодальность — это не чекбокс в таблице сравнения, а спектр качества, который нужно тестировать под свой кейс.
Тренды, которые определяют рынок прямо сейчас
Агентность. 2025 год стал годом AI-агентов — систем, где LLM не просто отвечает на вопрос, а планирует последовательность действий, вызывает внешние инструменты, обрабатывает ошибки и итеративно улучшает результат. Anthropic задал темп, выпустив MCP (Model Context Protocol) — открытый стандарт для подключения инструментов к моделям. Теперь модель может сама запустить код, проверить результат, исправить ошибку и запустить снова. Claude Code, работающий по этому принципу, стал одним из самых популярных инструментов разработчиков.
Reasoning-модели. Отдельный класс LLM, которые «думают» перед ответом: генерируют цепочку рассуждений, проверяют себя и только потом выдают финальный результат. OpenAI начала с o1, сейчас линейка расширилась до o3 и o4-mini. DeepSeek-R1 показал, что reasoning можно делать и в open-source. Такие модели медленнее и дороже, но на задачах с математикой, логикой и сложным кодом разница в качестве ощутимая.
Mixture of Experts (MoE). Архитектура, при которой модель имеет огромное количество параметров, но при каждом запросе активирует только малую часть из них. Результат — качество большой модели при скорости и стоимости маленькой. Mixtral от Mistral, DeepSeek-V3 с его 671B параметров (из которых активны 37B) и Llama 4 — все используют этот подход. MoE перестала быть экзотикой и стала стандартом для экономичных моделей.
Длинный контекст. Гонка контекстных окон продолжается: Llama 4 Scout предлагает 10 миллионов токенов, Gemini 3 Pro — миллион, GPT-5.2 расширился до 400K. Длинный контекст постепенно вытесняет классический RAG для задач, где нужно работать с большим объёмом документов. Но «длинный контекст» и «хорошая работа с длинным контекстом» — по-прежнему разные вещи, и каждую модель стоит проверять на needle-in-a-haystack тестах перед принятием решения.
А теперь перейдём к тем, кто всё это создаёт. Начнём с компании, которая запустила всю эту гонку — OpenAI.
OpenAI — компания, которая начала эту гонку и не собирается с трассы
OpenAI не нуждается в представлении, но нуждается в систематизации. За последние полтора года компания выпустила столько моделей, что даже их собственные сотрудники, вероятно, сверяются с документацией. На февраль 2026 года актуальная линейка включает флагман GPT-5.2 в трёх вариантах, reasoning-модели серии o, специализированный GPT-5.2-Codex для кода и ряд вспомогательных моделей. Шесть старых моделей, включая GPT-4o, уходят на пенсию 13 февраля 2026 года — их использовало менее 0,1% пользователей ChatGPT.
Стратегия OpenAI — фронтирная мощность плюс экосистема. ChatGPT остаётся самым массовым AI-продуктом с примерно 500 миллионами пользователей в месяц. API — основной канал для разработчиков. Подписка — от бесплатного тарифа до Pro за 200 долларов в месяц. Всё это создаёт ощущение, что OpenAI — это «стандарт отрасли». Впрочем, в энтерпрайзе их доля упала до 25%, уступив первое место Anthropic. Массовость не всегда означает лидерство в качестве.
GPT-5.2 — флагман для всего сразу
GPT-5.2, выпущенный 11 декабря 2025 года, — текущий флагман OpenAI. Компания позиционирует его как модель для «сложных реальных задач от начала до конца». Доступен в трёх режимах: Instant (быстрые ответы без глубоких рассуждений), Thinking (с цепочкой рассуждений, настраиваемой глубиной от low до xhigh) и Pro (максимальные вычислительные ресурсы на reasoning, доступен только через Pro-подписку или API).
Ключевые характеристики:
- Контекст: 400K токенов на входе, до 128K токенов на выходе. Через endpoint /compact эффективное окно можно расширить ещё дальше для длинных агентских сессий
- Сильные стороны: лидер бенчмарков по reasoning (GPQA Diamond ~93%, AIME 2025 — 100%), сильный в кодинге (SWE-Bench Pro 55,6%), хорошая работа с длинным контекстом до 256K токенов, надёжный tool-calling
- Скорость: Instant — быстро, Thinking — умеренно, Pro — может обрабатывать запрос несколько минут
- Экономика: API: $1,75 / $14 за миллион токенов (вход/выход). Pro-версия: $21 / $168. Кэшированный вход — $0,175. Подписка ChatGPT Plus — $20/мес, Pro — $200/мес
- Модальность: текст и изображения на входе, текст на выходе. Лучшая модель OpenAI по распознаванию графиков, интерфейсов и диаграмм
Идеальные задачи:
- Агентские workflow: многошаговые задачи с вызовом инструментов, анализом данных и генерацией отчётов
- Анализ больших документов — контракты, спецификации, кодовые базы целиком в одном контексте
- Сложные математические и научные задачи, где нужна цепочка рассуждений
- Мультимодальный анализ: дашборды, скриншоты продукта, технические диаграммы
- Корпоративная автоматизация: генерация презентаций, обработка таблиц, подготовка отчётов
Где споткнётся:
- Цена. При потоковой обработке больших объёмов данных счёт растёт быстро — особенно в режиме Pro ($168 за миллион выходных токенов)
- Для простых задач модель избыточна и медленна — классификация, маршрутизация запросов, ответы из FAQ быстрее и дешевле делать на mini-моделях
- Закрытая модель: данные проходят через серверы OpenAI, что исключает использование в сценариях с жёсткими требованиями к data residency
- По работе с русским языком — уступает некоторым конкурентам (Claude, GigaChat) в понимании нюансов и стилистики
Мини-кейс:
Задача: Проанализировать 150-страничный технический договор на английском и составить список рисков с привязкой к конкретным пунктам.
Промпт: «Вот договор на разработку ПО. Найди все пункты, содержащие финансовые риски для заказчика: штрафы, неустойки, ограничения ответственности. Для каждого укажи номер пункта, суть риска и рекомендацию.»
Ожидаемый результат: Структурированная таблица с 15-25 рисковыми пунктами. GPT-5.2 в режиме Thinking последовательно пройдёт по документу, не потеряв контекст на 150 страницах.
Кому не подойдёт:
- Командам с ограниченным бюджетом на API, которые обрабатывают сотни тысяч запросов в день
- Проектам, требующим self-hosted развёртывания и полного контроля над данными
- Задачам, где нужна скорость отклика ниже 200 мс (интерактивные чат-боты на сайтах)
GPT-5.2 — как швейцарский армейский нож с электроприводом: умеет почти всё, но для каждой конкретной задачи найдётся инструмент дешевле, быстрее или точнее. Его главное преимущество — универсальность и экосистема, в которую он встроен.
Серия o — когда модели научились думать
Отдельная линейка reasoning-моделей OpenAI, построенная на идее inference-time scaling: вместо того чтобы делать модель больше, ей дают больше времени на обдумывание. Модель генерирует внутреннюю цепочку рассуждений, проверяет себя и выдаёт ответ. Пользователь видит только финальный результат, но платит за все «токены размышлений».
На февраль 2026 года актуальны o3 и o4-mini. Модель o1, с которой началась линейка, уже уходит в тень.
Ключевые характеристики:
- Контекст: 200K токенов у обеих моделей, до 100K на выходе
- Сильные стороны: математика, формальная логика, сложный код, научные задачи. o3 показывает результаты на уровне лучших специалистов в GPQA и AIME
- Скорость: медленнее обычных моделей в 3-10 раз (зависит от сложности задачи). Модель «думает» — и это видно по таймингам
- Экономика: o3: $2 / $8 за миллион токенов. o4-mini: $1,10 / $4,40. Плюс вы платите за скрытые reasoning-токены, которых может быть в 5-20 раз больше видимого ответа
- Модальность: текст и изображения на входе, текст на выходе. o4-mini особенно хорош в визуальных задачах при своей цене
Идеальные задачи:
- Задачи, где «обычная» модель регулярно ошибается: многошаговая математика, задачи с ловушками, формальная верификация
- Сложный рефакторинг и отладка кода, где нужно проследить логику через десятки файлов
- Научный анализ: разбор статей, проверка выводов, поиск ошибок в рассуждениях
- Задачи, где точность важнее скорости: юридический анализ, медицинская аналитика, финансовое моделирование
Где споткнётся:
- Простые задачи. Модель всё равно «думает», даже если ответ очевиден — вы платите за размышления над вопросом «2+2»
- Непредсказуемая стоимость. Количество reasoning-токенов зависит от задачи: один запрос может стоить $0,01, а следующий — $2
- Не подходит для потоковой обработки и real-time приложений из-за высокой латентности
Мини-кейс:
Задача: Найти логическую ошибку в SQL-запросе, который возвращает неверные данные при определённых условиях.
Промпт: «Вот SQL-запрос для расчёта конверсии по когортам. При пустых когортах он выдаёт деление на ноль вместо null. Найди причину и предложи исправление, объясни логику.»
Ожидаемый результат: o3 пошагово разберёт логику JOIN-ов и агрегаций, найдёт edge case с пустой группой и предложит корректный вариант с NULLIF или CASE.
Кому не подойдёт:
- Чат-ботам для поддержки клиентов — слишком медленно и дорого
- Генерации контента и текстов — обычные модели справляются не хуже, но в разы быстрее
Важный тренд: с выходом GPT-5.2, который получил встроенный reasoning (параметр reasoning.effort), отдельная серия o постепенно теряет смысл. OpenAI сама говорит о «конвергенции» — reasoning, tool-calling и генерация объединяются в одну модель. Вполне вероятно, что o-серия со временем останется только как edge-вариант для экстремально сложных задач.
GPT-5.2-Codex — когда код пишется сессиями, а не запросами
Выпущен 14 января 2026 года — специализированная версия GPT-5.2, заточенная под агентское программирование. Ключевое отличие от базового GPT-5.2: context compaction — модель умеет сжимать накопленный контекст, сохраняя важное и отбрасывая несущественное. Это позволяет вести многочасовые сессии разработки без потери нити.
Ключевые характеристики:
- Контекст: 400K токенов с компактизацией — эффективно работает как динамическое окно для длинных сессий
- Сильные стороны: SWE-Bench Pro 56,4%, Terminal-Bench 2.0 64,0%. Устойчив к «потере нити» при длинных сессиях, умеет восстанавливаться после неудачных попыток
- Скорость: умеренная, оптимизирована под фоновое выполнение (background mode для длительных задач)
- Экономика: $1,75 / $14 за миллион токенов — аналогично базовому GPT-5.2
Идеальные задачи:
- Крупные рефакторинги: миграция фреймворков, обновление версий, переписывание модулей
- Разработка фич, затрагивающих десятки файлов: модель держит в голове архитектуру проекта
- Аудит безопасности и поиск уязвимостей — OpenAI отдельно выделяет рост кибербезопасных возможностей
- Отладка сложных багов, где нужно итеративно пробовать подходы и менять стратегию
Где споткнётся:
- Для мелких правок и одноразовых вопросов по коду — избыточен, обычный GPT-5.2 или o4-mini справятся
- Не подходит для задач вне программирования — это узкоспециализированный инструмент
- Работает только через Responses API, не через привычный Chat Completions
Мини-кейс:
Задача: Мигрировать React-приложение с class components на functional components с hooks по всему проекту (80+ компонентов).
Промпт: «Вот репозиторий. Переведи все class components на functional с hooks, сохрани логику state management, обнови тесты. Начни с модуля авторизации, потом dashboard, потом settings.»
Ожидаемый результат: Codex последовательно обработает модули, помнит решения, принятые на предыдущих шагах, и поддерживает консистентность стиля кода по всему проекту.
Кому не подойдёт:
- Тем, кто пишет код быстрыми одноразовыми запросами — для этого есть o4-mini и базовый GPT-5.2
- Тем, кто работает не с кодом
GPT-5 mini и nano — бюджетная линейка для потока
Для полноты картины: у OpenAI есть «лёгкие» модели — GPT-5 mini ($0,25 / $2 за миллион токенов) и GPT-5 nano (ещё дешевле). Это рабочие лошадки для задач, где нужен объём, а не глубина: классификация тикетов, извлечение структурированных данных, маршрутизация запросов, простая суммаризация.
По качеству они уступают флагману ожидаемо, но для своей ценовой категории вполне конкурентоспособны. Если ваш продукт обрабатывает миллионы запросов и каждый из них — это ответ на вопрос «когда доставка», GPT-5 nano будет оптимальным выбором. Использовать GPT-5.2 Pro для такой задачи — примерно как отправлять курьерскую службу за письмом, которое можно бросить в почтовый ящик.
Теперь перейдём к компании, которая отобрала у OpenAI первое место в энтерпрайзе и заставила разработчиков массово переключаться на нового фаворита.
Anthropic — Claude и тихий захват энтерпрайза
Anthropic основана в 2021 году бывшими сотрудниками OpenAI во главе с Дарио Амодеи. Компания строит своё позиционирование вокруг безопасности ИИ и подхода Constitutional AI — модели обучаются следовать набору принципов, а не просто максимизировать «полезность» ответа. На практике это означает, что Claude реже генерирует откровенный бред и увереннее отказывается выполнять сомнительные запросы. Кого-то это раздражает, кого-то — привлекает. Энтерпрайз-клиенты, судя по цифрам, находятся во второй группе.
Цифры впечатляют. К середине 2025 года Anthropic захватил 32% рынка корпоративного использования LLM, обогнав OpenAI (25%) — хотя ещё в 2023 году соотношение было обратным: 50% у OpenAI, 12% у Anthropic. Выручка компании выросла с примерно 1 млрд долларов в 2024 году до 5 млрд к середине 2025-го, а по прогнозам на 2026 год речь идёт о 20-26 млрд. Claude Code — CLI-инструмент для агентского программирования — достиг 1 млрд долларов годовой выручки за шесть месяцев после запуска, обогнав по скорости роста даже ChatGPT. В кодинге Claude удерживает 42% рынка — вдвое больше, чем OpenAI.
Линейка Claude устроена проще, чем у OpenAI: три уровня — Opus (максимум), Sonnet (баланс), Haiku (скорость). В каждом уровне есть поколения — сейчас актуально 4.5, а флагманский Opus обновился до версии 4.6. Плюс отдельный продукт Claude Code.
Claude Opus 4.5 / 4.6 — флагман для сложного мышления
Opus — верхняя ступень линейки Claude. Версия 4.5 вышла в ноябре 2025 года и стала первым Opus, который можно назвать экономически разумным: цена упала на 66% по сравнению с Opus 4 (с $15/$75 до $5/$25 за миллион токенов). Opus 4.6 — актуальное обновление, добавившее расширенный вывод и улучшенный агентский режим. Обе версии поддерживают контекст до 1 миллиона токенов (в бете).
Opus — это модель для задач, где ошибка стоит дорого. Глубокий анализ документов, многошаговые рассуждения, сложный код, стратегическое планирование. Там, где Sonnet даёт «хороший» ответ, Opus чаще даёт «правильный».
Ключевые характеристики:
- Контекст: 200K токенов стандартно, до 1M в бете (для организаций уровня tier 4). При превышении 200K — повышенные тарифы
- Сильные стороны: лучшие результаты в линейке Claude по reasoning и коду (SWE-bench Verified 80,9% у Opus 4.5). Тонкое следование инструкциям, минимальные галлюцинации, сильная работа с русским языком
- Скорость: самая медленная в линейке. Для задач, требующих быстрого отклика, не подходит
- Экономика: Opus 4.5: $5 / $25 за миллион токенов. Opus 4.6 — аналогично, с множителем 1.1x при маршрутизации только через US. Кэширование: запись 1.25x, чтение 0.1x от базовой цены. Batch API — скидка 50%
- Модальность: текст, изображения, PDF на входе. Текст на выходе. Extended thinking — токены «размышлений» тарифицируются как выходные
Идеальные задачи:
- Глубокий анализ юридических и финансовых документов на сотни страниц
- Сложные агентские сценарии с цепочкой вызовов инструментов и принятием решений
- Рефакторинг крупных кодовых баз, архитектурные решения, code review
- Исследовательские задачи: анализ научных статей, синтез информации из десятков источников
- Генерация длинных структурированных текстов с высокими требованиями к качеству и следованию формату
Где споткнётся:
- Медленнее Sonnet и Haiku в 3-5 раз. Для чат-ботов на сайте — неоправданная роскошь
- При контексте выше 200K токенов включается premium pricing — стоимость удваивается
- Закрытая модель с обработкой данных на серверах Anthropic (или через AWS Bedrock / Google Vertex)
- Иногда «перестраховывается» в ответах из-за конституционных ограничений — может отказать там, где другие модели ответят
Мини-кейс:
Задача: Подготовить техническое задание на разработку микросервиса на основе переписки в Slack, описания API и существующей документации (суммарно ~300 страниц).
Промпт: «Вот переписка команды, спецификация API и текущая документация. Составь детальное ТЗ на микросервис авторизации: функциональные требования, нефункциональные требования, API-контракты, edge cases, зависимости от других сервисов. Отметь противоречия между перепиской и документацией.»
Ожидаемый результат: Структурированное ТЗ на 8-12 страниц с указанием конкретных мест, где требования команды расходятся с документацией. Opus не просто компилирует — он находит нестыковки.
Кому не подойдёт:
- Проектам с высоким объёмом простых запросов — бюджет не выдержит
- Сценариям, где критична скорость отклика менее секунды
- Задачам, требующим full self-hosted развёртывания
Между Opus и Sonnet часто стоит выбор «качество vs экономика». И для большинства production-задач победителем оказывается следующая модель.
Claude Sonnet 4.5 — рабочая лошадка, которая тянет за двоих
Sonnet 4.5 (вышел в сентябре 2025) — модель, на которой реально работает большинство продуктов, использующих Claude. Формально она «средний» уровень, но на практике по многим задачам показывает результаты, которые ещё год назад были уровнем флагмана. Именно Sonnet 3.5 в 2024 году стал переломным моментом для Anthropic — модель, после которой разработчики начали массово переключаться с GPT. Sonnet 4.5 продолжает эту линию.
Главное преимущество Sonnet — баланс. Он достаточно умён для сложных задач, достаточно быстр для интерактивных сценариев и достаточно дёшев для production-масштабов. Поддерживает контекст до 1 миллиона токенов (в бете), extended thinking и все инструментальные интеграции Claude.
Ключевые характеристики:
- Контекст: 200K стандартно, до 1M в бете. До 64K токенов на выходе
- Сильные стороны: кодинг на уровне, который год назад был флагманским. Отличное следование промптам. Сильная генерация текстов на русском. Extended thinking для задач, где нужно «подумать»
- Скорость: 3-5x быстрее Opus. Подходит для интерактивных приложений
- Экономика: $3 / $15 за миллион токенов. При длинном контексте (более 200K): $6 / $22,50. Batch API — $1,50 / $7,50. Кэширование работает так же, как у Opus
- Модальность: текст, изображения, PDF на входе. Текст на выходе
Идеальные задачи:
- Ежедневная разработка: написание кода, отладка, code review, генерация тестов
- Интеграция в продукты: чат-боты, ассистенты, саппорт-системы с нетривиальной логикой
- Работа с документами: суммаризация, извлечение данных, сравнение версий
- Генерация контента: статьи, описания, маркетинговые материалы
- RAG-пайплайны: достаточно умна для сложных вопросов по контексту, достаточно быстра для real-time
Где споткнётся:
- На экстремально сложных reasoning-задачах (многошаговая математика, формальная верификация) — Opus справится точнее
- Длинный контекст выше 200K удваивает цену — это может удивить при автоматических пайплайнах
- При очень жёстких требованиях к формату вывода иногда «творчески интерпретирует» инструкции — Opus следует им буквальнее
Мини-кейс:
Задача: Встроить Claude в систему технической поддержки для SaaS-продукта с базой знаний из 500 статей.
Промпт: «Ты — ассистент техподдержки продукта X. Вот релевантные статьи из базы знаний [RAG-контекст]. Ответь на вопрос клиента, используя только информацию из базы. Если ответа нет — честно скажи и предложи связаться с живым оператором. Тон — дружелюбный, но без фамильярности.»
Ожидаемый результат: Точный ответ с опорой на документацию, без выдуманных фич. Sonnet 4.5 хорошо держит роль и не «галлюцинирует» про функции, которых нет.
Кому не подойдёт:
- Задачам, где каждый цент на счету при миллионах запросов — Haiku будет в 3 раза дешевле
- Задачам, где нужна абсолютная точность рассуждений на уровне «ни одной ошибки» — для этого Opus
Claude Haiku 4.5 — скорость и экономия без стыда
Haiku — самая лёгкая модель в линейке, но «лёгкая» в 2026 году означает нечто другое, чем год назад. Haiku 4.5 по многим задачам превосходит ранние версии Sonnet. Это модель для задач, где нужен объём: тысячи запросов в минуту, классификация, маршрутизация, извлечение структурированных данных, быстрые ответы в чатах.
Ключевые характеристики:
- Контекст: 200K токенов. До 64K на выходе
- Сильные стороны: скорость (в разы быстрее Sonnet), низкая стоимость. По кодингу и structured reasoning — на удивление конкурентоспособна для своей ценовой категории
- Скорость: самая быстрая в линейке. Идеальна для real-time приложений
- Экономика: $1 / $5 за миллион токенов. Batch: $0,50 / $2,50. С кэшированием — ещё дешевле
- Модальность: текст, изображения на входе. Текст на выходе. Extended thinking поддерживается
Идеальные задачи:
- Классификация и маршрутизация запросов в multi-agent системах
- Массовая обработка: извлечение данных из тысяч документов, парсинг, нормализация
- Чат-боты для поддержки с типовыми вопросами и ответами из базы знаний
- Первая линия обработки в пайплайнах: Haiku фильтрует и направляет, Sonnet/Opus обрабатывают сложное
Где споткнётся:
- Сложные многошаговые рассуждения — ответ будет поверхностнее, чем у Sonnet
- Длинные креативные тексты — качество заметно ниже, формулировки более шаблонные
- Нюансы промпта: если инструкция сложная с десятком условий, Haiku чаще «проскакивает» отдельные пункты
Мини-кейс:
Задача: Классифицировать 10 000 обращений в саппорт по категориям и приоритету.
Промпт: «Определи категорию обращения (billing / technical / feature_request / bug) и приоритет (low / medium / high / critical). Верни JSON. Если обращение содержит угрозу уйти к конкуренту — приоритет high.»
Ожидаемый результат: Корректная классификация 95%+ тикетов. При batch-обработке со скидкой 50% — весь массив обойдётся в единицы долларов.
Кому не подойдёт:
- Задачам, где качество рассуждений критичнее стоимости
- Генерации контента, который будет читать живой человек и замечать «роботичность»
Claude Code — когда модель сама пишет, тестирует и коммитит
Claude Code — не отдельная модель, а CLI-инструмент, использующий Claude (преимущественно Sonnet и Opus) для агентского программирования прямо из терминала. Запущен в мае 2025 года, и за полгода стал одним из самых быстрорастущих AI-продуктов в истории. К началу 2026 года Claude Code обогнал GitHub Copilot по числу ежедневных установок в VS Code.
Ключевое отличие от обычного «спроси модель про код»: Claude Code работает в цикле. Он получает задачу, пишет код, запускает тесты, видит ошибки, исправляет их и повторяет — без вмешательства пользователя. Может работать с файловой системой, читать логи, вызывать API. Под капотом — MCP (Model Context Protocol), открытый стандарт от Anthropic для подключения инструментов к LLM.
Сильные стороны:
- Итеративная работа: не просто генерирует код, а пишет-тестирует-исправляет в цикле
- Понимание контекста проекта: читает файлы, конфиги, тесты, документацию
- MCP-интеграции: подключается к Git, базам данных, API, Slack, Jira
- Работает из терминала — встраивается в существующий workflow разработчика
Где споткнётся:
- Требует доверия: модель исполняет код на вашей машине. Нужен контроль и ревью
- Не заменяет разработчика — заменяет рутину. Архитектурные решения всё ещё за человеком
- Стоимость: при длинных сессиях с Opus «под капотом» счёт растёт быстро
- Работает лучше с хорошим тестовым покрытием — если тестов нет, цикл «написал-проверил» не работает
Claude Code — продукт, который лучше всего объясняет, почему Anthropic растёт так быстро. Это не просто API с хорошей документацией — это инструмент, встроенный в ежедневную работу разработчика. И когда инженер привыкает, что его рабочий инструмент работает на Claude, переключаться на что-то другое становится всё сложнее. Anthropic, похоже, понимает это лучше конкурентов.
Следующий гигант в нашем обзоре подошёл к рынку LLM с другой стороны — со стороны поисковой системы, облачной платформы и мобильной операционной системы одновременно.
Google — Gemini и сила экосистемы
Google подошёл к рынку LLM не как стартап, а как компания, у которой уже есть поисковая система, облако, мобильная ОС, браузер, почта и пакет офисных приложений с миллиардами пользователей. Преимущество очевидно: модель можно встроить сразу везде. Проблема — тоже: когда у вас столько legacy-продуктов, двигаться быстро тяжелее, чем стартапу с одним API.
Первые поколения Gemini (1.0, 1.5) воспринимались рынком как «неплохо, но не лидер». Google был крепким середнячком — сильный в мультимодальности, но уступающий по reasoning и кодингу. Gemini 2.5 Pro исправил ситуацию частично, продержавшись на вершине LMArena больше полугода. А Gemini 3, вышедший в ноябре 2025 года, изменил всё. Впервые за историю гонки LLM аналитики Artificial Analysis назвали модель Google «самой интеллектуальной в мире». Надолго ли — другой вопрос, но факт остаётся фактом: Google вернулся в борьбу за первое место.
Линейка Gemini 3 состоит из трёх основных моделей: Pro (максимальные возможности), Flash (скорость при сопоставимом качестве) и Deep Think (режим углублённого мышления для Pro). Плюс остаются актуальные Gemini 2.5 Pro и Flash для тех, кому важна стабильность — Gemini 3 пока в статусе preview.
Gemini 3 Pro — триллион параметров и миллион токенов контекста
Gemini 3 Pro, выпущенный 18 ноября 2025 года, — флагман Google, построенный на архитектуре sparse Mixture-of-Experts с триллионным масштабом параметров (из которых при каждом запросе активируется лишь часть). Модель стала первой в рейтинге LMArena по всем основным трекам: текст, vision, кодинг и веб-разработка. На GPQA Diamond — 91,9%, на AIME 2025 — 100% с code execution, на SWE-Bench Verified — 76,2%.
Главный козырь Pro — контекстное окно в 1 миллион токенов. Это не маркетинговая цифра «до которой можно дотянуться в теории», а рабочий режим: загрузить целый репозиторий, книгу или часовое видео и работать с ним в одном запросе. Второй козырь — нативная мультимодальность: текст, изображения, видео, аудио и PDF на входе и выходе.
Ключевые характеристики:
- Контекст: 1M токенов на входе, 64K на выходе. Полноценная работа с длинным контекстом — не просто «окно есть», а «модель помнит»
- Сильные стороны: лидер бенчмарков по reasoning и мультимодальности. ScreenSpot-Pro (компьютерное зрение для UI) — скачок с 11,4% до 72,7%. Нативная обработка видео. Deep Think режим для экстремально сложных задач
- Скорость: умеренная для стандартных запросов, заметно медленнее в Deep Think. В целом сопоставима с GPT-5.2 Thinking
- Экономика: $2 / $12 за миллион токенов (до 200K контекста). При длинном контексте (выше 200K): $4 / $18. Free tier доступен в Google AI Studio. Deep Think — пока только для подписчиков Google AI Ultra ($250/мес)
- Модальность: текст, изображения, видео, аудио, PDF — на входе и выходе. Самая широкая мультимодальная поддержка среди всех LLM
Идеальные задачи:
- Анализ видеоконтента: разбор записей совещаний, лекций, видеонаблюдения — нативно, без предварительной транскрипции
- Работа с очень большими документами и кодовыми базами (1M токенов = ~750 000 слов в одном контексте)
- Мультимодальные задачи: анализ дашбордов с графиками, скриншотов интерфейсов, технических диаграмм
- Научное reasoning: Deep Think показывает 45,1% на ARC-AGI-2 — лучший результат среди всех моделей на задачах абстрактного визуального мышления
- Аgentic workflows через Google Antigravity — новую IDE от Google для агентской разработки
Где споткнётся:
- Preview-статус: модель ещё не стабилизирована для production. Цены, лимиты и поведение могут меняться
- Длинный контекст дорожает вдвое при превышении 200K — для пайплайнов с большими документами это важно учитывать в бюджете
- Deep Think доступен только в дорогой подписке ($250/мес) — конкуренты предлагают reasoning через API без отдельного тарифа
- По кодингу (SWE-Bench 76,2%) уступает Claude Opus 4.5 (80,9%) и GPT-5.2-Codex (56,4% на более сложном SWE-Bench Pro)
- Привязка к экосистеме Google: Vertex AI, Google Cloud, AI Studio — для компаний на AWS или Azure это дополнительный вектор интеграции
Мини-кейс:
Задача: Проанализировать 45-минутную запись встречи продуктовой команды и составить протокол с решениями, ответственными и дедлайнами.
Промпт: «Вот видеозапись встречи. Составь структурированный протокол: обсуждённые темы, принятые решения, назначенные ответственные, дедлайны. Отметь спорные моменты, по которым консенсус не достигнут.»
Ожидаемый результат: Протокол с таймкодами, разделённый по темам. Gemini 3 Pro обрабатывает видео нативно — без предварительной транскрипции и потери контекста интонаций и визуальных материалов.
Кому не подойдёт:
- Проектам, которым нужен стабильный production API прямо сейчас — пока preview
- Командам, которые уже глубоко интегрированы в AWS/Azure и не хотят добавлять Google Cloud
- Задачам, где бюджет критичен, а контексты длинные — ценник за длинный контекст чувствительный
Gemini 3 Flash — скорость, которая не жертвует умом
Flash — модель, ради которой Google полюбили разработчики. Gemini 3 Flash, выпущенный 17 декабря 2025 года, стал заменой и 2.5 Flash, и 2.5 Pro одновременно: он превосходит предыдущий Pro по большинству бенчмарков, работая при этом в 3 раза быстрее и стоя в 4 раза дешевле. На API Google обрабатывает более триллиона токенов в день через Flash-модели — это самая массовая LLM по объёму inference в мире.
Flash 3 — лучший пример тренда, когда «маленькая» модель нового поколения бьёт «большую» предыдущего. Для большинства практических задач разница между Flash 3 и Pro 3 минимальна, а разница в цене и скорости — огромна.
Ключевые характеристики:
- Контекст: 1M токенов на входе, 64K на выходе — аналогично Pro
- Сильные стороны: GPQA Diamond 90,4%, SWE-bench Verified 78% (выше Pro!). Reasoning на уровне Pro, скорость — на уровне чат-бота. Сильнейшая визуальная и пространственная обработка
- Скорость: 3x быстрее Pro. Оптимизирован для интерактивных приложений и агентских циклов
- Экономика: $0,50 / $3 за миллион токенов. С кэшированием — до 90% экономии. Batch API — скидка 50%. Бесплатный доступ в Gemini app для потребителей
- Модальность: текст, изображения, аудио, видео, PDF на входе. Текст на выходе. Настраиваемые уровни reasoning (minimal, low, medium, high)
Идеальные задачи:
- Агентские workflow с быстрыми итерациями — Flash думает на уровне Pro, но отвечает значительно быстрее
- Кодинг и отладка: 78% на SWE-bench — это уровень фронтира конца 2025 года
- Мультимодальная обработка на потоке: анализ изображений, видео, аудио в реальном времени
- High-volume API: триллион токенов в день — Flash спроектирован для масштаба
- Чат-боты и интерактивные приложения, где нужен умный ответ за доли секунды
Где споткнётся:
- На задачах, требующих Deep Think (абстрактное рассуждение, сложная математика) — это умеет только Pro
- Preview-статус, как и Pro — production pricing может измениться
- По глубине рассуждений на экстремально сложных задачах уступает Claude Opus и GPT-5.2 Pro
Мини-кейс:
Задача: Построить агента для мониторинга конкурентов, который каждый час проверяет 50 веб-страниц и присылает дайджест изменений.
Промпт: «Сравни текущее содержимое страницы с предыдущей версией. Определи: изменения в ценах, новые продукты, изменения в позиционировании. Игнорируй технические правки. Если изменение значимое — добавь в дайджест с пометкой срочности.»
Ожидаемый результат: Структурированный JSON с изменениями. При 50 страницах каждый час — это 1200 запросов в день. При средней длине 2K токенов на входе и 500 на выходе — меньше $5 в день на Flash.
Кому не подойдёт:
- Задачам, требующим максимального качества reasoning без компромиссов
- Проектам с жёсткими требованиями к стабильности API (до выхода из preview)
При $0,50 за миллион входных токенов Gemini 3 Flash — одно из лучших ценовых предложений на рынке LLM. Модель, которая бьёт прошлогодний фронтир за цену, которая раньше ассоциировалась с моделями категории «попроще». Google, возможно, впервые в этой гонке оказался в позиции ценового агрессора — и конкурентам это явно не нравится.
Gemini 2.5 Pro / Flash — стабильная альтернатива
Для тех, кому нужен production-ready API без пометки «preview», линейка 2.5 остаётся актуальной. Gemini 2.5 Pro — $1,25 / $10 за миллион токенов (до 200K), всё тот же миллион токенов контекста, проверенная стабильность. Gemini 2.5 Flash — $0,15 / $0,60 (до 200K), одна из самых дешёвых моделей для потоковой обработки.
Обе модели уходят в тень Gemini 3, но для production-систем, где «работает — не трогай» важнее «у нас новейшая модель», это разумный выбор. Google обещает стабильные snapshot-версии с фиксированным поведением — в отличие от «latest» указателей, которые могут измениться в любой момент.
Экосистемное преимущество: почему это важно
Главное отличие Google от Anthropic и OpenAI — не конкретная модель, а инфраструктура. Gemini встроен в Google Workspace (Docs, Sheets, Gmail), Android, Chrome, Google Cloud, YouTube. Vertex AI Model Optimizer автоматически маршрутизирует запросы между Pro и Flash в зависимости от сложности — без ручной логики на стороне разработчика. Grounding with Google Search позволяет модели искать актуальную информацию прямо в процессе генерации.
Для компаний, уже живущих в экосистеме Google, добавить Gemini — это не «внедрить новый AI-инструмент», а «включить ещё одну галочку в настройках». Для всех остальных это аргумент послабее, но всё равно заслуживающий внимания: интеграция с поиском, картами, YouTube, Gmail и Calendar — это не просто «фичи», а уникальные источники данных, которых у конкурентов нет.
А теперь переходим к компании, которая поставила перед собой амбициозную цель — сделать фронтирные LLM доступными всем. И в процессе разозлила половину Кремниевой долины.
Meta — Llama и философия «открытости с оговорками»
Meta — единственная из BigTech-компаний, которая поставила на открытые модели как стратегию. Логика Цукерберга: если LLM станут инфраструктурой (как Linux для серверов), лучше быть тем, кто эту инфраструктуру создаёт, чем зависеть от чужого API. Llama — самая скачиваемая открытая модель в мире, её используют как основу для дообучения, исследований и коммерческих продуктов. Cursor, Perplexity, десятки стартапов — все так или иначе тестировали Llama как базу.
Но путь Llama 4, вышедшей в апреле 2025 года, оказался не таким триумфальным, как планировалось. Впечатляющие цифры на бумаге столкнулись с реальностью: скандал с бенчмарками, разочарование пользователей и публичное признание, что результаты были «немного подкручены». История Llama 4 — это одновременно и прорыв в архитектуре, и предупреждение о том, что бенчмарки сами по себе ничего не гарантируют.
Llama 4 Scout — 10 миллионов токенов контекста и один GPU
Scout — «лёгкая» модель семейства Llama 4 с рекордным контекстным окном в 10 миллионов токенов. Для сравнения: это примерно 15 000 страниц текста. Архитектура MoE: 109 миллиардов параметров общих, 17 миллиардов активных при каждом запросе, 16 экспертов. Обучена на 40 триллионах токенов. При квантизации int4 помещается на один NVIDIA H100 — это делает её доступной для self-hosted развёртывания без кластера GPU.
Ключевые характеристики:
- Контекст: 10M токенов — рекорд среди всех LLM. На практике провайдеры пока ограничивают до 128-512K, полные 10M доступны при self-hosted развёртывании
- Сильные стороны: нативная мультимодальность (early fusion — текст и изображения обучаются совместно, не через отдельный vision-энкодер). Конкурентоспособна с Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1 по бенчмаркам Meta
- Скорость: 17B активных параметров — быстрая при inference. На одном H100 работает с приемлемой латентностью
- Экономика: бесплатна для скачивания. Через API-провайдеров (DeepInfra, Lambda, Together AI) — от $0,10-0,30 за миллион токенов. Self-hosted: стоимость железа + электричество
- Модальность: текст и изображения на входе, текст на выходе. Image grounding — умеет привязывать ответы к регионам изображения
Идеальные задачи:
- Обработка очень больших документов: вся документация проекта, весь кодовый репозиторий, многотомные архивы
- RAG на больших корпусах без разбиения на чанки — контекст вмещает целую базу знаний
- Self-hosted сценарии для компаний с требованиями data residency (банки, госструктуры, медицина)
- Fine-tuning под специализированные задачи — LoRA-адаптеры работают при менее 20 ГБ VRAM
- Экспериментирование и прототипирование — бесплатные веса снижают порог входа до нуля
Где споткнётся:
- 10M контекста — технически существует, но на практике нестабилен. Пользователи сообщают о деградации качества, вылетах и потере контекста на сложных задачах при длинных входах
- По кодингу и reasoning уступает закрытым моделям сопоставимой «весовой категории» (GPT-5 mini, Claude Haiku 4.5, Gemini 3 Flash)
- Лицензия Llama 4 Community License — не полностью открытая. Коммерческое использование ограничено для продуктов с более чем 700 млн месячных пользователей (привет, конкуренты Meta)
- Self-hosted deployment требует инженерной экспертизы: загрузка весов (200+ ГБ), настройка KV-кэша для длинного контекста, мониторинг
- Cutoff данных — август 2024. Модель не знает о событиях последних полутора лет
Мини-кейс:
Задача: Развернуть внутренний ассистент для юридической компании, который работает с корпусом NDA и договоров (2000+ документов) и отвечает на вопросы юристов.
Промпт: «На основе загруженного корпуса договоров найди все случаи, где non-compete clause превышает 24 месяца. Для каждого укажи название договора, номер пункта и конкретную формулировку.»
Ожидаемый результат: При self-hosted deployment с длинным контекстом — можно загрузить сотни документов одним запросом без RAG-пайплайна. Но стабильность результата нужно тестировать: при 10M+ токенов Scout не всегда уверенно держит фокус.
Кому не подойдёт:
- Тем, кто ждёт «plug and play» через API — без тюнинга и тестирования качество уступает закрытым конкурентам
- Задачам, где нужна максимальная точность reasoning и следования инструкциям
- Проектам без инженерных ресурсов для self-hosting
Llama 4 Maverick — больше экспертов, меньше честности с бенчмарками
Maverick — флагман семейства Llama 4: 400 миллиардов параметров, 128 экспертов, 17 миллиардов активных. Помещается на один DGX H100 host. Контекст — 1 миллион токенов (512K через большинство API-провайдеров). Meta оценивает стоимость inference в $0,19-0,49 за миллион токенов — это в 10-20 раз дешевле GPT-4o на момент выхода.
На бумаге Maverick бил GPT-4o и Gemini 2.0 Flash по бенчмаркам. На практике — всё сложнее.
Ключевые характеристики:
- Контекст: 1M токенов (512K через API-провайдеров)
- Сильные стороны: MMLU-Pro 80,5%, GPQA Diamond 69,8%. 128 экспертов дают широкую специализацию. Стоимость inference одна из самых низких для модели такого масштаба
- Скорость: 17B активных параметров — быстрая inference при MoE. Но загрузка полных весов (200+ ГБ) в память — отдельная задача
- Экономика: бесплатна для скачивания. API: $0,19-0,49 за миллион токенов (оценка Meta для distributed inference). Через провайдеров — цены варьируются
- Модальность: текст и изображения на входе, текст на выходе. Нативная мультимодальность
Идеальные задачи:
- Замена дорогих проприетарных API для задач среднего уровня сложности: суммаризация, классификация, извлечение данных
- Fine-tuning под домен: 128 экспертов дают хорошую базу для специализации
- Мультимодальный анализ при ограниченном бюджете
- Интеграция в продукты Meta: WhatsApp, Messenger, Instagram Direct — Maverick «под капотом» Meta AI
Где споткнётся (и уже споткнулась):
- Скандал с бенчмарками. Meta отправила на LMArena «экспериментальную» версию Maverick, оптимизированную для чат-предпочтений, — не ту, которая доступна публично. Публичная версия упала до 32-35 места в рейтинге. Янн ЛеКун, уходящий главный AI-учёный Meta, позднее подтвердил: «результаты были немного подкручены» и «использовались разные модели для разных бенчмарков»
- Реальная производительность в кодинге — пользователи сообщают, что Maverick иногда уступает даже меньшим моделям (Qwen-QwQ-32B, Gemma 3 27B)
- Function calling нестабилен по сравнению с предшественником Llama 3.3 70B
- Генерирует слишком общие ответы, плохо следует сложным инструкциям
- Цукерберг «потерял уверенность во всех причастных» к запуску, GenAI-подразделение Meta было реструктурировано
Мини-кейс:
Задача: Автоматизировать ответы на отзывы клиентов в e-commerce (5000+ отзывов в день).
Промпт: «Вот отзыв клиента. Определи тональность, ключевую проблему, сгенерируй персонализированный ответ от лица бренда. Тон — эмпатичный, конструктивный. Если отзыв содержит конкретный дефект товара — добавь предложение замены.»
Ожидаемый результат: Для задач среднего уровня (классификация + генерация короткого текста) Maverick через API-провайдер будет стоить в 10-30 раз дешевле GPT-5.2. Качество — приемлемое, но без wow-эффекта.
Кому не подойдёт:
- Тем, кто ищет замену Claude или GPT по качеству — Maverick конкурирует в другой лиге
- Задачам с высокими требованиями к reliability function calling
- Тем, кому важна репутация поставщика модели после бенчмарк-скандала
Llama 4 Behemoth — учитель в тени
Behemoth — модель-учитель с 2 триллионами параметров и 288 миллиардами активных. Meta использует её для дистилляции знаний в Scout и Maverick. По заявлениям Meta, Behemoth превосходит GPT-4.5, Claude Sonnet 3.7 и Gemini 2.0 Pro на STEM-бенчмарках. Публично не выпущена и, вероятно, не будет — это инструмент для создания других моделей, а не продукт.
Для пользователя Behemoth интересна косвенно: качество Scout и Maverick частично определяется тем, насколько хорошо прошла дистилляция из этого 2T-гиганта. Если Meta доработает процесс — следующая итерация Llama может быть значительно сильнее.
Честный разговор о Llama 4
Llama 4 — важный релиз, но его нужно воспринимать с поправкой на контекст. Бенчмарк-скандал и разочаровывающие реальные результаты не отменяют достижений архитектуры: MoE с нативной мультимодальностью, 10M контекст, работа на одном GPU. Это фундамент, на котором сообщество строит свои решения — десятки fine-tuned версий, оптимизации, специализированные варианты.
По данным Menlo Ventures, доля open-source моделей в production-нагрузках составляет около 13% и не растёт. Llama лидирует в этом сегменте, но сам сегмент невелик. Причина простая: развернуть и поддерживать open-source модель в production — это не «скачать и запустить», а отдельный инженерный проект. Для компаний с GPU-инфраструктурой и ML-командой Llama — отличный выбор. Для остальных — закрытые API пока проще, надёжнее и часто дешевле с учётом total cost of ownership.
Следующая компания в нашем обзоре тоже делает ставку на открытость — но пришла из Европы и играет по своим правилам.
Опишите проблему, и специалист поможет с настройкой, исправлением ошибки или доработкой сайта. Подберём понятный план работ без лишней переписки.
Пока нет других ответов. Будьте первым, кто поможет автору.
Ответить на вопрос




