Современные LLM-модели в 2026 году: кто делает, чем отличаются и какую выбрать

1 ответ

Внимание, лонгрид! Актуально на: февраль 2026 года. Рынок LLM меняется быстро — отдельные характеристики и цены могут устареть к моменту прочтения.

Два года назад выбор языковой модели укладывался в одно решение: ChatGPT или ChatGPT. Сегодня на рынке десятки LLM от полутора десятков компаний, и каждая вторая позиционирует себя как «лучшая в своём классе». Маркетинговые бенчмарки обещают сверхразум, а на практике модель может споткнуться о запрос с тремя условиями. Эта статья — попытка навести порядок: разобрать ключевых разработчиков, их модели и главное — помочь выбрать ту, которая решит вашу конкретную задачу, а не ту, у которой красивее график в презентации.

Мы пройдёмся по всем основным игрокам — от OpenAI и Anthropic до DeepSeek и российского GigaChat. Для каждой модели разберём сильные стороны, ограничения, реальные кейсы и ситуации, где она не справится. В конце — сравнительная таблица и практический чек-лист для тех, кто выбирает LLM под продукт или рабочий процесс.

Рынок LLM в 2026 году: что изменилось и куда движется

Глобальный рынок больших языковых моделей по разным оценкам достиг 8-10 миллиардов долларов к началу 2026 года. Расходы компаний на API языковых моделей выросли с 3,5 млрд долларов в конце 2024 года до 8,4 млрд к середине 2025-го — и продолжают расти. Около 78% крупных организаций уже используют ИИ хотя бы в одном бизнес-процессе. При этом 95% внедрений, по данным MIT, не оправдывают ожиданий. Модели стали мощнее, но разрыв между «попробовать в чатике» и «внедрить в продукт» никуда не делся.

Закрытые vs open-source: не всё так просто

На первый взгляд разделение простое. Закрытые модели (GPT, Claude, Gemini) — мощнее, но работают только через API провайдера: данные уходят на чужие серверы, вы привязаны к ценовой политике и условиям обслуживания. Open-source (Llama, Mistral, DeepSeek, Qwen) — можно развернуть у себя, дообучить, заглянуть под капот.

На практике граница размылась. Meta выпускает Llama с «открытыми весами», но с лицензионными ограничениями на коммерческое использование свыше 700 млн пользователей. DeepSeek открывает архитектуру, но запустить модель на своём железе — это отдельный бюджет на GPU и отдельный инженер для поддержки. По данным Menlo Ventures, доля open-source моделей в продакшен-нагрузках составляет около 13% — и пока не растёт. Корпорации выбирают предсказуемость закрытых API, а энтузиасты — гибкость открытых весов. Оба подхода имеют смысл, и «правильного» ответа нет.

Что реально имеет значение при выборе

Маркетинг LLM-провайдеров крутится вокруг бенчмарков: MMLU, HumanEval, GPQA. Цифры в таблицах красивые, но при выборе модели под реальную задачу они играют роль примерно как максимальная скорость автомобиля — теоретически важна, практически вы в неё не упираетесь. Вот параметры, которые действительно влияют на результат.

Контекстное окно — сколько текста модель может обработать за один запрос. Разброс огромный: от 128K токенов у старых моделей до 10 миллионов у Llama 4 Scout. Миллион токенов — это примерно 750 000 слов, или около 1500 страниц. Звучит впечатляюще, но большое контекстное окно не означает, что модель одинаково внимательна ко всем частям текста. Загрузить в неё полную документацию проекта можно, а вот найдёт ли она нужное место — зависит от конкретной реализации.

Скорость и латентность. Для интерактивного чат-бота на сайте критична скорость первого токена — пользователь не будет ждать 5 секунд. Для пакетной обработки тысяч документов важнее пропускная способность. Reasoning-модели (o1, o3, DeepSeek-R1) думают дольше, но и ответы дают точнее на сложных задачах. Платить за «размышления» модели, которая отвечает на вопрос «какой у вас график работы» — всё равно что нанимать архитектора для замены лампочки.

Стоимость API. Диапазон — от 0,07 доллара за миллион токенов (DeepSeek с кэшированием) до 75 долларов (GPT-5 в максимальной конфигурации). Разница в тысячу раз между самым дешёвым и самым дорогим вариантом — это не опечатка, а реальность рынка. Для прототипа стоимость не важна, для продукта с миллионом запросов в день — это строка в P&L, которая может определить судьбу проекта.

Мультимодальность. Большинство современных LLM умеют работать не только с текстом. GPT-4o принимает изображения, аудио и видео. Gemini обрабатывает видео нативно. Claude анализирует PDF и скриншоты. Но «умеет» и «делает хорошо» — разные вещи. Распознавание текста на фото одна модель делает идеально, а другая путает кириллицу с латиницей. Мультимодальность — это не чекбокс в таблице сравнения, а спектр качества, который нужно тестировать под свой кейс.

Тренды, которые определяют рынок прямо сейчас

Агентность. 2025 год стал годом AI-агентов — систем, где LLM не просто отвечает на вопрос, а планирует последовательность действий, вызывает внешние инструменты, обрабатывает ошибки и итеративно улучшает результат. Anthropic задал темп, выпустив MCP (Model Context Protocol) — открытый стандарт для подключения инструментов к моделям. Теперь модель может сама запустить код, проверить результат, исправить ошибку и запустить снова. Claude Code, работающий по этому принципу, стал одним из самых популярных инструментов разработчиков.

Reasoning-модели. Отдельный класс LLM, которые «думают» перед ответом: генерируют цепочку рассуждений, проверяют себя и только потом выдают финальный результат. OpenAI начала с o1, сейчас линейка расширилась до o3 и o4-mini. DeepSeek-R1 показал, что reasoning можно делать и в open-source. Такие модели медленнее и дороже, но на задачах с математикой, логикой и сложным кодом разница в качестве ощутимая.

Mixture of Experts (MoE). Архитектура, при которой модель имеет огромное количество параметров, но при каждом запросе активирует только малую часть из них. Результат — качество большой модели при скорости и стоимости маленькой. Mixtral от Mistral, DeepSeek-V3 с его 671B параметров (из которых активны 37B) и Llama 4 — все используют этот подход. MoE перестала быть экзотикой и стала стандартом для экономичных моделей.

Длинный контекст. Гонка контекстных окон продолжается: Llama 4 Scout предлагает 10 миллионов токенов, Gemini 3 Pro — миллион, GPT-5.2 расширился до 400K. Длинный контекст постепенно вытесняет классический RAG для задач, где нужно работать с большим объёмом документов. Но «длинный контекст» и «хорошая работа с длинным контекстом» — по-прежнему разные вещи, и каждую модель стоит проверять на needle-in-a-haystack тестах перед принятием решения.

А теперь перейдём к тем, кто всё это создаёт. Начнём с компании, которая запустила всю эту гонку — OpenAI.

OpenAI — компания, которая начала эту гонку и не собирается с трассы

OpenAI не нуждается в представлении, но нуждается в систематизации. За последние полтора года компания выпустила столько моделей, что даже их собственные сотрудники, вероятно, сверяются с документацией. На февраль 2026 года актуальная линейка включает флагман GPT-5.2 в трёх вариантах, reasoning-модели серии o, специализированный GPT-5.2-Codex для кода и ряд вспомогательных моделей. Шесть старых моделей, включая GPT-4o, уходят на пенсию 13 февраля 2026 года — их использовало менее 0,1% пользователей ChatGPT.

Стратегия OpenAI — фронтирная мощность плюс экосистема. ChatGPT остаётся самым массовым AI-продуктом с примерно 500 миллионами пользователей в месяц. API — основной канал для разработчиков. Подписка — от бесплатного тарифа до Pro за 200 долларов в месяц. Всё это создаёт ощущение, что OpenAI — это «стандарт отрасли». Впрочем, в энтерпрайзе их доля упала до 25%, уступив первое место Anthropic. Массовость не всегда означает лидерство в качестве.

GPT-5.2 — флагман для всего сразу

GPT-5.2, выпущенный 11 декабря 2025 года, — текущий флагман OpenAI. Компания позиционирует его как модель для «сложных реальных задач от начала до конца». Доступен в трёх режимах: Instant (быстрые ответы без глубоких рассуждений), Thinking (с цепочкой рассуждений, настраиваемой глубиной от low до xhigh) и Pro (максимальные вычислительные ресурсы на reasoning, доступен только через Pro-подписку или API).

Ключевые характеристики:

Контекст: 400K токенов на входе, до 128K токенов на выходе. Через endpoint /compact эффективное окно можно расширить ещё дальше для длинных агентских сессий
Сильные стороны: лидер бенчмарков по reasoning (GPQA Diamond ~93%, AIME 2025 — 100%), сильный в кодинге (SWE-Bench Pro 55,6%), хорошая работа с длинным контекстом до 256K токенов, надёжный tool-calling
Скорость: Instant — быстро, Thinking — умеренно, Pro — может обрабатывать запрос несколько минут
Экономика: API: $1,75 / $14 за миллион токенов (вход/выход). Pro-версия: $21 / $168. Кэшированный вход — $0,175. Подписка ChatGPT Plus — $20/мес, Pro — $200/мес
Модальность: текст и изображения на входе, текст на выходе. Лучшая модель OpenAI по распознаванию графиков, интерфейсов и диаграмм

Идеальные задачи:

Агентские workflow: многошаговые задачи с вызовом инструментов, анализом данных и генерацией отчётов
Анализ больших документов — контракты, спецификации, кодовые базы целиком в одном контексте
Сложные математические и научные задачи, где нужна цепочка рассуждений
Мультимодальный анализ: дашборды, скриншоты продукта, технические диаграммы
Корпоративная автоматизация: генерация презентаций, обработка таблиц, подготовка отчётов

Где споткнётся:

Цена. При потоковой обработке больших объёмов данных счёт растёт быстро — особенно в режиме Pro ($168 за миллион выходных токенов)
Для простых задач модель избыточна и медленна — классификация, маршрутизация запросов, ответы из FAQ быстрее и дешевле делать на mini-моделях
Закрытая модель: данные проходят через серверы OpenAI, что исключает использование в сценариях с жёсткими требованиями к data residency
По работе с русским языком — уступает некоторым конкурентам (Claude, GigaChat) в понимании нюансов и стилистики

Мини-кейс:

Задача: Проанализировать 150-страничный технический договор на английском и составить список рисков с привязкой к конкретным пунктам.

Промпт: «Вот договор на разработку ПО. Найди все пункты, содержащие финансовые риски для заказчика: штрафы, неустойки, ограничения ответственности. Для каждого укажи номер пункта, суть риска и рекомендацию.»

Ожидаемый результат: Структурированная таблица с 15-25 рисковыми пунктами. GPT-5.2 в режиме Thinking последовательно пройдёт по документу, не потеряв контекст на 150 страницах.

Кому не подойдёт:

Командам с ограниченным бюджетом на API, которые обрабатывают сотни тысяч запросов в день
Проектам, требующим self-hosted развёртывания и полного контроля над данными
Задачам, где нужна скорость отклика ниже 200 мс (интерактивные чат-боты на сайтах)

GPT-5.2 — как швейцарский армейский нож с электроприводом: умеет почти всё, но для каждой конкретной задачи найдётся инструмент дешевле, быстрее или точнее. Его главное преимущество — универсальность и экосистема, в которую он встроен.

Серия o — когда модели научились думать

Отдельная линейка reasoning-моделей OpenAI, построенная на идее inference-time scaling: вместо того чтобы делать модель больше, ей дают больше времени на обдумывание. Модель генерирует внутреннюю цепочку рассуждений, проверяет себя и выдаёт ответ. Пользователь видит только финальный результат, но платит за все «токены размышлений».

На февраль 2026 года актуальны o3 и o4-mini. Модель o1, с которой началась линейка, уже уходит в тень.

Ключевые характеристики:

Контекст: 200K токенов у обеих моделей, до 100K на выходе
Сильные стороны: математика, формальная логика, сложный код, научные задачи. o3 показывает результаты на уровне лучших специалистов в GPQA и AIME
Скорость: медленнее обычных моделей в 3-10 раз (зависит от сложности задачи). Модель «думает» — и это видно по таймингам
Экономика: o3: $2 / $8 за миллион токенов. o4-mini: $1,10 / $4,40. Плюс вы платите за скрытые reasoning-токены, которых может быть в 5-20 раз больше видимого ответа
Модальность: текст и изображения на входе, текст на выходе. o4-mini особенно хорош в визуальных задачах при своей цене

Идеальные задачи:

Задачи, где «обычная» модель регулярно ошибается: многошаговая математика, задачи с ловушками, формальная верификация
Сложный рефакторинг и отладка кода, где нужно проследить логику через десятки файлов
Научный анализ: разбор статей, проверка выводов, поиск ошибок в рассуждениях
Задачи, где точность важнее скорости: юридический анализ, медицинская аналитика, финансовое моделирование

Где споткнётся:

Простые задачи. Модель всё равно «думает», даже если ответ очевиден — вы платите за размышления над вопросом «2+2»
Непредсказуемая стоимость. Количество reasoning-токенов зависит от задачи: один запрос может стоить $0,01, а следующий — $2
Не подходит для потоковой обработки и real-time приложений из-за высокой латентности

Мини-кейс:

Задача: Найти логическую ошибку в SQL-запросе, который возвращает неверные данные при определённых условиях.

Промпт: «Вот SQL-запрос для расчёта конверсии по когортам. При пустых когортах он выдаёт деление на ноль вместо null. Найди причину и предложи исправление, объясни логику.»

Ожидаемый результат: o3 пошагово разберёт логику JOIN-ов и агрегаций, найдёт edge case с пустой группой и предложит корректный вариант с NULLIF или CASE.

Кому не подойдёт:

Чат-ботам для поддержки клиентов — слишком медленно и дорого
Генерации контента и текстов — обычные модели справляются не хуже, но в разы быстрее

Важный тренд: с выходом GPT-5.2, который получил встроенный reasoning (параметр reasoning.effort), отдельная серия o постепенно теряет смысл. OpenAI сама говорит о «конвергенции» — reasoning, tool-calling и генерация объединяются в одну модель. Вполне вероятно, что o-серия со временем останется только как edge-вариант для экстремально сложных задач.

GPT-5.2-Codex — когда код пишется сессиями, а не запросами

Выпущен 14 января 2026 года — специализированная версия GPT-5.2, заточенная под агентское программирование. Ключевое отличие от базового GPT-5.2: context compaction — модель умеет сжимать накопленный контекст, сохраняя важное и отбрасывая несущественное. Это позволяет вести многочасовые сессии разработки без потери нити.

Ключевые характеристики:

Контекст: 400K токенов с компактизацией — эффективно работает как динамическое окно для длинных сессий
Сильные стороны: SWE-Bench Pro 56,4%, Terminal-Bench 2.0 64,0%. Устойчив к «потере нити» при длинных сессиях, умеет восстанавливаться после неудачных попыток
Скорость: умеренная, оптимизирована под фоновое выполнение (background mode для длительных задач)
Экономика: $1,75 / $14 за миллион токенов — аналогично базовому GPT-5.2

Идеальные задачи:

Крупные рефакторинги: миграция фреймворков, обновление версий, переписывание модулей
Разработка фич, затрагивающих десятки файлов: модель держит в голове архитектуру проекта
Аудит безопасности и поиск уязвимостей — OpenAI отдельно выделяет рост кибербезопасных возможностей
Отладка сложных багов, где нужно итеративно пробовать подходы и менять стратегию

Где споткнётся:

Для мелких правок и одноразовых вопросов по коду — избыточен, обычный GPT-5.2 или o4-mini справятся
Не подходит для задач вне программирования — это узкоспециализированный инструмент
Работает только через Responses API, не через привычный Chat Completions

Мини-кейс:

Задача: Мигрировать React-приложение с class components на functional components с hooks по всему проекту (80+ компонентов).

Промпт: «Вот репозиторий. Переведи все class components на functional с hooks, сохрани логику state management, обнови тесты. Начни с модуля авторизации, потом dashboard, потом settings.»

Ожидаемый результат: Codex последовательно обработает модули, помнит решения, принятые на предыдущих шагах, и поддерживает консистентность стиля кода по всему проекту.

Кому не подойдёт:

Тем, кто пишет код быстрыми одноразовыми запросами — для этого есть o4-mini и базовый GPT-5.2
Тем, кто работает не с кодом

GPT-5 mini и nano — бюджетная линейка для потока

Для полноты картины: у OpenAI есть «лёгкие» модели — GPT-5 mini ($0,25 / $2 за миллион токенов) и GPT-5 nano (ещё дешевле). Это рабочие лошадки для задач, где нужен объём, а не глубина: классификация тикетов, извлечение структурированных данных, маршрутизация запросов, простая суммаризация.

По качеству они уступают флагману ожидаемо, но для своей ценовой категории вполне конкурентоспособны. Если ваш продукт обрабатывает миллионы запросов и каждый из них — это ответ на вопрос «когда доставка», GPT-5 nano будет оптимальным выбором. Использовать GPT-5.2 Pro для такой задачи — примерно как отправлять курьерскую службу за письмом, которое можно бросить в почтовый ящик.

Теперь перейдём к компании, которая отобрала у OpenAI первое место в энтерпрайзе и заставила разработчиков массово переключаться на нового фаворита.

Anthropic — Claude и тихий захват энтерпрайза

Anthropic основана в 2021 году бывшими сотрудниками OpenAI во главе с Дарио Амодеи. Компания строит своё позиционирование вокруг безопасности ИИ и подхода Constitutional AI — модели обучаются следовать набору принципов, а не просто максимизировать «полезность» ответа. На практике это означает, что Claude реже генерирует откровенный бред и увереннее отказывается выполнять сомнительные запросы. Кого-то это раздражает, кого-то — привлекает. Энтерпрайз-клиенты, судя по цифрам, находятся во второй группе.

Цифры впечатляют. К середине 2025 года Anthropic захватил 32% рынка корпоративного использования LLM, обогнав OpenAI (25%) — хотя ещё в 2023 году соотношение было обратным: 50% у OpenAI, 12% у Anthropic. Выручка компании выросла с примерно 1 млрд долларов в 2024 году до 5 млрд к середине 2025-го, а по прогнозам на 2026 год речь идёт о 20-26 млрд. Claude Code — CLI-инструмент для агентского программирования — достиг 1 млрд долларов годовой выручки за шесть месяцев после запуска, обогнав по скорости роста даже ChatGPT. В кодинге Claude удерживает 42% рынка — вдвое больше, чем OpenAI.

Линейка Claude устроена проще, чем у OpenAI: три уровня — Opus (максимум), Sonnet (баланс), Haiku (скорость). В каждом уровне есть поколения — сейчас актуально 4.5, а флагманский Opus обновился до версии 4.6. Плюс отдельный продукт Claude Code.

Claude Opus 4.5 / 4.6 — флагман для сложного мышления

Opus — верхняя ступень линейки Claude. Версия 4.5 вышла в ноябре 2025 года и стала первым Opus, который можно назвать экономически разумным: цена упала на 66% по сравнению с Opus 4 (с $15/$75 до $5/$25 за миллион токенов). Opus 4.6 — актуальное обновление, добавившее расширенный вывод и улучшенный агентский режим. Обе версии поддерживают контекст до 1 миллиона токенов (в бете).

Opus — это модель для задач, где ошибка стоит дорого. Глубокий анализ документов, многошаговые рассуждения, сложный код, стратегическое планирование. Там, где Sonnet даёт «хороший» ответ, Opus чаще даёт «правильный».

Ключевые характеристики:

Контекст: 200K токенов стандартно, до 1M в бете (для организаций уровня tier 4). При превышении 200K — повышенные тарифы
Сильные стороны: лучшие результаты в линейке Claude по reasoning и коду (SWE-bench Verified 80,9% у Opus 4.5). Тонкое следование инструкциям, минимальные галлюцинации, сильная работа с русским языком
Скорость: самая медленная в линейке. Для задач, требующих быстрого отклика, не подходит
Экономика: Opus 4.5: $5 / $25 за миллион токенов. Opus 4.6 — аналогично, с множителем 1.1x при маршрутизации только через US. Кэширование: запись 1.25x, чтение 0.1x от базовой цены. Batch API — скидка 50%
Модальность: текст, изображения, PDF на входе. Текст на выходе. Extended thinking — токены «размышлений» тарифицируются как выходные

Идеальные задачи:

Глубокий анализ юридических и финансовых документов на сотни страниц
Сложные агентские сценарии с цепочкой вызовов инструментов и принятием решений
Рефакторинг крупных кодовых баз, архитектурные решения, code review
Исследовательские задачи: анализ научных статей, синтез информации из десятков источников
Генерация длинных структурированных текстов с высокими требованиями к качеству и следованию формату

Где споткнётся:

Медленнее Sonnet и Haiku в 3-5 раз. Для чат-ботов на сайте — неоправданная роскошь
При контексте выше 200K токенов включается premium pricing — стоимость удваивается
Закрытая модель с обработкой данных на серверах Anthropic (или через AWS Bedrock / Google Vertex)
Иногда «перестраховывается» в ответах из-за конституционных ограничений — может отказать там, где другие модели ответят

Мини-кейс:

Задача: Подготовить техническое задание на разработку микросервиса на основе переписки в Slack, описания API и существующей документации (суммарно ~300 страниц).

Промпт: «Вот переписка команды, спецификация API и текущая документация. Составь детальное ТЗ на микросервис авторизации: функциональные требования, нефункциональные требования, API-контракты, edge cases, зависимости от других сервисов. Отметь противоречия между перепиской и документацией.»

Ожидаемый результат: Структурированное ТЗ на 8-12 страниц с указанием конкретных мест, где требования команды расходятся с документацией. Opus не просто компилирует — он находит нестыковки.

Кому не подойдёт:

Проектам с высоким объёмом простых запросов — бюджет не выдержит
Сценариям, где критична скорость отклика менее секунды
Задачам, требующим full self-hosted развёртывания

Между Opus и Sonnet часто стоит выбор «качество vs экономика». И для большинства production-задач победителем оказывается следующая модель.

Claude Sonnet 4.5 — рабочая лошадка, которая тянет за двоих

Sonnet 4.5 (вышел в сентябре 2025) — модель, на которой реально работает большинство продуктов, использующих Claude. Формально она «средний» уровень, но на практике по многим задачам показывает результаты, которые ещё год назад были уровнем флагмана. Именно Sonnet 3.5 в 2024 году стал переломным моментом для Anthropic — модель, после которой разработчики начали массово переключаться с GPT. Sonnet 4.5 продолжает эту линию.

Главное преимущество Sonnet — баланс. Он достаточно умён для сложных задач, достаточно быстр для интерактивных сценариев и достаточно дёшев для production-масштабов. Поддерживает контекст до 1 миллиона токенов (в бете), extended thinking и все инструментальные интеграции Claude.

Ключевые характеристики:

Контекст: 200K стандартно, до 1M в бете. До 64K токенов на выходе
Сильные стороны: кодинг на уровне, который год назад был флагманским. Отличное следование промптам. Сильная генерация текстов на русском. Extended thinking для задач, где нужно «подумать»
Скорость: 3-5x быстрее Opus. Подходит для интерактивных приложений
Экономика: $3 / $15 за миллион токенов. При длинном контексте (более 200K): $6 / $22,50. Batch API — $1,50 / $7,50. Кэширование работает так же, как у Opus
Модальность: текст, изображения, PDF на входе. Текст на выходе

Идеальные задачи:

Ежедневная разработка: написание кода, отладка, code review, генерация тестов
Интеграция в продукты: чат-боты, ассистенты, саппорт-системы с нетривиальной логикой
Работа с документами: суммаризация, извлечение данных, сравнение версий
Генерация контента: статьи, описания, маркетинговые материалы
RAG-пайплайны: достаточно умна для сложных вопросов по контексту, достаточно быстра для real-time

Где споткнётся:

На экстремально сложных reasoning-задачах (многошаговая математика, формальная верификация) — Opus справится точнее
Длинный контекст выше 200K удваивает цену — это может удивить при автоматических пайплайнах
При очень жёстких требованиях к формату вывода иногда «творчески интерпретирует» инструкции — Opus следует им буквальнее

Мини-кейс:

Задача: Встроить Claude в систему технической поддержки для SaaS-продукта с базой знаний из 500 статей.

Промпт: «Ты — ассистент техподдержки продукта X. Вот релевантные статьи из базы знаний [RAG-контекст]. Ответь на вопрос клиента, используя только информацию из базы. Если ответа нет — честно скажи и предложи связаться с живым оператором. Тон — дружелюбный, но без фамильярности.»

Ожидаемый результат: Точный ответ с опорой на документацию, без выдуманных фич. Sonnet 4.5 хорошо держит роль и не «галлюцинирует» про функции, которых нет.

Кому не подойдёт:

Задачам, где каждый цент на счету при миллионах запросов — Haiku будет в 3 раза дешевле
Задачам, где нужна абсолютная точность рассуждений на уровне «ни одной ошибки» — для этого Opus

Claude Haiku 4.5 — скорость и экономия без стыда

Haiku — самая лёгкая модель в линейке, но «лёгкая» в 2026 году означает нечто другое, чем год назад. Haiku 4.5 по многим задачам превосходит ранние версии Sonnet. Это модель для задач, где нужен объём: тысячи запросов в минуту, классификация, маршрутизация, извлечение структурированных данных, быстрые ответы в чатах.

Ключевые характеристики:

Контекст: 200K токенов. До 64K на выходе
Сильные стороны: скорость (в разы быстрее Sonnet), низкая стоимость. По кодингу и structured reasoning — на удивление конкурентоспособна для своей ценовой категории
Скорость: самая быстрая в линейке. Идеальна для real-time приложений
Экономика: $1 / $5 за миллион токенов. Batch: $0,50 / $2,50. С кэшированием — ещё дешевле
Модальность: текст, изображения на входе. Текст на выходе. Extended thinking поддерживается

Идеальные задачи:

Классификация и маршрутизация запросов в multi-agent системах
Массовая обработка: извлечение данных из тысяч документов, парсинг, нормализация
Чат-боты для поддержки с типовыми вопросами и ответами из базы знаний
Первая линия обработки в пайплайнах: Haiku фильтрует и направляет, Sonnet/Opus обрабатывают сложное

Где споткнётся:

Сложные многошаговые рассуждения — ответ будет поверхностнее, чем у Sonnet
Длинные креативные тексты — качество заметно ниже, формулировки более шаблонные
Нюансы промпта: если инструкция сложная с десятком условий, Haiku чаще «проскакивает» отдельные пункты

Мини-кейс:

Задача: Классифицировать 10 000 обращений в саппорт по категориям и приоритету.

Промпт: «Определи категорию обращения (billing / technical / feature_request / bug) и приоритет (low / medium / high / critical). Верни JSON. Если обращение содержит угрозу уйти к конкуренту — приоритет high.»

Ожидаемый результат: Корректная классификация 95%+ тикетов. При batch-обработке со скидкой 50% — весь массив обойдётся в единицы долларов.

Кому не подойдёт:

Задачам, где качество рассуждений критичнее стоимости
Генерации контента, который будет читать живой человек и замечать «роботичность»

Claude Code — когда модель сама пишет, тестирует и коммитит

Claude Code — не отдельная модель, а CLI-инструмент, использующий Claude (преимущественно Sonnet и Opus) для агентского программирования прямо из терминала. Запущен в мае 2025 года, и за полгода стал одним из самых быстрорастущих AI-продуктов в истории. К началу 2026 года Claude Code обогнал GitHub Copilot по числу ежедневных установок в VS Code.

Ключевое отличие от обычного «спроси модель про код»: Claude Code работает в цикле. Он получает задачу, пишет код, запускает тесты, видит ошибки, исправляет их и повторяет — без вмешательства пользователя. Может работать с файловой системой, читать логи, вызывать API. Под капотом — MCP (Model Context Protocol), открытый стандарт от Anthropic для подключения инструментов к LLM.

Сильные стороны:

Итеративная работа: не просто генерирует код, а пишет-тестирует-исправляет в цикле
Понимание контекста проекта: читает файлы, конфиги, тесты, документацию
MCP-интеграции: подключается к Git, базам данных, API, Slack, Jira
Работает из терминала — встраивается в существующий workflow разработчика

Где споткнётся:

Требует доверия: модель исполняет код на вашей машине. Нужен контроль и ревью
Не заменяет разработчика — заменяет рутину. Архитектурные решения всё ещё за человеком
Стоимость: при длинных сессиях с Opus «под капотом» счёт растёт быстро
Работает лучше с хорошим тестовым покрытием — если тестов нет, цикл «написал-проверил» не работает

Claude Code — продукт, который лучше всего объясняет, почему Anthropic растёт так быстро. Это не просто API с хорошей документацией — это инструмент, встроенный в ежедневную работу разработчика. И когда инженер привыкает, что его рабочий инструмент работает на Claude, переключаться на что-то другое становится всё сложнее. Anthropic, похоже, понимает это лучше конкурентов.

Следующий гигант в нашем обзоре подошёл к рынку LLM с другой стороны — со стороны поисковой системы, облачной платформы и мобильной операционной системы одновременно.

Google — Gemini и сила экосистемы

Google подошёл к рынку LLM не как стартап, а как компания, у которой уже есть поисковая система, облако, мобильная ОС, браузер, почта и пакет офисных приложений с миллиардами пользователей. Преимущество очевидно: модель можно встроить сразу везде. Проблема — тоже: когда у вас столько legacy-продуктов, двигаться быстро тяжелее, чем стартапу с одним API.

Первые поколения Gemini (1.0, 1.5) воспринимались рынком как «неплохо, но не лидер». Google был крепким середнячком — сильный в мультимодальности, но уступающий по reasoning и кодингу. Gemini 2.5 Pro исправил ситуацию частично, продержавшись на вершине LMArena больше полугода. А Gemini 3, вышедший в ноябре 2025 года, изменил всё. Впервые за историю гонки LLM аналитики Artificial Analysis назвали модель Google «самой интеллектуальной в мире». Надолго ли — другой вопрос, но факт остаётся фактом: Google вернулся в борьбу за первое место.

Линейка Gemini 3 состоит из трёх основных моделей: Pro (максимальные возможности), Flash (скорость при сопоставимом качестве) и Deep Think (режим углублённого мышления для Pro). Плюс остаются актуальные Gemini 2.5 Pro и Flash для тех, кому важна стабильность — Gemini 3 пока в статусе preview.

Gemini 3 Pro — триллион параметров и миллион токенов контекста

Gemini 3 Pro, выпущенный 18 ноября 2025 года, — флагман Google, построенный на архитектуре sparse Mixture-of-Experts с триллионным масштабом параметров (из которых при каждом запросе активируется лишь часть). Модель стала первой в рейтинге LMArena по всем основным трекам: текст, vision, кодинг и веб-разработка. На GPQA Diamond — 91,9%, на AIME 2025 — 100% с code execution, на SWE-Bench Verified — 76,2%.

Главный козырь Pro — контекстное окно в 1 миллион токенов. Это не маркетинговая цифра «до которой можно дотянуться в теории», а рабочий режим: загрузить целый репозиторий, книгу или часовое видео и работать с ним в одном запросе. Второй козырь — нативная мультимодальность: текст, изображения, видео, аудио и PDF на входе и выходе.

Ключевые характеристики:

Контекст: 1M токенов на входе, 64K на выходе. Полноценная работа с длинным контекстом — не просто «окно есть», а «модель помнит»
Сильные стороны: лидер бенчмарков по reasoning и мультимодальности. ScreenSpot-Pro (компьютерное зрение для UI) — скачок с 11,4% до 72,7%. Нативная обработка видео. Deep Think режим для экстремально сложных задач
Скорость: умеренная для стандартных запросов, заметно медленнее в Deep Think. В целом сопоставима с GPT-5.2 Thinking
Экономика: $2 / $12 за миллион токенов (до 200K контекста). При длинном контексте (выше 200K): $4 / $18. Free tier доступен в Google AI Studio. Deep Think — пока только для подписчиков Google AI Ultra ($250/мес)
Модальность: текст, изображения, видео, аудио, PDF — на входе и выходе. Самая широкая мультимодальная поддержка среди всех LLM

Идеальные задачи:

Анализ видеоконтента: разбор записей совещаний, лекций, видеонаблюдения — нативно, без предварительной транскрипции
Работа с очень большими документами и кодовыми базами (1M токенов = ~750 000 слов в одном контексте)
Мультимодальные задачи: анализ дашбордов с графиками, скриншотов интерфейсов, технических диаграмм
Научное reasoning: Deep Think показывает 45,1% на ARC-AGI-2 — лучший результат среди всех моделей на задачах абстрактного визуального мышления
Аgentic workflows через Google Antigravity — новую IDE от Google для агентской разработки

Где споткнётся:

Preview-статус: модель ещё не стабилизирована для production. Цены, лимиты и поведение могут меняться
Длинный контекст дорожает вдвое при превышении 200K — для пайплайнов с большими документами это важно учитывать в бюджете
Deep Think доступен только в дорогой подписке ($250/мес) — конкуренты предлагают reasoning через API без отдельного тарифа
По кодингу (SWE-Bench 76,2%) уступает Claude Opus 4.5 (80,9%) и GPT-5.2-Codex (56,4% на более сложном SWE-Bench Pro)
Привязка к экосистеме Google: Vertex AI, Google Cloud, AI Studio — для компаний на AWS или Azure это дополнительный вектор интеграции

Мини-кейс:

Задача: Проанализировать 45-минутную запись встречи продуктовой команды и составить протокол с решениями, ответственными и дедлайнами.

Промпт: «Вот видеозапись встречи. Составь структурированный протокол: обсуждённые темы, принятые решения, назначенные ответственные, дедлайны. Отметь спорные моменты, по которым консенсус не достигнут.»

Ожидаемый результат: Протокол с таймкодами, разделённый по темам. Gemini 3 Pro обрабатывает видео нативно — без предварительной транскрипции и потери контекста интонаций и визуальных материалов.

Кому не подойдёт:

Проектам, которым нужен стабильный production API прямо сейчас — пока preview
Командам, которые уже глубоко интегрированы в AWS/Azure и не хотят добавлять Google Cloud
Задачам, где бюджет критичен, а контексты длинные — ценник за длинный контекст чувствительный

Gemini 3 Flash — скорость, которая не жертвует умом

Flash — модель, ради которой Google полюбили разработчики. Gemini 3 Flash, выпущенный 17 декабря 2025 года, стал заменой и 2.5 Flash, и 2.5 Pro одновременно: он превосходит предыдущий Pro по большинству бенчмарков, работая при этом в 3 раза быстрее и стоя в 4 раза дешевле. На API Google обрабатывает более триллиона токенов в день через Flash-модели — это самая массовая LLM по объёму inference в мире.

Flash 3 — лучший пример тренда, когда «маленькая» модель нового поколения бьёт «большую» предыдущего. Для большинства практических задач разница между Flash 3 и Pro 3 минимальна, а разница в цене и скорости — огромна.

Ключевые характеристики:

Контекст: 1M токенов на входе, 64K на выходе — аналогично Pro
Сильные стороны: GPQA Diamond 90,4%, SWE-bench Verified 78% (выше Pro!). Reasoning на уровне Pro, скорость — на уровне чат-бота. Сильнейшая визуальная и пространственная обработка
Скорость: 3x быстрее Pro. Оптимизирован для интерактивных приложений и агентских циклов
Экономика: $0,50 / $3 за миллион токенов. С кэшированием — до 90% экономии. Batch API — скидка 50%. Бесплатный доступ в Gemini app для потребителей
Модальность: текст, изображения, аудио, видео, PDF на входе. Текст на выходе. Настраиваемые уровни reasoning (minimal, low, medium, high)

Идеальные задачи:

Агентские workflow с быстрыми итерациями — Flash думает на уровне Pro, но отвечает значительно быстрее
Кодинг и отладка: 78% на SWE-bench — это уровень фронтира конца 2025 года
Мультимодальная обработка на потоке: анализ изображений, видео, аудио в реальном времени
High-volume API: триллион токенов в день — Flash спроектирован для масштаба
Чат-боты и интерактивные приложения, где нужен умный ответ за доли секунды

Где споткнётся:

На задачах, требующих Deep Think (абстрактное рассуждение, сложная математика) — это умеет только Pro
Preview-статус, как и Pro — production pricing может измениться
По глубине рассуждений на экстремально сложных задачах уступает Claude Opus и GPT-5.2 Pro

Мини-кейс:

Задача: Построить агента для мониторинга конкурентов, который каждый час проверяет 50 веб-страниц и присылает дайджест изменений.

Промпт: «Сравни текущее содержимое страницы с предыдущей версией. Определи: изменения в ценах, новые продукты, изменения в позиционировании. Игнорируй технические правки. Если изменение значимое — добавь в дайджест с пометкой срочности.»

Ожидаемый результат: Структурированный JSON с изменениями. При 50 страницах каждый час — это 1200 запросов в день. При средней длине 2K токенов на входе и 500 на выходе — меньше $5 в день на Flash.

Кому не подойдёт:

Задачам, требующим максимального качества reasoning без компромиссов
Проектам с жёсткими требованиями к стабильности API (до выхода из preview)

При $0,50 за миллион входных токенов Gemini 3 Flash — одно из лучших ценовых предложений на рынке LLM. Модель, которая бьёт прошлогодний фронтир за цену, которая раньше ассоциировалась с моделями категории «попроще». Google, возможно, впервые в этой гонке оказался в позиции ценового агрессора — и конкурентам это явно не нравится.

Gemini 2.5 Pro / Flash — стабильная альтернатива

Для тех, кому нужен production-ready API без пометки «preview», линейка 2.5 остаётся актуальной. Gemini 2.5 Pro — $1,25 / $10 за миллион токенов (до 200K), всё тот же миллион токенов контекста, проверенная стабильность. Gemini 2.5 Flash — $0,15 / $0,60 (до 200K), одна из самых дешёвых моделей для потоковой обработки.

Обе модели уходят в тень Gemini 3, но для production-систем, где «работает — не трогай» важнее «у нас новейшая модель», это разумный выбор. Google обещает стабильные snapshot-версии с фиксированным поведением — в отличие от «latest» указателей, которые могут измениться в любой момент.

Экосистемное преимущество: почему это важно

Главное отличие Google от Anthropic и OpenAI — не конкретная модель, а инфраструктура. Gemini встроен в Google Workspace (Docs, Sheets, Gmail), Android, Chrome, Google Cloud, YouTube. Vertex AI Model Optimizer автоматически маршрутизирует запросы между Pro и Flash в зависимости от сложности — без ручной логики на стороне разработчика. Grounding with Google Search позволяет модели искать актуальную информацию прямо в процессе генерации.

Для компаний, уже живущих в экосистеме Google, добавить Gemini — это не «внедрить новый AI-инструмент», а «включить ещё одну галочку в настройках». Для всех остальных это аргумент послабее, но всё равно заслуживающий внимания: интеграция с поиском, картами, YouTube, Gmail и Calendar — это не просто «фичи», а уникальные источники данных, которых у конкурентов нет.

А теперь переходим к компании, которая поставила перед собой амбициозную цель — сделать фронтирные LLM доступными всем. И в процессе разозлила половину Кремниевой долины.

Meta — Llama и философия «открытости с оговорками»

Meta — единственная из BigTech-компаний, которая поставила на открытые модели как стратегию. Логика Цукерберга: если LLM станут инфраструктурой (как Linux для серверов), лучше быть тем, кто эту инфраструктуру создаёт, чем зависеть от чужого API. Llama — самая скачиваемая открытая модель в мире, её используют как основу для дообучения, исследований и коммерческих продуктов. Cursor, Perplexity, десятки стартапов — все так или иначе тестировали Llama как базу.

Но путь Llama 4, вышедшей в апреле 2025 года, оказался не таким триумфальным, как планировалось. Впечатляющие цифры на бумаге столкнулись с реальностью: скандал с бенчмарками, разочарование пользователей и публичное признание, что результаты были «немного подкручены». История Llama 4 — это одновременно и прорыв в архитектуре, и предупреждение о том, что бенчмарки сами по себе ничего не гарантируют.

Llama 4 Scout — 10 миллионов токенов контекста и один GPU

Scout — «лёгкая» модель семейства Llama 4 с рекордным контекстным окном в 10 миллионов токенов. Для сравнения: это примерно 15 000 страниц текста. Архитектура MoE: 109 миллиардов параметров общих, 17 миллиардов активных при каждом запросе, 16 экспертов. Обучена на 40 триллионах токенов. При квантизации int4 помещается на один NVIDIA H100 — это делает её доступной для self-hosted развёртывания без кластера GPU.

Ключевые характеристики:

Контекст: 10M токенов — рекорд среди всех LLM. На практике провайдеры пока ограничивают до 128-512K, полные 10M доступны при self-hosted развёртывании
Сильные стороны: нативная мультимодальность (early fusion — текст и изображения обучаются совместно, не через отдельный vision-энкодер). Конкурентоспособна с Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1 по бенчмаркам Meta
Скорость: 17B активных параметров — быстрая при inference. На одном H100 работает с приемлемой латентностью
Экономика: бесплатна для скачивания. Через API-провайдеров (DeepInfra, Lambda, Together AI) — от $0,10-0,30 за миллион токенов. Self-hosted: стоимость железа + электричество
Модальность: текст и изображения на входе, текст на выходе. Image grounding — умеет привязывать ответы к регионам изображения

Идеальные задачи:

Обработка очень больших документов: вся документация проекта, весь кодовый репозиторий, многотомные архивы
RAG на больших корпусах без разбиения на чанки — контекст вмещает целую базу знаний
Self-hosted сценарии для компаний с требованиями data residency (банки, госструктуры, медицина)
Fine-tuning под специализированные задачи — LoRA-адаптеры работают при менее 20 ГБ VRAM
Экспериментирование и прототипирование — бесплатные веса снижают порог входа до нуля

Где споткнётся:

10M контекста — технически существует, но на практике нестабилен. Пользователи сообщают о деградации качества, вылетах и потере контекста на сложных задачах при длинных входах
По кодингу и reasoning уступает закрытым моделям сопоставимой «весовой категории» (GPT-5 mini, Claude Haiku 4.5, Gemini 3 Flash)
Лицензия Llama 4 Community License — не полностью открытая. Коммерческое использование ограничено для продуктов с более чем 700 млн месячных пользователей (привет, конкуренты Meta)
Self-hosted deployment требует инженерной экспертизы: загрузка весов (200+ ГБ), настройка KV-кэша для длинного контекста, мониторинг
Cutoff данных — август 2024. Модель не знает о событиях последних полутора лет

Мини-кейс:

Задача: Развернуть внутренний ассистент для юридической компании, который работает с корпусом NDA и договоров (2000+ документов) и отвечает на вопросы юристов.

Промпт: «На основе загруженного корпуса договоров найди все случаи, где non-compete clause превышает 24 месяца. Для каждого укажи название договора, номер пункта и конкретную формулировку.»

Ожидаемый результат: При self-hosted deployment с длинным контекстом — можно загрузить сотни документов одним запросом без RAG-пайплайна. Но стабильность результата нужно тестировать: при 10M+ токенов Scout не всегда уверенно держит фокус.

Кому не подойдёт:

Тем, кто ждёт «plug and play» через API — без тюнинга и тестирования качество уступает закрытым конкурентам
Задачам, где нужна максимальная точность reasoning и следования инструкциям
Проектам без инженерных ресурсов для self-hosting

Llama 4 Maverick — больше экспертов, меньше честности с бенчмарками

Maverick — флагман семейства Llama 4: 400 миллиардов параметров, 128 экспертов, 17 миллиардов активных. Помещается на один DGX H100 host. Контекст — 1 миллион токенов (512K через большинство API-провайдеров). Meta оценивает стоимость inference в $0,19-0,49 за миллион токенов — это в 10-20 раз дешевле GPT-4o на момент выхода.

На бумаге Maverick бил GPT-4o и Gemini 2.0 Flash по бенчмаркам. На практике — всё сложнее.

Ключевые характеристики:

Контекст: 1M токенов (512K через API-провайдеров)
Сильные стороны: MMLU-Pro 80,5%, GPQA Diamond 69,8%. 128 экспертов дают широкую специализацию. Стоимость inference одна из самых низких для модели такого масштаба
Скорость: 17B активных параметров — быстрая inference при MoE. Но загрузка полных весов (200+ ГБ) в память — отдельная задача
Экономика: бесплатна для скачивания. API: $0,19-0,49 за миллион токенов (оценка Meta для distributed inference). Через провайдеров — цены варьируются
Модальность: текст и изображения на входе, текст на выходе. Нативная мультимодальность

Идеальные задачи:

Замена дорогих проприетарных API для задач среднего уровня сложности: суммаризация, классификация, извлечение данных
Fine-tuning под домен: 128 экспертов дают хорошую базу для специализации
Мультимодальный анализ при ограниченном бюджете
Интеграция в продукты Meta: WhatsApp, Messenger, Instagram Direct — Maverick «под капотом» Meta AI

Где споткнётся (и уже споткнулась):

Скандал с бенчмарками. Meta отправила на LMArena «экспериментальную» версию Maverick, оптимизированную для чат-предпочтений, — не ту, которая доступна публично. Публичная версия упала до 32-35 места в рейтинге. Янн ЛеКун, уходящий главный AI-учёный Meta, позднее подтвердил: «результаты были немного подкручены» и «использовались разные модели для разных бенчмарков»
Реальная производительность в кодинге — пользователи сообщают, что Maverick иногда уступает даже меньшим моделям (Qwen-QwQ-32B, Gemma 3 27B)
Function calling нестабилен по сравнению с предшественником Llama 3.3 70B
Генерирует слишком общие ответы, плохо следует сложным инструкциям
Цукерберг «потерял уверенность во всех причастных» к запуску, GenAI-подразделение Meta было реструктурировано

Мини-кейс:

Задача: Автоматизировать ответы на отзывы клиентов в e-commerce (5000+ отзывов в день).

Промпт: «Вот отзыв клиента. Определи тональность, ключевую проблему, сгенерируй персонализированный ответ от лица бренда. Тон — эмпатичный, конструктивный. Если отзыв содержит конкретный дефект товара — добавь предложение замены.»

Ожидаемый результат: Для задач среднего уровня (классификация + генерация короткого текста) Maverick через API-провайдер будет стоить в 10-30 раз дешевле GPT-5.2. Качество — приемлемое, но без wow-эффекта.

Кому не подойдёт:

Тем, кто ищет замену Claude или GPT по качеству — Maverick конкурирует в другой лиге
Задачам с высокими требованиями к reliability function calling
Тем, кому важна репутация поставщика модели после бенчмарк-скандала

Llama 4 Behemoth — учитель в тени

Behemoth — модель-учитель с 2 триллионами параметров и 288 миллиардами активных. Meta использует её для дистилляции знаний в Scout и Maverick. По заявлениям Meta, Behemoth превосходит GPT-4.5, Claude Sonnet 3.7 и Gemini 2.0 Pro на STEM-бенчмарках. Публично не выпущена и, вероятно, не будет — это инструмент для создания других моделей, а не продукт.

Для пользователя Behemoth интересна косвенно: качество Scout и Maverick частично определяется тем, насколько хорошо прошла дистилляция из этого 2T-гиганта. Если Meta доработает процесс — следующая итерация Llama может быть значительно сильнее.

Честный разговор о Llama 4

Llama 4 — важный релиз, но его нужно воспринимать с поправкой на контекст. Бенчмарк-скандал и разочаровывающие реальные результаты не отменяют достижений архитектуры: MoE с нативной мультимодальностью, 10M контекст, работа на одном GPU. Это фундамент, на котором сообщество строит свои решения — десятки fine-tuned версий, оптимизации, специализированные варианты.

По данным Menlo Ventures, доля open-source моделей в production-нагрузках составляет около 13% и не растёт. Llama лидирует в этом сегменте, но сам сегмент невелик. Причина простая: развернуть и поддерживать open-source модель в production — это не «скачать и запустить», а отдельный инженерный проект. Для компаний с GPU-инфраструктурой и ML-командой Llama — отличный выбор. Для остальных — закрытые API пока проще, надёжнее и часто дешевле с учётом total cost of ownership.

Следующая компания в нашем обзоре тоже делает ставку на открытость — но пришла из Европы и играет по своим правилам.

Нужно решить такую задачу?

Опишите проблему, и специалист поможет с настройкой, исправлением ошибки или доработкой сайта. Подберём понятный план работ без лишней переписки.

Заказать помощь

Лучший ответ

Ирина WP Ответ

Для выбора LLM в 2026 году лучше отталкиваться не от названия модели, а от задачи, бюджета и способа запуска. Рынок меняется быстро: сегодня модель может быть лучшей по цене, а через месяц появится новая версия или поменяются лимиты. Поэтому правильный подход - выбрать не “самую модную модель”, а рабочую схему: API, локальный сервер или гибрид.

Я бы делил задачи так:

Чат, тексты, быстрые прототипы - API через крупного провайдера или агрегатор.
n8n, боты, RAG, автоматизация - API плюс резервный провайдер.
Конфиденциальные данные - локальная LLM или self-hosted proxy с контролем логов.
Массовая генерация - считать стоимость токенов и кэшировать ответы.
Код и технические задачи - тестировать несколько моделей на своих примерах.

Минимальный чек-лист выбора:

1. Нужен ли русский язык и насколько хорошо.
2. Нужен ли большой контекст.
3. Важна ли цена за 1M tokens.
4. Можно ли отправлять данные во внешний API.
5. Нужны ли function calling / tools / JSON mode.
6. Есть ли fallback, если сервис недоступен.

1. Нужен ли русский язык и насколько хорошо. 2. Нужен ли большой контекст. 3. Важна ли цена за 1M tokens. 4. Можно ли отправлять данные во внешний API. 5. Нужны ли function calling / tools / JSON mode. 6. Есть ли fallback, если сервис недоступен.

Для бизнеса часто выигрывает гибрид: простые задачи идут в более дешёвую модель, сложные - в сильную, чувствительные - в локальную или приватную инфраструктуру. Если строить всё на одном провайдере, вы рискуете упереться в лимиты, оплату, блокировки или внезапное изменение качества.

Практический вывод: не выбирайте LLM по рейтингам в вакууме. Возьмите 20-30 ваших реальных запросов, прогоните через 3-5 вариантов, сравните качество, скорость и цену. После этого решение будет намного точнее, чем любая общая таблица моделей.

Другие ответы (0)

Пока нет других ответов. Будьте первым, кто поможет автору.

Ответить на вопрос

комментарий Отменить ответ

Вам также может быть интересно

Искусственный интеллект Что делать, если OpenRouter ограничивает доступ к моделям? 1 ответ woocommerce Как редактировать поля чека только для одного товара: Юкасса wordpress? 1 ответ SMM Из-за чего не сохраняется видео в мобильной программе blackmagic? 1 ответ Proxy Может ли замедляться трафик в Tlg с российских хостингов? 1 ответ

Современные LLM-модели в 2026 году: кто делает, чем отличаются и какую выбрать

Рынок LLM в 2026 году: что изменилось и куда движется

Закрытые vs open-source: не всё так просто

Что реально имеет значение при выборе

Тренды, которые определяют рынок прямо сейчас

OpenAI — компания, которая начала эту гонку и не собирается с трассы

GPT-5.2 — флагман для всего сразу

Серия o — когда модели научились думать

GPT-5.2-Codex — когда код пишется сессиями, а не запросами

GPT-5 mini и nano — бюджетная линейка для потока

Anthropic — Claude и тихий захват энтерпрайза

Claude Opus 4.5 / 4.6 — флагман для сложного мышления

Claude Sonnet 4.5 — рабочая лошадка, которая тянет за двоих

Claude Haiku 4.5 — скорость и экономия без стыда

Claude Code — когда модель сама пишет, тестирует и коммитит

Google — Gemini и сила экосистемы

Gemini 3 Pro — триллион параметров и миллион токенов контекста

Gemini 3 Flash — скорость, которая не жертвует умом

Gemini 2.5 Pro / Flash — стабильная альтернатива

Экосистемное преимущество: почему это важно

Meta — Llama и философия «открытости с оговорками»

Llama 4 Scout — 10 миллионов токенов контекста и один GPU

Llama 4 Maverick — больше экспертов, меньше честности с бенчмарками

Llama 4 Behemoth — учитель в тени

Честный разговор о Llama 4

комментарий Отменить ответ

Вам также может быть интересно

Ежедневно, круглосуточно