Продукт18 фев 202612 мин

vMira 5.1: под капотом.

vMira 5.1 — наша наиболее мощная русскоязычная модель. Выходит сегодня во всех продуктах: длинный контекст, ввод изображений, опциональный режим рассуждений и развёртывание от хостингового API до одного on-device-сервера.

VC
VCorp
Руководство
VC
VCorp
Исследования

vMira 5.1 — наша наиболее мощная русскоязычная модель — доступна сегодня во всех наших продуктах. Она быстрее, точнее и работает с более длинным контекстом, чем vMira 5. Этот материал — о том, что нового в релизе, как модель работает на практике и как её разворачивать.

vMira 5.1 свободно читает и пишет на русском и английском, принимает изображения наряду с текстом и поставляется с опциональным режимом рассуждений, который показывает ход решения на математике, коде и структурном анализе. Нативный контекст — 262 144 токена; с нашим методом расширения контекста запросы доходят до 1 миллиона токенов для специализированных нагрузок. Инференс идёт в нашем хостинговом регионе, в приватном развёртывании внутри Российской Федерации или в компактной on-device-сборке на одном Linux-сервере.

Модель рассуждений — vMira Thinking — выходит одновременно и подробно описана в отдельной публикации. Эта страница — про базовую модель: что изменилось в релизе, как она работает, где слаба и как её интегрировать.

Что нового в 5.1

vMira 5.1 быстрее на промптах, которые уже работали, и ощутимо лучше на тех, что не работали. Самые крупные приросты — в трёх областях. **Русскоязычные рассуждения** — заметно сильнее: с включённым режимом рассуждений точность на словесных задачах школьной математики выросла на 38%, на бенчмарках спортивного программирования — на 24%, а доля уверенно-неверных ответов на нашей оценке фактологичности упала на 61%. **Длинный контекст** держит качество до 256 000 токенов и плавно деградирует выше — для критичной к точности работы рекомендуем retrieval-пайплайн поверх «сырого» длинного контекста. **Ввод изображений** теперь — модальность первого класса по всему окну контекста: сканы, фото документов, диаграммы и рукописные заметки работают наряду с текстом. Развёртывание сохранило форму — хостинг, приватный регион, on-device, — но каждый слой стека стал быстрее.

Обучение

Обучение шло в несколько этапов. На первом — общее владение русским и английским по большому корпусу с перевесом в сторону русской прессы, художественной литературы, технической документации, нормативных актов, кода и диалогов. На втором — supervised-проход по курированной смеси с разбиением на четыре части: инструктивные данные, отфильтрованные наградой; примеры рассуждений из олимпиадной математики, длинных chain-of-thought и структурного анализа; целевые примеры под категории публичных русскоязычных оценок, где модели исторически слабее; и русские культурные и разговорные данные без переводных артефактов. Третий этап — alignment: шаг, обучающий модель, **когда** остановить рассуждение, а не только **какой** ответ предпочесть.

Длинный контекст

Нативный контекст — 262 144 токена. Этого хватает на целую книгу, репозиторий из нескольких файлов или научную статью со ссылками. С нашим методом расширения контекста запросы идут до 1 миллиона токенов — для специализированных нагрузок вроде анализа длинных контрактов или аудита крупной кодовой базы. Две практические заметки. Первая: выше ~256K качество ретривала начинает зависеть от того, в каком месте контекста лежит нужная информация — для критичной к точности работы рекомендуем retrieval-пайплайн поверх «сырого» длинного контекста. Вторая: цена за токен применяется линейно по длинам; премиум-тарифа выше 256K нет.

Ввод изображений

vMira 5.1 принимает изображения как часть беседы: скриншоты, сканы, фотографии документов, диаграммы, графики, рукописные заметки. Описывает увиденное, извлекает русский и английский текст, отвечает на вопросы по содержимому и рассуждает о вёрстке страницы. Изображения **не** генерирует — это задача vMira Studio. Видео целиком на вход не принимает: для покадрового рассуждения извлеките кадры заранее и передайте как упорядоченную последовательность изображений — модель работает с такой последовательностью как с упорядоченным контекстом.

Схема инференса vMira 5.1: длинноконтекстная мультимодальная модель с опциональным рассуждением, доступная как хостинговый API, приватное развёртывание в регионе и on-device-сборка.

Развёртывание

Три пути покрывают 95% реальных потребностей команд. **Хостинговый API** работает в нашем дата-центре с горизонтальной масштабируемостью, тарификация по токенам в рублях или долларах. **Приватное развёртывание в регионе РФ** доступно корпоративным клиентам по отдельному SLA, с первичным сбором персональных данных внутри России в соответствии с 152-ФЗ; инференс может идти как в том же регионе (по умолчанию), так и — при документально оформленной передаче — в зарубежном регионе для снижения стоимости. **On-premise сборка** — компактный пакет, который запускается на одном современном Linux-сервере. Все три пути поддерживают continuous batching и ограничения структурного вывода. Операционно: на потребительском GPU модель обслуживает десятки одновременных активных пользователей в установившемся режиме; на серверном железе в нашем хостинговом регионе — сотни. Точные цифры зависят от распределения промптов и доли запросов, в которых включается рассуждение.

Где модель не справляется

Мы стараемся честно говорить о том, что модель умеет и чего нет. Главные ограничения, известные нам сегодня, и что мы рекомендуем в их обход:

Если в посте про модель только победы — это маркетинг. Мы перечисляем ограничения, потому что именно про них наши клиенты и говорят на самом деле.
Руководство VCorp

Разработчикам

Доступ к API — в нашем портале для разработчиков, с SDK на Python, TypeScript, Go и Rust. В API доступны четыре идентификатора моделей: `mira`, `mira-thinking`, `mira-pro` и `mira-max`. Режим рассуждений — параметр `reasoning.effort` (low | medium | high). Все запросы тарифицируются по токенам, не по времени, — глубина рассуждений не сюрпризит вас в счёте. Стриминг, инструменты, структурный JSON-вывод, файловые входы и веб-поиск — первого класса на каждой модели. Корпоративные развёртывания включают приватные эндпоинты, выделенные мощности, пиннинг региона и прямую человеческую поддержку для разбора инцидентов.

Как 5.1 ощущается в повседневной работе

Длинные документы заходят чисто: контракт на сто страниц, многоглавная книга, научная статья с приложениями — всё помещается в нативный контекст и обрабатывается за секунды. Самое заметное качественное изменение — ввод изображений. Где предыдущая модель умела читать печатный русский текст со скриншотов, 5.1 читает рукописный текст, дополняет контекст вёрстки документа и рассуждает о диаграммах со смешанным русским и английским. Голос в чате стал естественнее на сложных согласных кластерах и словах с подвижным ударением, на которых старые модели систематически спотыкались. Режим рассуждений включается одним параметром API и подробно описан в отдельной публикации.

Сборки разной точности

Поставляются несколько сборок разной точности. Хостинговый API работает в высокоточной конфигурации, настроенной под качество на публичных категориях нашей системы оценок. Приватные развёртывания и on-device-сборки используют более компактные сборки, а дельта качества для каждой документирована в соответствующем релиз-отчёте, чтобы клиенты выбирали приемлемый компромисс. Для большинства команд on-device-сборка — правильный выбор, когда данные не должны покидать сеть, а задержка — не лимитирующий фактор.

Конкурентность на коммодити-железе

Для self-hosters практический вопрос — сколько одновременных активных пользователей обслуживает один GPU. Современный потребительский GPU в установившемся режиме обслуживает десятки одновременных активных пользователей, с жёстким потолком, зависящим от длины контекста и effort'а рассуждений. На серверном GPU эта цифра кратно больше; в нашем хостинговом регионе одна карта обслуживает чат-продукт сотням одновременных пользователей. Ваши цифры будут зависеть от распределения промптов и доли запросов с включённым рассуждением, но воспроизводимы на том же классе железа, на котором работаем мы.

Что возвращает API

Каждый чат-вызов возвращает структурный ответ: `message.content` (ответ), при включённом рассуждении — `reasoning.summary` и `reasoning.steps`, `usage` (входные, выходные и токены рассуждений — тарифицируются отдельно) и `model_meta` (точный хеш сборки, регион и runtime, обслуживший запрос). Хеш сборки — не косметика: если логировать его с каждым запросом, получается воспроизводимый аудит-трейл того, какая именно модель выдала какой ответ. Полезно и для комплаенса, и чтобы локализовать регрессию, когда между релизами что-то меняется. Сборку мы держим живой полгода после релиза следующего поколения — клиент может пинить известную хорошую модель, пока валидирует новую.

On-device развёртывание: когда и зачем

On-device-сборка — путь для клиентов, чьи данные не должны покидать сеть. Запускается на современном Linux-сервере с одним потребительским GPU для продакшен-нагрузки или на CPU-only хосте для внутренних инструментов с меньшей нагрузкой. Скорость на CPU медленна для чат-фронта, но достаточна для аналитической работы, разбора документов и автоматизации бэк-офиса, которые читает человек. У on-device-сборки тот же профиль следования инструкциям, та же калибровка отказов и та же голова ввода изображений, что у хостинговой модели. Веб-поиск и хостинговые инструменты не входят — их клиент подключает к своим системам.

Был ли этот материал полезен?