Когда нужны локальные модели вместо OpenAI/Anthropic?

Минимум три случая. Первый — обработка персональных данных (ФЗ-152) или медицинских/финансовых данных (отраслевая регуляция). Второй — конфиденциальная коммерческая информация (внутренние документы, переписка с клиентами). Третий — стратегическое нежелание зависеть от иностранных вендоров. В остальных случаях обычно достаточно настроить корректную работу с облаком + анонимизацию входа.

Насколько локальные модели хуже GPT-4 / Claude?

Для большинства бизнес-задач Llama 3 70B и Mistral Large сопоставимы с GPT-4 в качестве. Хуже могут быть на сложных reasoning-задачах, мультиязычности (английский лучше всего), креативных задачах. Точную оценку даём после пилотного тестирования на ваших данных в первые 3-4 дня.

Сколько стоит GPU-сервер под локальную модель?

Llama 3 8B запускается на RTX 4090 (~250 000 ₽ железа) или арендуется в РФ за 25-40 тыс ₽/мес. Llama 3 70B нужен A100 80GB (аренда от 60 тыс ₽/мес). Для большинства бизнес-сценариев хватает 8B-13B моделей.

Что такое prompt injection и почему это важно?

Атака, при которой пользователь через свой ввод заставляет ИИ-агента игнорировать системные инструкции и выполнить нежелательное действие (например, раскрыть данные другого пользователя или принять решение в обход политики). Закрываем многоуровнево — фильтрация ввода, изолированные tool permissions, аудит всех действий агента, ограничение источников знаний.

Можно ли пройти аудит ФЗ-152 с ИИ-внедрением?

Да. Ключевые требования — согласие на обработку (формулировки и хранение), журнал доступа, локализация хранения, защита от утечки, право на удаление. Все требования закрываются стандартной архитектурой self-hosted + audit-log. На аудите даём документацию для проверяющих.

Сколько стоит один только аудит без развёртывания?

Базовый аудит безопасности существующего ИИ-внедрения — от 150 000 ₽ за 3-5 дней. Получаете отчёт с приоритизированным списком рисков и конкретными рекомендациями. Развёртывание — отдельно.

Безопасность ИИ — аудит данных, локальные LLM, ФЗ-152

Когда вам нужен этот сервис

Три типичных триггера:

Регуляторное требование — ФЗ-152 для российских персональных данных, GDPR для европейских клиентов, отраслевые требования (банки, медицина, страхование, юридические услуги)
Стратегическая независимость — не хотите зависеть от того, что OpenAI/Anthropic могут отрезать сервис, поменять цены, изменить политику
Чувствительные данные — внутренние документы, переписка с клиентами, договорная база, исследования и разработки

Если вашему бизнесу нужно одно из трёх — этот сервис закрывает все три уровня.

Модель угроз

На аудите проверяем семь типичных рисков:

Утечка через провайдера — данные попадают в логи OpenAI/Anthropic, могут быть запрошены властями третьей страны
Prompt injection — пользователь обходит системный промпт через специально сформулированный ввод
Data leakage между пользователями — ИИ запоминает контекст одного пользователя и проговаривает другому
Jailbreak — обход safety-фильтров модели для генерации нежелательного контента
Tool misuse — агент использует доступные инструменты не по назначению (например, удаление данных)
Secret exfiltration — API-ключи, пароли, токены попадают в промпты и логи
Compliance gaps — отсутствие журнала доступа, согласий, политики хранения

Архитектура «по умолчанию безопасно»

Что закладываем при разработке:

Изоляция уровней — frontend → API gateway с auth → ИИ-сервис без прямого доступа к БД → ограниченный набор tools с проверкой прав
Encryption at rest — все БД зашифрованы (Postgres TDE или filesystem-level)
Secret management — никаких токенов в коде или env-файлах; HashiCorp Vault или Cloudflare Secrets
Audit-log пайплайн — все запросы пользователей и решения ИИ записываются в отдельную БД с readonly-доступом
RBAC — ролевая модель в админ-панели, минимальные привилегии
Rate limiting — защита от перегрузки и злоупотребления

Локальные модели — что выбираем

Подбор модели зависит от задачи и железа:

Llama 3 8B — отлично для классификации, извлечения данных, простого QA. Запускается на RTX 3090 / 4090. Скорость 30-80 токенов/сек.
Llama 3 70B — близко к GPT-4 по качеству. Нужен A100 80GB или 2× A6000. Скорость 8-20 токенов/сек.
Mistral 7B / Mistral Large — хорошо для русского языка, особенно в коммерческой версии Mistral Large.
Qwen 2.5 — сильна на reasoning-задачах, отлично говорит по-русски.

На аудите тестируем несколько моделей на ваших задачах и выбираем оптимальную по соотношению «качество × стоимость инференса».

Compliance документация

После развёртывания вы получаете:

Реестр обработки персональных данных для соответствия ФЗ-152
Privacy policy и согласия в формате, который пройдёт проверку Роскомнадзора
Запись о категориях обработки для GDPR (Article 30)
DPIA (Data Protection Impact Assessment) для ЕС-клиентов
Чек-лист самопроверки для вашей команды

С чего начать

Запишитесь на бесплатный 2-дневный аудит. Посмотрим на текущее ИИ-внедрение (если есть) или планируемую архитектуру, дадим письменный отчёт с приоритизированным списком рисков и рекомендациями.

Безопасность и приватность ИИ

Когда вам нужен этот сервис

Модель угроз

Архитектура «по умолчанию безопасно»

Локальные модели — что выбираем

Compliance документация

С чего начать

Что вы получаете

Данные остаются внутри

Соответствие регуляторам

Защита от prompt injection

Шифрование и контроль доступа

Как мы работаем

Аудит текущего состояния · 2 дня

Архитектура и план · 2 дня

Развёртывание локальных моделей · 4-5 дней

Передача и обучение · 1 день

Стек технологий

Стоимость

Частые вопросы

Запишитесь на 30-минутный аудит.