Что такое RAG и когда он нужен?

Retrieval Augmented Generation — паттерн, при котором ИИ отвечает не из своих знаний, а из вашей базы. Алгоритм - векторизуем документы, ищем релевантные по семантике, передаём как контекст модели. Нужен когда у вас есть специфическая корпоративная информация (документация, регламенты, база клиентов), которую модель не знает и знать не должна.

Что выбрать — pgvector, Qdrant, Pinecone, Weaviate?

Если у вас уже Postgres и до 1 млн документов — pgvector (никакого дополнительного сервиса). От 1 до 100 млн — Qdrant (self-hosted, очень быстрый). Если нужен managed — Pinecone (но дорого и облако). Weaviate — хорош когда нужна гибридная классическая+векторная фильтрация. На аудите смотрим объёмы и выбираем под задачу.

Что такое multi-agent система и когда она нужна?

Когда задача слишком сложная для одного агента. Пример - агент-планировщик разбивает запрос пользователя на шаги, агент-исследователь собирает данные, агент-писатель формулирует ответ, агент-проверяющий валидирует. Используем LangGraph (хорошо для сложного state-management) или CrewAI (проще, для простых ролевых сценариев). Большинству бизнесов это не нужно — одного хорошего агента с tools хватает.

Как обеспечивается надёжность в проде?

Четыре уровня. Первое — retry с экспоненциальным backoff на временные ошибки. Второе — fallback на резервную модель (например, GPT-4 → Claude → локальная Llama при сбое первой). Третье — idempotency-keys на критичные операции, чтобы повторы не создавали дубли. Четвёртое — мониторинг через Prometheus + алертинг в Telegram при превышении латенси или error rate.

Сколько стоит хостинг подобной инфраструктуры?

Зависит от нагрузки. Базовый сетап (n8n + Postgres + pgvector + Redis на одном VPS) — от 1500 ₽/мес. Если нужен GPU под локальную модель — от 25 000 ₽/мес (аренда A10/3090). Стоимость инференса в API — обычно 0.5-5 ₽ за один запрос пользователя в зависимости от модели и длины.

Делаете интеграции с самописной CRM?

Да, если у неё есть какой-то API (REST, GraphQL, SOAP, или хотя бы база, к которой можно подключиться). На аудите смотрим документацию и оцениваем сложность. Чаще всего занимает 2-4 дня вместо 1-2 для популярных CRM.

Интеграция ИИ в CRM, RAG-разработка, multi-agent системы

Что входит в «интеграции и инфраструктура»

Это самый «инженерный» сервис — то, что не видит конечный пользователь, но без чего любой ИИ-продукт развалится при первой реальной нагрузке. Включает:

Подключение к моделям — OpenAI, Anthropic, локальные модели через vLLM/Ollama; правильная работа с rate limits, ретраи, fallback
RAG-системы — векторизация вашей базы знаний, retrieval по семантике, ответы со ссылками на источники
Интеграции с бизнес-системами — CRM (Bitrix24, AmoCRM, Salesforce, HubSpot), ERP (1С, MS Dynamics), мессенджеры, почта, calendar
Оркестрация — multi-agent системы на LangGraph/CrewAI, очереди задач (Celery/Bull), state management
DevOps — VPS, Docker, мониторинг, бэкапы, CI/CD
Observability — структурированные логи, метрики latency/error rate, traces

RAG-системы — на чём строим

Стандартный пайплайн:

Ingestion — забираем документы из источника (S3, Google Drive, Notion API, ваш CMS), парсим (с учётом картинок, таблиц), нарезаем на смысловые куски (chunking 500-1500 токенов с overlap)
Embeddings — векторизуем через OpenAI text-embedding-3-large или локально через BGE-M3 (русский+английский)
Storage — pgvector (для до 1M документов) или Qdrant (для больше или для production-load)
Retrieval — гибридный поиск: семантический + ключевые слова (BM25), reranking через cross-encoder
Generation — LLM получает top-N релевантных чанков + промпт, генерирует ответ с цитатами
Evaluation — метрики precision/recall на тестовом наборе, регулярный пересчёт

Это не магия — это инженерный конвейер с десятками параметров, которые настраиваются под конкретную задачу. Качество retrieval — главный фактор того, насколько хорошо работает ИИ-агент.

Multi-agent: когда нужно

90% бизнес-задач закрывается одним хорошим агентом с набором tools. Multi-agent нужен когда:

Задача требует параллелизма — например, агент-планировщик распределяет подзадачи на нескольких специализированных исполнителей
Нужна специализация ролей — research agent + critic agent + writer agent работают над одним документом
Есть сложный workflow с состояниями — где-то надо человеку утвердить, где-то retry, где-то fallback

Для этого используем:

LangGraph — graph-based state machine, лучший выбор для сложных пайплайнов с ветвлениями и циклами
CrewAI — проще, для ролевых сценариев («команда из трёх агентов делает X»)
AutoGen — Microsoft, мощнее, но сложнее в проде

Production-readiness чек-лист

То, что мы закладываем по умолчанию:

Retry с backoff на все internal API вызовы
Fallback модели — если GPT-4 недоступен, переключаемся на Claude, потом на локальную
Idempotency keys на критичные операции (создание заказа, отправка письма) чтобы повторы не дублили
Rate limiting на стороне нашего сервиса (защита от atak и от случайного перерасхода)
Structured logging — JSON-логи с trace ID для пошагового разбора любой проблемы
Health-checks на все компоненты + алерты в Telegram при сбоях
Бэкапы ежедневные, retention 30 дней, периодическая проверка восстановления

Мониторинг

Базовый набор метрик:

API latency — p50, p95, p99 для каждого endpoint
LLM cost — токены и стоимость по моделям и сценариям
Error rate — общий и по типам ошибок
Retrieval quality — semantic similarity между запросом и retrieved документами
User feedback — thumbs up/down на ответы агента

Всё это в Grafana с алертами в Telegram при отклонениях.

С чего начать

Запишитесь на бесплатный 2-дневный аудит. Посмотрим на ваши планы по ИИ, ваш текущий стек, оценим что строить инфраструктуру с нуля или интегрировать в существующую.

Интеграции и инфраструктура

Что входит в «интеграции и инфраструктура»

RAG-системы — на чём строим

Multi-agent: когда нужно

Production-readiness чек-лист

Мониторинг

С чего начать

Что вы получаете

Production-grade с первого дня

RAG поверх вашей базы знаний

Интеграция с любой CRM

Multi-agent оркестрация

Как мы работаем

Аудит инфраструктуры · 2 дня

Проектирование · 2 дня

Развёртывание · 5-6 дней

Стресс-тест и передача · 1 день

Стек технологий

Стоимость

Частые вопросы

Запишитесь на 30-минутный аудит.