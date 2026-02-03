Как внедрить в свой сервис LLM и «приручить» галлюцинации модели: гайд от продуктовой IT‑компании

ИИ переживает бум: компании в разных отраслях пытаются внедрить его всюду – от клиентской поддержки и продаж до аналитики. Один из популярных сценариев – автоматизация коммуникаций. Здесь ИИ может отвечать на звонки и сообщения, помогать операторам во время разговора или анализировать качество диалогов. Но есть у ИИ особенность, которая иногда становится серьёзной «головной болью» для сервиса – склонность к галлюцинациям. 

Вместо точных ответов на вопрос клиенты получают вымышленные факты. Например, робот сообщает: «Вы сегодня говорили с нашим менеджером Олегом…», тогда как в компании нет ни одного Олега. Хорошая новость: галлюцинации можно минимизировать. 

Компания IPTel, которая разрабатывает системы для автоматизации коммуникаций, использует в своих продуктах разные ИИ-модели: от локальных – для простых задач голосовых роботов до более гибких LLM – таких как Gemini, DeepSeek, ChatGPT и Llama – в сложных диалогах, ИИ-помощниках и сервисах речевой аналитики.

В партнёрском проекте CEO IPTel Иван Виноградов рассказал, как можно применить ИИ в бизнес-коммуникациях, почему возникают галлюцинации и как их минимизировать.

С чего начать внедрение ИИ-модели 

Итак, вы прочитали статью про «успешный успех» конкурента, который внедрил ИИ, и подумали: «Хочу так же!». Но первый и самый важный вопрос – не какую модель выбрать, а какую задачу бизнеса должен решить ИИ. 

Практика показывает: на старте лучше выбрать 1-2 процесса, где ИИ даст заметный результат. Это могут быть операции с предсказуемым сценарием и ограниченным количеством возможных ответов. 

Другой критерий, который упростит выбор и внедрение: процесс должен быть описан – в виде скрипта или регламента. ИИ хуже справляется там, где процессы не формализованы.

В коммуникациях с клиентами внедрение ИИ часто начинают с обработки повторяющихся вопросов. Это делает голосовой робот, который отвечает на звонки или, в связке с системой автообзвона, совершает исходящие. У него «под капотом» локальная LLM модель с жёсткими инструкциями: она формирует реплики в рамках сценария – приветствует клиента по имени, может рассказать про услуги компании и ответить на вопросы вроде «Какие условия рассрочки?» или «Когда будет доставлен заказ?».

СЕО IPTel Иван Виноградов

Есть и более сложные сценарии в которых голосовой робот должен выбирать, как взаимодействовать с клиентом и что предложить. Один из примеров – мягкое напоминание о задолженности (soft-collection) в финансовом секторе или в коммунальных предприятиях. Система может вести диалог по нескольким траекториям: рассказать про разные варианты оплаты или реструктуризации, либо зафиксировать отказ и выбрать следующий шаг сценария. 

Однако ИИ можно использовать не только для автоматизации общения с клиентом, а и для помощи оператору. В таких сценариях ИИ работает с контекстом разговора и данными из внутренних систем, но не ведёт диалог напрямую.

ИИ-помощник IPTel дает подсказки оператору в чате с клиентом

Во время общения с клиентом модель анализирует разговор или переписку и подсказывает оператору, что нужно уточнить или какой следующий шаг предусмотрен сценарием. Кроме того, оператор может сам обратиться к ИИ-помощнику через диалоговое окно и задать вопрос по ходу разговора. В ответ модель сразу возвращает информацию из корпоративной базы знаний. Такое использование ИИ востребовано в сферах с большим объёмом информации, таких как медицина, где оператор должен быстро ответить клиенту, как, например, подготовиться к процедуре или какие есть противопоказания.

Ещё один тип задач – анализ качества коммуникации. Здесь ИИ расшифровывает запись звонков, разделяет роли «клиент/сотрудник», отмечает ключевые слова, к примеру, упоминания конкурентов, фиксирует жалобы и анализирует эмоции. Это позволяет быстро выявлять проблемы без прослушивания разговоров, что особенно актуально для сферы электронной коммерции, где качество сервиса влияет на продажи.

Как работает речевая аналитика IPTel

Как выбрать модель: опыт IPTel

Выбор модели зависит от того, какой скорости обработки, точности и сложности диалога требует ваша задача

  • В задачах, где диалог укладывается в заранее описанную логику, а задержки недопустимы, ключевой фактор выбора – скорость отклика. Тут подходят модели, оптимизированные под работу в реальном времени. В голосовых роботах IPTel, которые должны отвечать на частозадаваемые вопросы, мы используем модели класса Gemini Flash, DeepSeek Lite или локально развёрнутые версии Llama 3.x (8-13B). Они работают в рамках строгих инструкций и формируют ответы по заданным правилам с минимальной задержкой, что идеально подходит для звонков.
  • Сложные сценарии, где одного правильного ответа недостаточно, требуют моделей, которые учитывают контекст разговора и на основе этого выбирают следующий шаг. В голосовых роботах, которые должны поддерживать диалог, мы используем модели вроде Gemini, DeepSeek или актуальные версии ChatGPT. Они позволяют строить диалог не по жёсткому скрипту, а в рамках заданных паттернов общения.
  • В аналитических задачах для оценки качества коммуникации на первый план выходят стабильность, и способность обрабатывать большие объёмы данных. В сервисе речевой аналитики IPTel мы используем несколько технологий. Для преобразования аудио в текст – речевые модели Whisper или Wav2Vec2. Разделение ролей в диалоге выполняется с помощью PyAnnote. Далее к обработке подключаются языковые модели, которые работают с готовым текстом: формируют резюме разговора и выделяют сигналы для бизнеса. Для этого используются LLM вроде DeepSeek, Gemini или Llama.
Фрагмент кода интеграции ИИ-ассистента в существующую серверную архитектуру приложения

Причины галлюцинаций

Однажды во время разговора с клиентом наш голосовой робот внезапно переключился на китайский язык. Но более удивительной оказалась реакция клиента: он знал китайский и спокойно продолжил диалог. Конечно, вероятность, что при следующей такой галлюцинации нам бы повезло наткнуться на полиглота, минимальная. Мы решили проблему специализацией промпта – скорректировали инструкции для нейросети, чтобы она использовала только два языка.

По нашим наблюдениям, примерно в 70% случаев причиной «фантазий» ИИ являются повторяющиеся паттерны в промпте и данных. Представьте себе базу данных, где лежат 20 старых FAQ, в каждом из них есть фраза «срок рассмотрения – 3 дня». ИИ зацикливается на этом, и в дальнейшем на любой вопрос клиента по срокам начинает отвечать «3 дня».

Яркий признак, что база данных имеет пробелы, – ИИ начинает нести чушь. Человек задает вопрос роботу, а данные, как отвечать не загрузили в базу. Тогда нейросеть придумывает ответ, чтобы поддержать разговор. Та же проблема возникает, если в данных шум, противоречия или устаревшая информация. 

Примерно в 20% случаев причиной галлюцинаций становится обновление моделей. Технически ИИ может отвечать быстрее, но точность ответов падает: до обновления бот говорил «не знаю, уточню в базе», когда сомневался в ответе, после – уверенно «додумывает».

Как бороться с проблемой

Мы рассматриваем галлюцинации не как единичные ошибки модели, а как системный риск, который нужно снижать на уровне архитектуры. На практике наиболее эффективными оказались следующие подходы:

  1. RAG-архитектура с принципом «отвечать только на основании контекста». Сначала система подбирает релевантные фрагменты из корпоративной базы знаний и лишь затем передаёт их модели для генерации ответа. В результате он состоит из конкретных фактов, которые можно проверить. В продуктах IPTel этот принцип заложен в работе голосовых роботов: модель отвечает только на основе данных, которые были переданы ей системой. 
  2. Строгие системные инструкции и форматы ответов. Даже при работе с заданным контекстом риск галлюцинаций сохраняется, если модель получает слишком много свободы в формировании ответа. Чёткие правила поведения модели – что «разрешено», что «запрещено» и как действовать при недостатке данных снижают его. В продуктах IPTel такие инструкции дополняются строгими форматами вывода, например JSON с валидацией.
  3. Проверка ответов. Сразу после генерации ответа модель сравнивает его с альтернативными вариантами и известными данными, и рассчитывает показатель уверенности. Если он ниже заданного порога, ответ не публикуется автоматически, а передаётся оператору или QA-специалисту на проверку. Человек может подтвердить корректность ответа, внести правки или дополнить базу знаний. Мы применяем такой подход в голосовых роботах и ИИ-помощниках. Он позволяет отсеивать сомнительные ответы до того, как они повлияют на клиента или бизнес-процессы.
  4. Double-check с помощью второй модели. Разные модели ошибаются по-разному, но если ответ сходится, риск ошибки ниже. Поэтому мы используем дополнительную модель для проверки фактов, чисел и соответствия контексту.
  5. Единая структура транскрипций и метаданных. Если они передаются модели в разном формате, ей приходится интерпретировать структуру самостоятельно, что увеличивает риск ошибок. В продуктах IPTel мы используем единую структуру с фиксированными полями и однозначной логикой, чтобы форматы были однородными. Это снижает шум, упрощает валидацию и делает поведение модели более стабильным.

Кроме этого, мы ведём реестр галлюцинаций, где фиксируем все проблемные кейсы: чего не хватило в данных, где были противоречия, а где модель вышла за рамки инструкций. Это позволяет отслеживать повторяющиеся ошибки и улучшать решения.

Борьба с галлюцинациями – это непрерывный процесс. Модели обновляются, архитектура требует постоянной адаптации, а ИИ – инвестиций. Если у вас есть сильная команда и время – вы сможете самостоятельно предотвращать галлюцинации, комбинируя архитектурные решения, процессы проверки и участие человека.

Если важнее скорость и предсказуемость – проще опереться на подрядчика с опытом внедрения ИИ в бизнес-процессы, чем изобретать все с нуля. Тогда это перестает быть дорогим экспериментом и становится инструментом для роста бизнеса.

