Платиновый партнер

28 января 2025

Как получить набор данных для семантического анализа за несколько часов

В обновленном релизе NLU-suite, инструменте для обучения семантических и акустических моделей распознавания речи, появилась возможность работы с искусственным интеллектом для выполнения основной практической задачи — генерации обучающего датасета на основании определенных классов. Решение протестировано в одном из банков с использованием модели GPT-4o.

При обучении модели основными препятствиями являются сбор и подготовка примеров и определение классов объектов. Обычно семантические модели обучаются с помощью метода Few-shot, когда количество обучающих примеров ограничено, или метода Zero-shot, если тестовый набор отсутствует.

Ранее, чтобы собрать обучающий набор, ИИ-инженеры самостоятельно придумывали обучающие примеры или обращались к LLM-моделям, задав классы необходимых объектов. Оба способа требуют значительного количества временных и трудовых ресурсов со стороны разработки, поскольку нужно большое количество тестовых примеров, с созданием которых даже LLM-модели долго справляется из-за сложности запроса. Также при работе с LLM-моделями для определения интента запрос передается на внешний сервис, что недопустимо для некоторых компаний с точки зрения информационной безопасности. В итоге, это удлиняет процесс обучения и, соответственно, растягивает сроки запуска модели.

Компания BSS внедрила решение, где генерация синтетического набора данных осуществляется с помощью LLM-моделей. Это позволяет пользоваться преимуществами Few-shot обучения и экономить время, затрачиваемое на обучение, поскольку сервис позволяет создавать подходящие для обучения примеры. Решение работает с различными LLM-моделями. Пользователю системы нужно создать промпт или специальный запрос, указав детали, необходимые для обучения, диалогов. Далее LLM-модель обработает запрос и создает вариативный набор обучающих данных.

«Новый инструмент NLU-suite упрощает и ускоряет создание моделей распознавания речи, не требуя набора обучающих данных. Пользователям системы нужно просто расписать запрос для LLM-модели и наборы данных станут доступны в течение нескольких часов. Особенно актуальна данная функция, когда у компании запускается новый продукт или новая услуга и необходимо запустить новый сценарий в кратчайшие сроки. Для генерации датасета потребуется лишь описание товара или услуги, которое необходимо указать в промте. С помощью новой функции мы уже обучили модель LaBSE, которая успешно функционирует», — прокомментировал директор департамента голосовых технологий компании BSS Александр Крушинский.