Кыргызстанская команда разработчиков NineNineSix представила новую версию модели синтеза речи — Kani TTS 2. Разработка вошла в топ-3 TTS-моделей на платформе Hugging Face — крупнейшем мировом каталоге моделей искусственного интеллекта.

Kani TTS 2 стала продолжением первой версии и продемонстрировала значительный технологический скачок. Теперь модель способна стабильно генерировать до 40 секунд живой речи за один проход, что более чем в два раза превышает возможности предыдущей версии.

Для полностью открытой модели из КР попадание в топ-3 TTS на Hugging Face стало редким и значимым достижением.

Кто такие NineNineSix

NineNineSix — кыргызстанская команда разработчиков в сфере искусственного интеллекта, работающая над языковыми технологиями.

Ранее она представила первую версию Kani TTS, а также разработала голосовую колонку и AI-ассистента AkylAi — первый искусственный интеллект, говорящий на кыргызском языке.

Фото Парка высоких технологий Кыргызстана

Голос для малоресурсных языков

Большинство крупных AI-компаний фокусируются на английском и других глобальных языках. Малоресурсные часто остаются вне технологического прогресса. NineNineSix сделали ставку на иной подход.

Kani TTS 2 поддерживает английский, испанский и кыргызский языки. Архитектура модели позволяет обучать ее для других языков, акцентов и диалектов.

Команда опубликовала полный код предварительного обучения. Это означает, что любая страна или исследовательская группа может создать собственную голосовую модель на базе Kani TTS 2.

«Kani TTS 2 — это следующий шаг после нашей первой версии: мы сделали генерацию речи стабильнее и научили модель выдавать длинные фрагменты. Мы делаем ставку на компактные и открытые модели — их проще запускать и адаптировать под разные языки и акценты, включая малоресурсные. Для нас важно показать, что технологии мирового уровня можно создавать в Кыргызстане, поэтому мы открыли не только веса модели, но и весь код для pretrain, чтобы любая команда могла обучить TTS с нуля под свой язык», — отметил сооснователь nineninesix.ai Нурсултан Бакашов.

Что нового в Kani TTS 2

до 40 секунд стабильной генерации речи за один проход;

поддержка zero-shot voice cloning — клонирование голоса по короткому аудиофрагменту;

полностью открытая архитектура и код обучения;

вхождение в топ-3 TTS-моделей на Hugging Face.

Модель содержит около 400 миллионов параметров.

Среди ключевых улучшений:

Она предобучена примерно на 10 тысячах часов речевых данных и может работать на GPU с примерно 3 гигабайтами видеопамяти, что делает ее доступной для локального и серверного использования.

«Kani TTS 2 — это не просто очередная AI-модель. Это доказательство того, что кыргызстанские специалисты способны создавать технологии мирового уровня и конкурировать на глобальном рынке искусственного интеллекта. NineNineSix демонстрирует, что Кыргызстан может быть не только потребителем, но и создателем передовых AI-решений», — сообщили в Парке высоких технологий.