Лаборатория Tongyi Lab (Alibaba) представила Fun Audio Chat — open-source модель, призванную перенести голосовое общение с облачных API на локальные машины. Решение устраняет главные проблемы текущих лидеров рынка (OpenAI, Google): высокую задержку (latency) и передачу данных на сторонние серверы.
Архитектурное решение: 5 Гц против 25 Гц Ключевая инновация — оптимизация вычислительных ресурсов через Dual Resolution. В отличие от стандартных моделей, обрабатывающих поток на 12.5–25 Гц, Fun Audio Chat разделяет процессы:
- Shared Backbone (5 Гц): Основная смысловая нагрузка и логика диалога обрабатываются на низкой частоте.
- Refined Head (25 Гц): Финальная генерация речи и детализация происходят на высокой частоте.

Этот инженерный трейд-офф снизил нагрузку на GPU на 50% без потери качества high-res моделей.
Ключевые возможности для разработки:
- Full Duplex & Turn-taking: Поддержка прерываний. Модель слушает пользователя даже во время генерации собственной речи, обеспечивая нативный диалог.
- Speech Function Calling: Прямая трансляция голосовых команд в вызов функций (API, скрипты), что позволяет управлять софтом без рук.
- Audio Understanding: Помимо речи, модель классифицирует звуковые события и музыкальные жанры, работая как универсальный аудио-анализатор.
Технический стек и требования Для инференса необходима видеокарта с 24 ГБ VRAM (уровень RTX 3090/4090). Запуск на меньшем объеме памяти требует квантования (пока экспериментально). Лицензия: Apache 2.0 (допускает коммерческое использование и модификацию).
Практические кейсы применения
Учитывая локальность и поддержку Function Calling, Fun Audio Chat открывает возможности, недоступные для облачных API:
1. Голосовой интерфейс для DevOps и умного дома Используя Speech Function Calling, можно создать локальный терминал управления инфраструктурой.
- Пример: «Проверь статус Docker-контейнеров на сервере Alpha и перезапусти Nginx, если он упал». Модель парсит интент и выполняет соответствующие bash-скрипты или API-запросы к Portainer/Home Assistant без отправки данных в интернет.
2. Приватные корпоративные ассистенты (On-premise) Для компаний с жесткими требованиями к DLP (Data Leak Prevention).
- Пример: Ассистент для поиска по внутренней базе знаний (Confluence/Jira). Сотрудник голосом запрашивает документацию или статус тикета. Весь пайплайн (STT -> LLM -> TTS) работает внутри контура компании, исключая утечку коммерческой тайны.
3. Тренажеры для Call-центров с анализом эмоций Благодаря способности модели считывать просодию и эмоциональный контекст.
- Пример: Симуляция «сложного клиента». Модель генерирует агрессивный или расстроенный тон, а система анализирует, насколько эмпатично оператор отвечает, используя встроенные бенчмарки эмоционального интеллекта модели.
4. Офлайн-киоски и робототехника
- Пример: Интеграция в сервисных роботов или информационные стойки в местах с нестабильным интернетом. Full Duplex позволяет роботу мгновенно замолкать, если пользователь его перебивает, что критично для естественного UX.