Xiaozhi ESP32 Server
Описание
Xiaozhi ESP32 Server — это бэкенд-сервис для open-source аппаратного проекта xiaozhi-esp32. Он реализован на Python, Java и Vue в соответствии с протоколом связи Xiaozhi и предназначен для быстрого развёртывания собственного сервера умного голосового помощника.
Внимание: Проект находится в стадии разработки и не прошёл аудит безопасности. Не используйте в production-среде. При публичном доступе обязательно примите меры защиты.
Для кого
Для владельцев ESP32-устройств, которые уже подключались к официальному серверу и хотят развернуть свой собственный бэкенд.
Способы развёртывания
| Тип |
Особенности |
Сценарий |
Требования к ресурсам |
| Минимальная установка |
Голосовой диалог, IOT, MCP, зрение; данные в конфиге |
Нет БД |
2 ядра 2 ГБ (при использовании только API) / 2 ядра 4 ГБ (с FunASR) |
| Полная установка |
Всё выше + OTA, веб-панель управления; данные в БД |
Полный функционал |
2 ядра 4 ГБ (только API) / 4 ядра 8 ГБ (с FunASR) |
Инструкции:
По умолчанию используется конфигурация бесплатных компонентов. Для лучшей производительности рекомендуется потоковая конфигурация (снижает задержку на ~2.5 с).
Рекомендуемая конфигурация
| Компонент |
Бесплатный (по умолчанию) |
Потоковая (рекомендуется) |
| ASR (распознавание речи) |
FunASR (локальный) |
DoubaoStreamASR (Toutiao) |
| LLM (языковая модель) |
ChatGLMLLM (Zhipu glm-4-flash) |
DoubaoLLM (Toutiao doubao-1-5-pro-32k-250115) |
| VLLM (визуальная модель) |
ChatGLMVLLM (Zhipu glm-4v-flash) |
QwenVLVLLM (Qwen qwen2.5-vl-3b-instructh) |
| TTS (синтез речи) |
LinkeraiTTS (Lingxi) |
HuoshanDoubleStreamTTS (Toutiao) |
| Intent (распознавание намерений) |
function_call |
function_call |
| Memory (память) |
mem_local_short (локальная краткосрочная) |
mem_local_short |
Инструменты для тестирования
- Аудио-тест:
main/xiaozhi-server/test/test_page.html (открыть в Chrome)
- Тест скорости моделей:
python performance_tester.py (ASR+LLM+TTS) и python performance_tester_vllm.py (VLLM)
Возможности (текущие)
- Вебсокет и HTTP сервер с аутентификацией
- Потоковые ASR/TTS/VAD (поддержка нескольких языков)
- Множество LLM и VLLM (все, совместимые с OpenAI API)
- Распознавание намерений через LLM или Function Call
- Память: локальная краткосрочная, mem0ai
- IOT и MCP управление устройствами
- Веб-панель управления (пользователи, система, устройства)
- Плагины с горячей загрузкой
- Развёртывание через Docker или локально
Поддерживаемые платформы
- LLM: OpenAI-совместимые (Alibaba Bailian, Volcengine Doubao, DeepSeek, Zhipu ChatGLM, Gemini), Ollama, Dify, FastGPT, Coze
- VLLM: Zhipu ChatGLMVLLM, Alibaba Bailian и любые OpenAI-совместимые
- TTS: EdgeTTS, Volcengine, Tencent Cloud, Alibaba Cloud, CosyVoice, TTS302AI, Coze, Gizwits, ACGN, OpenAI, Lingxi; локально FishSpeech, GPT_SOVITS_V2/V3, MinimaxTTS
- ASR: локально FunASR, SherpaASR; через API DoubaoASR, FunASRServer, TencentASR, AliyunASR
- VAD: SileroVAD (локальный, бесплатный)
- Memory: mem0ai (API, 1000 запросов/мес), mem_local_short (бесплатно)
- Intent: intent_llm (через LLM), function_call (через вызов функций)
Экосистема
Благодарности
Лицензия
MIT
Комментарии
Комментариев пока нет. Будьте первым.