Xiaozhi ESP32

Xiaozhi ESP32 — мощный бэкенд для устройств ESP32. Быстрое развёртывание собственных серверов интеллектуального управления с продвинутым голосовым ИИ, интеграцией LLM/VLLM, протоколами IoT/MCP и расширяемой системой плагинов.

Data Science и ML Разработка API Деплой и DevOps ★ 5,026 GitHub (5,026 ★)

Xiaozhi ESP32 Server — это открытый серверный бэкенд для проекта умного оборудования Xiaozhi ESP32. Реализован на Python, Java и Vue на основе протокола связи Xiaozhi. Позволяет быстро развернуть собственный сервер Xiaozhi. Проект подходит пользователям, которые хотят самостоятельно разместить мощный бэкенд для интеллектуального диалога, управления IoT, визуального восприятия и других задач, используя упрощённое или полное развёртывание модулей через Docker или исходный код.

Ключевые возможности

01Протоколы IOT/MCP: Регистрация устройств и интерфейсы управления, совместимые с IOT и MCP.

02Расширяемая плагинная система: Лёгкое расширение функционала через плагины, разработка пользовательских плагинов и горячая загрузка.

03Интеграция интеллектуальных диалогов: Поддержка различных больших языковых моделей (LLM) и визуальных больших языковых моделей (VLLM) для умных бесед.

04Комплексная сервисная архитектура: WebSocket и HTTP серверы с полной консолью управления и системой аутентификации.

055,026 звезд на GitHub

06Продвинутая система голосового взаимодействия: Поддержка потоковых ASR (распознавание речи), TTS (синтез речи), VAD (обнаружение голосовой активности) и многоязычная обработка.

Варианты использования

01Реализация решений для умного дома или IoT: управление приборами и интеграция различных интеллектуальных функций через устройства ESP32.

02Самостоятельное развёртывание серверного бэкенда для оборудования Xiaozhi ESP32.

03Создавайте собственные голосовые ассистенты с ИИ для ESP32, поддерживающие настраиваемые голоса, многоязычное взаимодействие и прерывание в реальном времени.

小智后端服务xiaozhi-esp32-server

本项目为开源智能硬件��目 xiaozhi-esp32提供后端服务
根据小智通信协议使用Python、Java、Vue实现
帮助您快速搭建小智服务器

English · 常见问题 · 反馈问题 · 部署文档 · 更新日志

适用人群 👥

本项目需要配合 ESP32 硬件设备使用。如果您已经购买了 ESP32 相关硬件，且成功对接过虾哥部署的后端服务，并希望独立搭建自己的 xiaozhi-esp32 后端服务，那么本项目非常适合您。

想看使用效果？请猛戳视频 🎥

警告 ⚠️

1、本项目为开源软件，本软件与对接的任何第三方API服务商（包括但不限于语音识别、大模型、语音合成等平台）均不存在商业合作关系，不为其服务质量及资金安全提供任何形式的担保。建议使用者优先选择持有相关业务牌照的服务商，并仔细阅读其服务协议及隐私政策。本软件不托管任何账户密钥、不参与资金流转、不承担充值资金损失风险。

2、本项目功能未完善，且未通过网络安全测评，请勿在生产环境中使用。如果您在公网环境中部署学习本项目，请务必做好必要的防护。

部署文档

本项目提供两种部署方式，请根据您的具体需求选择：

🚀 部署方式选择

部署方式	特点	适用场景	部署文档	配置要求	视频教程
最简化安装	智能对话、IOT、MCP、视觉感知，数据存储在配置文件	低配置环境，无需数据库	①Docker版 / ②源码部署	如果使用`FunASR`要2核4G，如果全API，要2核2G	-
全模块安装	智能对话、IOT、MCP、视觉感知、OTA、智控台，数据存储在数据库	完整功能体验	①Docker版 / ②源码部署 / ③源码部署自动更新教程	如果使用`FunASR`要4核8G，如果全API，要2核4G	本地源码启动视频教程

💡 提示：以下是按最新代码部署后的测试平台，有需要可烧录测试，并发为6个，每天会清空数据

智控台地址: https://2662r3426b.vicp.fun

服务测试工具： https://2662r3426b.vicp.fun/test/
OTA接口地址: https://2662r3426b.vicp.fun/xiaozhi/ota/
Websocket接口地址: wss://2662r3426b.vicp.fun/xiaozhi/v1/

🚩 配置说明和推荐

Note

本项目默认的配置是入门全免费设置，如果想效果更优，推荐使用流式配置。

本项目自0.5.2版本，已支持使用流式配置，��比0.5版本以前，响应速度提升约2.5秒

模块名称	入门全免费设置	流式配置
ASR(语音识别)	FunASR(本地)	👍DoubaoStreamASR(火山流式语音识别)
LLM(大模型)	ChatGLMLLM(智谱glm-4-flash)	👍DoubaoLLM(火山doubao-1-5-pro-32k-250115)
VLLM(视觉大模型)	ChatGLMVLLM(智谱glm-4v-flash)	👍QwenVLVLLM(千问qwen2.5-vl-3b-instructh)
TTS(语音合成)	👍LinkeraiTTS(灵犀流式)	👍HuoshanDoubleStreamTTS(火山双流式语音合成)
Intent(意图识别)	function_call(函数调用)	✅function_call(函数调用)
Memory(记忆功能)	mem_local_short(本地短期记忆）	✅mem_local_short（本地短期记忆）

🔧 测试工具

本项目提供以下测试工具，帮助您验证系统和选择合适的模型：

工具名称	位置	使用方法	功能说明
音频交互测试工具	main》xiaozhi-server》test》test_page.html	使用谷歌浏��器直接打开	测试音频播放和接收功能，验证Python端音频处理是否正常
模型响应测试工具1	main》xiaozhi-server》performance_tester.py	执行 `python performance_tester.py`	测试ASR(语音识别)、LLM(大模型)、TTS(语音合成)三个核心模块的响应速度
模型响应测试工具2	main》xiaozhi-server》performance_tester_vllm.py	执行 `python performance_tester_vllm.py`	测试VLLM(视觉模型)的响应速度

💡 提示：测试模型速度时，只会测试配置了密钥的模型。

功能清单 ✨

已实现 ✅

功能模块	描述
核心服务架构	基于WebSocket和HTTP服务器，提供完整的控制台管理和认证系统
语音交互系统	支持流式ASR(语音识别)、流式TTS(语音合成)、VAD(语音活动检测)，支持多语言识别和语音处理
智能对话系统	支持多种LLM(大语言模型)，实现智能对话
视觉感知系统	支持多种VLLM(视觉大模型)，实现多模态交互
意图识别系统	支持LLM意图识别、Function Call函数调用，提供插件化意图处理机制
记忆系统	支持本地短期记忆、mem0ai接口记忆，具备记忆总结功能
IOT/MCP控制协议	支持设备注册管理、智能控制接口，同时支持IOT、MCP控制协议
管理后台	提供Web管理界面，支持用户管理、系统配置和设备管理
测试工具	提供性能测试工具、视觉模型��试工具和音频交互测试工具
部署支持	支持Docker部署和本地部署，提供完整的配置文件管理
插件系统	支持功能插件扩展、自定义插件开发和插件热加载

正在开发 🚧

想了解具体开发计划进度，请��击这里

如果你是一名软件开发者，这里有一份《致开发者的公开信》，欢迎加入！

产品生态 👬

小智是一个生态，当你使用这个产品时，也可以看看其他在这个生态圈的优秀项目

项目名称	项目地址	项目描述
小智安卓客户端	xiaozhi-android-client	一个基于xiaozhi-server的Android、IOS语音对话应用,支持实时语音交互和文字对话。现在是flutter版本，打通IOS、Android端。
小智电脑客户端	py-xiaozhi	该项目提供了一个基于 Python 实现的小白 AI 客户端，使得在不具备实体硬件条件的情况下，依然能够体过代码体验小智 AI 的功能。
小智Java服务端	xiaozhi-esp32-server-java	小智开源后端服务 Java 版本是一个基于 Java 的开源项目。它包括前后端的服务，旨在为用户提供一个完整的后端服务解决方案。

本项目支持的平台/组件列表 📋

LLM 语言模型

使用方式	支持平台	免费平台
openai 接口调用	阿里百炼、火山引擎豆包、深度求索、智谱ChatGLM、Gemini	智谱ChatGLM、Gemini
ollama 接口调用	Ollama	-
dify 接口调用	Dify	-
fastgpt 接口调用	Fastgpt	-
coze 接口调用	Coze	-

实际上，任何支持 openai 接口调用的 LLM 均可接入使用。

VLLM 视觉模型

使用方式	支持平台	免费平台
openai 接口调用	阿里百炼、智谱ChatGLMVLLM	智谱ChatGLMVLLM

实际上，任何支持 openai 接口调用的 VLLM 均可接入使用。

TTS 语音合成

使用方式	支持平台	免费平台
接口调用	EdgeTTS、火山引擎豆包TTS、腾讯云、阿里云TTS、CosyVoiceSiliconflow、TTS302AI、CozeCnTTS、GizwitsTTS、ACGNTTS、OpenAITTS、灵犀流式TTS	灵犀流式TTS、EdgeTTS、CosyVoiceSiliconflow(部分)
本地服务	FishSpeech、GPT_SOVITS_V2、GPT_SOVITS_V3、MinimaxTTS	FishSpeech、GPT_SOVITS_V2、GPT_SOVITS_V3、MinimaxTTS

VAD 语音活动检测

类型	平台名称	使用方式	收费模式	备注
VAD	SileroVAD	本地使用	免费

ASR 语音识别

使用方式	支持平台	免费平台
本地使用	FunASR、SherpaASR	FunASR、SherpaASR
接口调用	DoubaoASR、FunASRServer、TencentASR、AliyunASR	FunASRServer

Memory 记忆存储

类型	平台名称	使用方式	收费模式	备注
Memory	mem0ai	接口调用	1000次/月额度
Memory	mem_local_short	本地总结	免费

Intent 意图识别

类型	平台名称	使用方式	收费模式	备注
Intent	intent_llm	接口调用	根据LLM收费	通过大模型识别意图，通用性强
Intent	function_call	接口调用	根据LLM收费	通过大模型函数调用完成意图，速度快，效果好

鸣谢 🙏

Logo	项目/公司	说明
	百聆语音对话机器人	本项目受百聆语音对话机器人启发，并在其基础上实现
	十方融海	感谢十方融海为小智生态制定了标准的通讯协议、多设备兼容性方案及高并发场景实践示范；为本项目提供了全链路技术文档支持
	玄凤科技	感谢玄凤科技贡献函数调用框架、MCP通信协议及插件化调用机制的实现代码，通过标准化的指令调度体系与动态扩展能力，显著提升了前端设备(IoT)的交互效��和功能延展性
	汇远设计	感谢汇远设计为本项目提供专业视觉解决方案，用其服务超千家企业的设计实战经验，赋能本项目产品用户体验
	西安勤人信息科技	感谢西安勤人信息科技深化本项目视觉体系，确保整体设计风格在多场景应用中的一致性和扩展性

Xiaozhi ESP32 Server

Описание

Xiaozhi ESP32 Server — это бэкенд-сервис для open-source аппаратного проекта xiaozhi-esp32. Он реализован на Python, Java и Vue в соответствии с протоколом связи Xiaozhi и предназначен для быстрого развёртывания собственного сервера умного голосового помощника.

Внимание: Проект находится в стадии разработки и не прошёл аудит безопасности. Не используйте в production-среде. При публичном доступе обязательно примите меры защиты.

Для кого

Для владельцев ESP32-устройств, которые уже подключались к официальному серверу и хотят развернуть свой собственный бэкенд.

Способы развёртывания

Тип	Особенности	Сценарий	Требования к ресурсам
Минимальная установка	Голосовой диалог, IOT, MCP, зрение; данные в конфиге	Нет БД	2 ядра 2 ГБ (при использовании только API) / 2 ядра 4 ГБ (с FunASR)
Полная установка	Всё выше + OTA, веб-панель управления; данные в БД	Полный функционал	2 ядра 4 ГБ (только API) / 4 ядра 8 ГБ (с FunASR)

Инструкции:

Минимальная: Docker / Локально
Полная: Docker / Локально

По умолчанию используется конфигурация бесплатных компонентов. Для лучшей производительности рекомендуется потоковая конфигурация (снижает задержку на ~2.5 с).

Инструменты для тестирования

Аудио-тест: main/xiaozhi-server/test/test_page.html (открыть в Chrome)
Тест скорости моделей: python performance_tester.py (ASR+LLM+TTS) и python performance_tester_vllm.py (VLLM)

Возможности (текущие)

Вебсокет и HTTP сервер с аутентификацией
Потоковые ASR/TTS/VAD (поддержка нескольких языков)
Множество LLM и VLLM (все, совместимые с OpenAI API)
Распознавание намерений через LLM или Function Call
Память: локальная краткосрочная, mem0ai
IOT и MCP управление устройствами
Веб-панель управления (пользователи, система, устройства)
Плагины с горячей загрузкой
Развёртывание через Docker или локально

Поддерживаемые платформы

LLM: OpenAI-совместимые (Alibaba Bailian, Volcengine Doubao, DeepSeek, Zhipu ChatGLM, Gemini), Ollama, Dify, FastGPT, Coze
VLLM: Zhipu ChatGLMVLLM, Alibaba Bailian и любые OpenAI-совместимые
TTS: EdgeTTS, Volcengine, Tencent Cloud, Alibaba Cloud, CosyVoice, TTS302AI, Coze, Gizwits, ACGN, OpenAI, Lingxi; локально FishSpeech, GPT_SOVITS_V2/V3, MinimaxTTS
ASR: локально FunASR, SherpaASR; через API DoubaoASR, FunASRServer, TencentASR, AliyunASR
VAD: SileroVAD (локальный, бесплатный)
Memory: mem0ai (API, 1000 запросов/мес), mem_local_short (бесплатно)
Intent: intent_llm (через LLM), function_call (через вызов функций)

Экосистема

Благодарности

Проект вдохновлён Bailing voice bot
Спасибо Shifang Ronghai за протокол и документацию
Спасибо Xuanfeng Technology за каркас вызовов функций и MCP

Лицензия

MIT

Источник: https://mcpmarket.com/server/xiaozhi-esp32

Компонент	Бесплатный (по умолчанию)	Потоковая (рекомендуется)
ASR (распознавание речи)	FunASR (локальный)	DoubaoStreamASR (Toutiao)
LLM (языковая модель)	ChatGLMLLM (Zhipu glm-4-flash)	DoubaoLLM (Toutiao doubao-1-5-pro-32k-250115)
VLLM (визуальная модель)	ChatGLMVLLM (Zhipu glm-4v-flash)	QwenVLVLLM (Qwen qwen2.5-vl-3b-instructh)
TTS (синтез речи)	LinkeraiTTS (Lingxi)	HuoshanDoubleStreamTTS (Toutiao)
Intent (распознавание намерений)	function_call	function_call
Memory (память)	mem_local_short (локальная краткосрочная)	mem_local_short