Qualquer usuário doméstico experiente conhece a irritação familiar de pedir a um alto-falante inteligente baseado em nuvem para desligar uma luminária de mesa. Você descobrirá que o áudio é gravado, enviado pela Internet para o data center corporativo, processado e depois enviado de volta. Se falhar, você receberá um anel giratório vermelho ou laranja da destruição e uma voz robótica reclamando de problemas de conexão. Se tiver sucesso, você descobrirá que demorou muito mais para desligar a luminária da mesa do que se você simplesmente tivesse se levantado e feito isso sozinho.

Compare isso com uma configuração local onde você dá um comando a um microfone pequeno e monetizado em sua mesa. As luzes locais piscam instantaneamente e uma voz natural responde sem que um único pacote saia da sua porta.

A criação de um assistente de voz privado significou uma compensação pela precisão ou digitação interminável nas configurações do terminal Linux. No entanto, graças aos recentes avanços de engenharia no mecanismo de voz nativo do Home Assistant, agora você pode construir um alto-falante inteligente off-line totalmente local que corresponda à velocidade e ao propósito das grandes alternativas de tecnologia sem taxas mensais.

Os LLMs locais mudaram a maneira como uso o Home Assistant e agora meus dispositivos inteligentes realmente escutam

Os LLMs nativos tornaram a configuração do meu Home Assistant mais responsiva do que qualquer aplicativo ou integração

Trilogia de Software

Seu novo assistente de voz pode entender você

Antes de começar, você precisa entender a anatomia de um conjunto de voz offline. Para tornar isso possível, o backend do servidor executa três pilares de software de código aberto. O primeiro pilar é o software de fala para texto. Um exemplo seria Sussurro. O modelo Whisper de código aberto da OpenAI, variantes especialmente otimizadas como Faster-Whisper, converte áudio falado bruto em dados de texto. É claro que o hardware também desempenha um papel aqui, com o Raspberry Pi 4 levando de seis a oito segundos para analisar uma frase, enquanto o acessível mini PC Intel N100 conclui isso em menos de 300 ms.

O segundo pilar é o reconhecimento da intenção, mas isso pode ser feito com a ajuda do Home Assistant. Com o Home Assistant Assist, sua fala passa de palavras para um modelo que realmente entende você. Em vez das suposições malucas e dos comandos alucinantes do LLM, o ASSIST depende de um projeto local de correspondência de frases codificado. Ele executa a automação instantaneamente porque tem acesso local direto ao banco de dados de sua casa inteligente.

E o terceiro e último pilar para completar a Santíssima Trindade é a conversão de texto em fala. Isso permitirá que seu novo assistente de casa inteligente responda a você. Piper é uma ótima opção para isso, pois é um mecanismo neural nativo de conversão de texto em fala altamente otimizado. Ao contrário das vozes antigas, robóticas e agitadas do Linux do passado, o Piper gera respostas de voz semelhantes às humanas e de alta fidelidade localmente, usando o mínimo de memória do sistema.

Você também precisará de hardware

E é significativamente mais barato que o Amazon Echo

É claro que, junto com todo o software que você precisa implementar, o hardware também é essencial. Os microfones físicos em sua casa podem captar comandos de voz em ambientes internos sem depender de hardware caro. Dispositivos como o Home Assistant Voice Preview Edition ou mesmo placas M5 Stack ATOM Echo personalizadas são totalmente funcionais com microcontroladores ESP32-S3 de baixo custo via ESPHome.

Ao conectar um microcontrolador ESP32-S3 a um conjunto de microfones duplos como o XMOS, você obtém seu próprio satélite de hardware. Adicione um interruptor físico de mudo e você terá uma configuração absolutamente perfeita. Embora possa não parecer muito persa, você sempre pode imprimir uma caixa em 3D para manter tudo dentro, para que pareça um pouco mais chamativo quando colocado sobre uma mesa ou na cozinha.

Uma chave seletora de hardware físico que literalmente interrompe o rastreamento da corrente elétrica do microfone pode ser essencial. É uma barreira de segurança baseada na física, não em código. O Satellite não possui sistema operacional ou armazenamento local e só pode transmitir dados de áudio brutos por Wi-Fi local quando acionado por seu mecanismo de wake word local.

Como criar

É um processo mais fácil do que você pensa

Assim que tiver a pilha de software e o satélite de hardware, você estará pronto para começar. A primeira coisa é implantar os complementos de voz. Vá para o painel de configurações do Home Assistant e instale os contêineres nativos Whisper e Piper por meio da loja de complementos. Deixe esses contêineres serem instalados e certifique-se de que sejam iniciados corretamente antes de prosseguir para a próxima etapa.

O próximo é o Bind usando o protocolo Wyoming. Assim que os contêineres forem inicializados, o Home Assistant deverá descobri-los automaticamente usando o Wyoming Integration, um protocolo de comunicação ultraleve para transferência de buffers de áudio bruto entre servidores locais. E agora você está pronto para criar seu perfil de assistente de voz. Vá para o seu Configuraçõesselecione Assistentes de voze crie um novo perfil de pipeline. Mapeie sua fala no campo de texto para Whisper e defina o agente de conversação para Home Assistant. Escolha seu perfil de voz local preferido para Piper.

Depois disso, é hora de piscar e pegar o microfone. Conecte o satélite de voz ESP32-S3 ao computador via USB. Use a ferramenta inicial ESP baseada em navegador para ativar o firmware de voz nativo via web wire. Conecte-o à sua sub-rede Wi-Fi local e inclua-o no seu painel. Com isso, você está pronto para ir. O hardware que você constrói pode ser usado como hubs domésticos inteligentes padrão e assistentes de voz como Google Assistant e Alexa.

Pare de depender de grandes servidores de tecnologia

Livre-se completamente da nuvem

Sua casa não deve depender da sua conexão com a Internet ou da política de privacidade da sua empresa para desligar a luz noturna. Em vez de permitir que as grandes tecnologias monitorem seus dados de voz e encerrem o suporte para seus antigos alto-falantes inteligentes, passe uma tarde construindo um pipeline local de Whisper-and-Piper. Espalhe alguns satélites de microfone ESP32 baratos pela sua casa e reivindique soberania local absoluta sobre sua infraestrutura.

Link da fonte