Featured image of post Infraestrutura de Home Lab: Por Que Construí de Trás para Frente

Infraestrutura de Home Lab: Por Que Construí de Trás para Frente

Infraestrutura de IA com prioridade na nuvem que não requer um data center. Um Raspberry Pi cuida da orquestração, Ollama Cloud cuida da inferência, e um mini-PC gamer fornece processamento local quando a privacidade importa.

Você não começa com um data center. Você começa com um problema.

Meu problema era simples: eu queria uma IA que simplesmente funcionasse. Prioridade na nuvem para velocidade, local quando preciso de privacidade. Sem gerenciamento de GPU na minha máquina diária.

O que construí parece estranho por fora. Um Raspberry Pi fazendo o trabalho cerebral. Um mini-PC gamer atuando como o carregador pesado. Um Surface Go e um Pixel 8 como frontend. Nada disso corresponde aos diagramas de arquitetura “adequados”.

Mas esse é o padrão: comece com restrições, construa o que funciona, adicione sofisticação depois.

Como as Peças Se Conectam

O Pi orquestra. A nuvem faz o pensamento. O EVO lida com trabalho sensível à privacidade. O GL.iNet Flint 2 roteia tudo — e fornece WireGuard VPN para acesso remoto do Surface e Pixel quando não estou em casa.

O Pi 5 Comanda o Show

Oito gigabytes. Suficiente quando você não está executando modelos.

O Pi é infraestrutura pura — sem inferência, apenas orquestração:

  • OpenClaw — o orquestrador, sempre ouvindo
  • SearXNG — busca local, sem limites de API
  • fmem — sistema de memória, busca semântica
  • Hermes — assistente pessoal de IA (contêiner Docker, para uso familiar)
  • Browser Node — contêiner Chromium descartável para automação web (Docker)

Sem Ollama aqui. O Pi roteia solicitações para Ollama Cloud por padrão, entrega para EVO quando preciso de processamento local. Isso mantém o Pi fresco, responsivo e confiável.

5GB de buffer significam sem pressão de memória. O Pi roda 24/7 sem suar.

Onde o Pensamento Acontece

Primário: Ollama Cloud

A maioria das consultas vai para ollama.com. Sem gerenciamento de GPU local, sem pressão de memória, sem atualizações de modelo para acompanhar.

Níveis: Gratuito (com limites de sessão), Pro ($20/mês para modelos fronteiriços), Max ($100/mês para uso intenso). Uso o nível gratuito no dia a dia; Pro quando preciso de modelos fronteiriços.

Local: EVO X2

Quando preciso de privacidade — documentos sensíveis, dados de trabalho, notas pessoais — a solicitação é roteada para o EVO em vez disso. Inferência local, nada sai da rede.

Nota de privacidade: “Nada sai da rede” significa que a solicitação não vai para a nuvem. O gateway Pi ainda vê todo o tráfego. Esta é privacidade “não enviado para nuvem”, não segurança adversarial — se alguém comprometer o Pi, eles veem tudo.

Isto não é nativo da nuvem. É com prioridade na nuvem, local quando necessário.

O EVO Acorda Quando Necessário

O EVO não roda 24/7. É o carregador pesado — 96GB de memória unificada, GPU Radeon 890M, NPU para inferência.

O que faz funcionar:

Componente Por Que Importa
96GB unificado Modelos não precisam caber na VRAM — CPU e GPU compartilham o pool
ROCm 7.1.1 Alternativa CUDA da AMD, experimental mas funcionando
Distrobox Isolamento de contêiner sem perder acesso ao hardware
Bazzite OS imutável, atualizações atômicas, SteamOS para desktop

O que roda aqui:

  • Ollama (local privacy) — Quando a nuvem não é apropriada. GLM 4.7 Flash é meu modelo preferido (tem um bug de cache KV que contorno), mas Qwen 3.5 roda sem problemas. Também serve como backend para agentes de codificação (Pi, Opencode) e outros serviços que precisam de acesso LLM local.
  • ComfyUI — Geração de imagens (FLUX Schnell, Real-ESRGAN)

O EVO acorda quando preciso de inferência local. Na maior parte do tempo, Ollama Cloud lida com a carga.

Dispositivos de Borda

O GL.iNet Flint 2 fica na borda — é o roteador que conecta tudo e fornece WireGuard VPN para acesso remoto.

Por que o Flint 2?

  • WireGuard na velocidade da linha — sem gargalo de CPU, sem penalidade de latência
  • Surface Go 2 e Pixel 8 se conectam através dele quando não estou em casa
  • Roteia tráfego para o gateway Pi sem expor serviços diretamente

O Surface Go 2 roda Ultramarine Linux — um Fedora Spin, não Atomic. Desempenho importa em hardware restrito. Distros imutáveis adicionam peso; Ultramarine mantém as coisas leves. Além disso, tem suporte ao kernel Surface fora da caixa.

O Pixel 8 é meu dispositivo diário. Ambos se conectam ao gateway Pi através de canais OpenClaw padrão — nenhum software de nó dedicado necessário.

Nenhum roda computação pesada. São terminais com uma linha direta para o Pi — seja eu estando na minha mesa ou no WireGuard de outro lugar.

Por Que Este Layout Funciona

Mantenha os dados próximos da computação.

Serviço Localização Por Que
OpenClaw Pi Orquestra tudo, deve estar sempre ativo
fmem Pi Consultas de memória precisam de baixa latência
SearXNG Pi Busca durante conversas, sem limites de API
Hermes Pi (Docker) Assistente familiar, contêiner leve
Ollama Cloud Remoto Inferência primária, zero overhead local
Ollama Local EVO Trabalho sensível à privacidade, fallback offline
ComfyUI EVO Requer GPU, não é crítico no tempo

O que não se move: o orquestrador e a memória. O que se move: computação pesada para onde está a RAM.

Este é o mesmo padrão que fazer compras de supermercado. Você não verifica cada corredor. Você verifica a lista. A lista é o cache — local, rápida, filtrada.

O Que Eu Não Construí

Eu não construí um cluster Kubernetes. Sem Proxmox, sem TrueNAS, sem itens básicos de homelab.

Isto não está competindo com homelabs — é um foco diferente. Kubernetes ajudaria com agendamento de GPU se eu precisasse. Proxmox ajudaria se eu estivesse executando muitos serviços. Não estou. Estou executando três coisas: orquestração, memória, inferência.

Foco Homelab Foco Laboratório de IA
Disponibilidade de serviço Velocidade de inferência
Alta disponibilidade Privacidade em primeiro lugar
Muitos serviços Poucos serviços, profundos
Dashboards GUI CLI e APIs

Eu não preciso de cinco noves de uptime. Preciso de inferência disponível, meus dados sensíveis locais quando necessário, e custos mínimos de nuvem.

Quanto Custa

Componente Hardware Consumo de Energia Custo Est./Mês
Pi 5 8GB, sempre ligado ~5W ~$0.50
GL.iNet Flint 2 Roteador, WireGuard ~6W ~$0.60
EVO X2 96GB, sob demanda ~120W ativo ~$5 (uso ocasional)
Surface Go 2 Sob demanda ~15W Negligenciável
Pixel 8 Dispositivo pessoal
Ollama Cloud Inferência remota Nível gratuito / $20 Pro

Total: ~$6/mês de energia + nível Ollama Cloud.

Como Se Mantém Seguro

Nada está exposto à internet pública. Todo o laboratório roda em uma rede privada — sem portas abertas, sem encaminhamento de porta, sem superfície de ataque.

O GL.iNet Flint 2 lida com o perímetro:

  • WireGuard VPN para acesso remoto — Surface Go e Pixel 8 se conectam com segurança de qualquer lugar
  • Criptografia na velocidade da linha — sem gargalo de CPU, sem latência perceptível
  • Roteia todo o tráfego através do Pi, nada contorna o gateway

O que está exposto:

  • SpudHub — Dashboard via túnel Cloudflare
  • BingeWatching — Rastreamento de entretenimento
  • Foundry VTT — Jogos de mesa (sob demanda)

O que não está exposto:

  • API OpenClaw
  • Endpoints Ollama
  • fmem, SearXNG, Hermes

Túneis Cloudflare (cloudflared) lidam com o roteamento. Sem conexões de entrada. O túnel disca para fora, Cloudflare roteia o tráfego de volta. Se o túnel morrer, o serviço desaparece — sem superfície de ataque obsoleta.

Onde Isso Quebra

Esta arquitetura não é para todos.

Limites do Pi 5:

  • 8GB RAM é bom sem Ollama — 5GB+ buffer
  • Sem GPU. Mas com prioridade na nuvem, isso não importa
  • SSD externo para OS — armazenamento rápido para cargas de trabalho de orquestração

Limites do EVO X2:

  • ROCm 7.1.1 funciona para Ollama fora da caixa (vLLM tem problemas, mas não estou usando)
  • Execução binária requer aprovação em contêineres Distrobox — por design, mas pode ser desativada com modo yolo se necessário
  • Não é sempre ligado sem aceitar custo de energia

O erro: Copie isso porque parece legal. Não faça isso.

O padrão: Comece com suas restrições. Construa o que funciona. Adicione sofisticação quando a restrição morder.

O Ponto

Você não precisa de um data center. Você precisa de um Raspberry Pi e uma ideia clara do que está otimizando.

Para mim, era: prioridade na nuvem para conveniência, local para privacidade.

O Pi orquestra. Ollama Cloud pensa. O EVO lida com trabalho sensível. Dispositivos de borda são terminais com uma linha direta para casa.

Mesmo padrão que entrega de supermercado: deixe outra pessoa estocar o armazém, cozinhe na sua própria cozinha quando importar.


Isenção de responsabilidade: Esta arquitetura reflete minhas restrições — prioridade de custo de energia, preferência local-first, sem necessidade de HA empresarial. Se você está executando uma carga de trabalho de produção, construa para suas restrições, não as minhas.

Share
Criado com Hugo
Tema Stack desenvolvido por Jimmy