Infraestrutura de Home Lab: Por Que Construí de Trás para Frente

Você não começa com um data center. Você começa com um problema.

Meu problema era simples: eu queria uma IA que simplesmente funcionasse. Prioridade na nuvem para velocidade, local quando preciso de privacidade. Sem gerenciamento de GPU na minha máquina diária.

O que construí parece estranho por fora. Um Raspberry Pi fazendo o trabalho cerebral. Um mini-PC gamer atuando como o carregador pesado. Um Surface Go e um Pixel 8 como frontend. Nada disso corresponde aos diagramas de arquitetura “adequados”.

Mas esse é o padrão: comece com restrições, construa o que funciona, adicione sofisticação depois.

Como as Peças Se Conectam

graph TB
    subgraph Internet
        OllamaCloud[Ollama Cloud
Primary Inference]
    end
    
    subgraph "GL.iNet Flint 2 (Router)"
        WireGuard[WireGuard VPN
Remote Access]
    end
    
    subgraph "Pi 5 (Gateway) - 192.168.121.10"
        OpenClaw[OpenClaw Agent
Always-On]
        SearXNG[SearXNG
Local Search]
        fmem[fmem
Memory Index]
        Hermes[Hermes
Family Assistant]
    end
    
    subgraph "EVO X2 (Compute) - 192.168.121.20"
        OllamaEVO[Ollama Local
Privacy Mode]
        ComfyUI[ComfyUI
Image Gen]
    end
    
    subgraph Edge
        Surface[Surface Go 2
Ultramarine Linux]
        Pixel[Pixel 8
Android]
    end
    
    OpenClaw -->|Primary| OllamaCloud
    OpenClaw -->|Local Privacy| OllamaEVO
    Surface -->|WireGuard| WireGuard
    Pixel -->|WireGuard| WireGuard
    WireGuard --> OpenClaw

O Pi orquestra. A nuvem faz o pensamento. O EVO lida com trabalho sensível à privacidade. O GL.iNet Flint 2 roteia tudo — e fornece WireGuard VPN para acesso remoto do Surface e Pixel quando não estou em casa.

O Pi 5 Comanda o Show

graph LR
    subgraph "Pi 5 (8GB RAM)"
        Core[Core Services]
    end
    
    subgraph "Memory Budget"
        OS[OS + OpenClaw: 2GB]
        Search[SearXNG: 500MB]
        Memory[fmem Index: 500MB]
        Buffer[Buffer: 5GB]
    end
    
    Core --> OS
    Core --> Search
    Core --> Memory
    Core --> Buffer

Oito gigabytes. Suficiente quando você não está executando modelos.

O Pi é infraestrutura pura — sem inferência, apenas orquestração:

OpenClaw — o orquestrador, sempre ouvindo
SearXNG — busca local, sem limites de API
fmem — sistema de memória, busca semântica
Hermes — assistente pessoal de IA (contêiner Docker, para uso familiar)
Browser Node — contêiner Chromium descartável para automação web (Docker)

Sem Ollama aqui. O Pi roteia solicitações para Ollama Cloud por padrão, entrega para EVO quando preciso de processamento local. Isso mantém o Pi fresco, responsivo e confiável.

5GB de buffer significam sem pressão de memória. O Pi roda 24/7 sem suar.

Onde o Pensamento Acontece

graph LR
    subgraph "Inference Tiers"
        Primary[Primary
Ollama Cloud]
        Local[Local Privacy
EVO X2]
    end
    
    Request[Request] --> Primary
    Primary -->|Privacy Needed| Local
    Primary -->|Cloud Down| Local

Primário: Ollama Cloud

A maioria das consultas vai para ollama.com. Sem gerenciamento de GPU local, sem pressão de memória, sem atualizações de modelo para acompanhar.

Níveis: Gratuito (com limites de sessão), Pro ($20/mês para modelos fronteiriços), Max ($100/mês para uso intenso). Uso o nível gratuito no dia a dia; Pro quando preciso de modelos fronteiriços.

Local: EVO X2

Quando preciso de privacidade — documentos sensíveis, dados de trabalho, notas pessoais — a solicitação é roteada para o EVO em vez disso. Inferência local, nada sai da rede.

Nota de privacidade: “Nada sai da rede” significa que a solicitação não vai para a nuvem. O gateway Pi ainda vê todo o tráfego. Esta é privacidade “não enviado para nuvem”, não segurança adversarial — se alguém comprometer o Pi, eles veem tudo.

Isto não é nativo da nuvem. É com prioridade na nuvem, local quando necessário.

O EVO Acorda Quando Necessário

O EVO não roda 24/7. É o carregador pesado — 96GB de memória unificada, GPU Radeon 890M, NPU para inferência.

O que faz funcionar:

Componente	Por Que Importa
96GB unificado	Modelos não precisam caber na VRAM — CPU e GPU compartilham o pool
ROCm 7.1.1	Alternativa CUDA da AMD, experimental mas funcionando
Distrobox	Isolamento de contêiner sem perder acesso ao hardware
Bazzite	OS imutável, atualizações atômicas, SteamOS para desktop

O que roda aqui:

Ollama (local privacy) — Quando a nuvem não é apropriada. GLM 4.7 Flash é meu modelo preferido (tem um bug de cache KV que contorno), mas Qwen 3.5 roda sem problemas. Também serve como backend para agentes de codificação (Pi, Opencode) e outros serviços que precisam de acesso LLM local.
ComfyUI — Geração de imagens (FLUX Schnell, Real-ESRGAN)

O EVO acorda quando preciso de inferência local. Na maior parte do tempo, Ollama Cloud lida com a carga.

Dispositivos de Borda

O GL.iNet Flint 2 fica na borda — é o roteador que conecta tudo e fornece WireGuard VPN para acesso remoto.

Por que o Flint 2?

WireGuard na velocidade da linha — sem gargalo de CPU, sem penalidade de latência
Surface Go 2 e Pixel 8 se conectam através dele quando não estou em casa
Roteia tráfego para o gateway Pi sem expor serviços diretamente

O Surface Go 2 roda Ultramarine Linux — um Fedora Spin, não Atomic. Desempenho importa em hardware restrito. Distros imutáveis adicionam peso; Ultramarine mantém as coisas leves. Além disso, tem suporte ao kernel Surface fora da caixa.

O Pixel 8 é meu dispositivo diário. Ambos se conectam ao gateway Pi através de canais OpenClaw padrão — nenhum software de nó dedicado necessário.

Nenhum roda computação pesada. São terminais com uma linha direta para o Pi — seja eu estando na minha mesa ou no WireGuard de outro lugar.

Por Que Este Layout Funciona

Mantenha os dados próximos da computação.

Serviço	Localização	Por Que
OpenClaw	Pi	Orquestra tudo, deve estar sempre ativo
fmem	Pi	Consultas de memória precisam de baixa latência
SearXNG	Pi	Busca durante conversas, sem limites de API
Hermes	Pi (Docker)	Assistente familiar, contêiner leve
Ollama Cloud	Remoto	Inferência primária, zero overhead local
Ollama Local	EVO	Trabalho sensível à privacidade, fallback offline
ComfyUI	EVO	Requer GPU, não é crítico no tempo

O que não se move: o orquestrador e a memória. O que se move: computação pesada para onde está a RAM.

Este é o mesmo padrão que fazer compras de supermercado. Você não verifica cada corredor. Você verifica a lista. A lista é o cache — local, rápida, filtrada.

O Que Eu Não Construí

Eu não construí um cluster Kubernetes. Sem Proxmox, sem TrueNAS, sem itens básicos de homelab.

Isto não está competindo com homelabs — é um foco diferente. Kubernetes ajudaria com agendamento de GPU se eu precisasse. Proxmox ajudaria se eu estivesse executando muitos serviços. Não estou. Estou executando três coisas: orquestração, memória, inferência.

Foco Homelab	Foco Laboratório de IA
Disponibilidade de serviço	Velocidade de inferência
Alta disponibilidade	Privacidade em primeiro lugar
Muitos serviços	Poucos serviços, profundos
Dashboards GUI	CLI e APIs

Eu não preciso de cinco noves de uptime. Preciso de inferência disponível, meus dados sensíveis locais quando necessário, e custos mínimos de nuvem.

Quanto Custa

Componente	Hardware	Consumo de Energia	Custo Est./Mês
Pi 5	8GB, sempre ligado	~5W	~$0.50
GL.iNet Flint 2	Roteador, WireGuard	~6W	~$0.60
EVO X2	96GB, sob demanda	~120W ativo	~$5 (uso ocasional)
Surface Go 2	Sob demanda	~15W	Negligenciável
Pixel 8	Dispositivo pessoal	—	—
Ollama Cloud	Inferência remota	—	Nível gratuito / $20 Pro

Total: ~$6/mês de energia + nível Ollama Cloud.

Como Se Mantém Seguro

Nada está exposto à internet pública. Todo o laboratório roda em uma rede privada — sem portas abertas, sem encaminhamento de porta, sem superfície de ataque.

O GL.iNet Flint 2 lida com o perímetro:

WireGuard VPN para acesso remoto — Surface Go e Pixel 8 se conectam com segurança de qualquer lugar
Criptografia na velocidade da linha — sem gargalo de CPU, sem latência perceptível
Roteia todo o tráfego através do Pi, nada contorna o gateway

O que está exposto:

SpudHub — Dashboard via túnel Cloudflare
BingeWatching — Rastreamento de entretenimento
Foundry VTT — Jogos de mesa (sob demanda)

O que não está exposto:

API OpenClaw
Endpoints Ollama
fmem, SearXNG, Hermes

Túneis Cloudflare (cloudflared) lidam com o roteamento. Sem conexões de entrada. O túnel disca para fora, Cloudflare roteia o tráfego de volta. Se o túnel morrer, o serviço desaparece — sem superfície de ataque obsoleta.

Onde Isso Quebra

Esta arquitetura não é para todos.

Limites do Pi 5:

8GB RAM é bom sem Ollama — 5GB+ buffer
Sem GPU. Mas com prioridade na nuvem, isso não importa
SSD externo para OS — armazenamento rápido para cargas de trabalho de orquestração

Limites do EVO X2:

ROCm 7.1.1 funciona para Ollama fora da caixa (vLLM tem problemas, mas não estou usando)
Execução binária requer aprovação em contêineres Distrobox — por design, mas pode ser desativada com modo yolo se necessário
Não é sempre ligado sem aceitar custo de energia

O erro: Copie isso porque parece legal. Não faça isso.

O padrão: Comece com suas restrições. Construa o que funciona. Adicione sofisticação quando a restrição morder.

O Ponto

Você não precisa de um data center. Você precisa de um Raspberry Pi e uma ideia clara do que está otimizando.

Para mim, era: prioridade na nuvem para conveniência, local para privacidade.

O Pi orquestra. Ollama Cloud pensa. O EVO lida com trabalho sensível. Dispositivos de borda são terminais com uma linha direta para casa.

Mesmo padrão que entrega de supermercado: deixe outra pessoa estocar o armazém, cozinhe na sua própria cozinha quando importar.

Isenção de responsabilidade: Esta arquitetura reflete minhas restrições — prioridade de custo de energia, preferência local-first, sem necessidade de HA empresarial. Se você está executando uma carga de trabalho de produção, construa para suas restrições, não as minhas.