Você não começa com um data center. Você começa com um problema.
Meu problema era simples: eu queria uma IA que simplesmente funcionasse. Prioridade na nuvem para velocidade, local quando preciso de privacidade. Sem gerenciamento de GPU na minha máquina diária.
O que construí parece estranho por fora. Um Raspberry Pi fazendo o trabalho cerebral. Um mini-PC gamer atuando como o carregador pesado. Um Surface Go e um Pixel 8 como frontend. Nada disso corresponde aos diagramas de arquitetura “adequados”.
Mas esse é o padrão: comece com restrições, construa o que funciona, adicione sofisticação depois.
Como as Peças Se Conectam
O Pi orquestra. A nuvem faz o pensamento. O EVO lida com trabalho sensível à privacidade. O GL.iNet Flint 2 roteia tudo — e fornece WireGuard VPN para acesso remoto do Surface e Pixel quando não estou em casa.
O Pi 5 Comanda o Show
Oito gigabytes. Suficiente quando você não está executando modelos.
O Pi é infraestrutura pura — sem inferência, apenas orquestração:
- OpenClaw — o orquestrador, sempre ouvindo
- SearXNG — busca local, sem limites de API
- fmem — sistema de memória, busca semântica
- Hermes — assistente pessoal de IA (contêiner Docker, para uso familiar)
- Browser Node — contêiner Chromium descartável para automação web (Docker)
Sem Ollama aqui. O Pi roteia solicitações para Ollama Cloud por padrão, entrega para EVO quando preciso de processamento local. Isso mantém o Pi fresco, responsivo e confiável.
5GB de buffer significam sem pressão de memória. O Pi roda 24/7 sem suar.
Onde o Pensamento Acontece
Primário: Ollama Cloud
A maioria das consultas vai para ollama.com. Sem gerenciamento de GPU local, sem pressão de memória, sem atualizações de modelo para acompanhar.
Níveis: Gratuito (com limites de sessão), Pro ($20/mês para modelos fronteiriços), Max ($100/mês para uso intenso). Uso o nível gratuito no dia a dia; Pro quando preciso de modelos fronteiriços.
Local: EVO X2
Quando preciso de privacidade — documentos sensíveis, dados de trabalho, notas pessoais — a solicitação é roteada para o EVO em vez disso. Inferência local, nada sai da rede.
Nota de privacidade: “Nada sai da rede” significa que a solicitação não vai para a nuvem. O gateway Pi ainda vê todo o tráfego. Esta é privacidade “não enviado para nuvem”, não segurança adversarial — se alguém comprometer o Pi, eles veem tudo.
Isto não é nativo da nuvem. É com prioridade na nuvem, local quando necessário.
O EVO Acorda Quando Necessário
O EVO não roda 24/7. É o carregador pesado — 96GB de memória unificada, GPU Radeon 890M, NPU para inferência.
O que faz funcionar:
| Componente | Por Que Importa |
|---|---|
| 96GB unificado | Modelos não precisam caber na VRAM — CPU e GPU compartilham o pool |
| ROCm 7.1.1 | Alternativa CUDA da AMD, experimental mas funcionando |
| Distrobox | Isolamento de contêiner sem perder acesso ao hardware |
| Bazzite | OS imutável, atualizações atômicas, SteamOS para desktop |
O que roda aqui:
- Ollama (local privacy) — Quando a nuvem não é apropriada. GLM 4.7 Flash é meu modelo preferido (tem um bug de cache KV que contorno), mas Qwen 3.5 roda sem problemas. Também serve como backend para agentes de codificação (Pi, Opencode) e outros serviços que precisam de acesso LLM local.
- ComfyUI — Geração de imagens (FLUX Schnell, Real-ESRGAN)
O EVO acorda quando preciso de inferência local. Na maior parte do tempo, Ollama Cloud lida com a carga.
Dispositivos de Borda
O GL.iNet Flint 2 fica na borda — é o roteador que conecta tudo e fornece WireGuard VPN para acesso remoto.
Por que o Flint 2?
- WireGuard na velocidade da linha — sem gargalo de CPU, sem penalidade de latência
- Surface Go 2 e Pixel 8 se conectam através dele quando não estou em casa
- Roteia tráfego para o gateway Pi sem expor serviços diretamente
O Surface Go 2 roda Ultramarine Linux — um Fedora Spin, não Atomic. Desempenho importa em hardware restrito. Distros imutáveis adicionam peso; Ultramarine mantém as coisas leves. Além disso, tem suporte ao kernel Surface fora da caixa.
O Pixel 8 é meu dispositivo diário. Ambos se conectam ao gateway Pi através de canais OpenClaw padrão — nenhum software de nó dedicado necessário.
Nenhum roda computação pesada. São terminais com uma linha direta para o Pi — seja eu estando na minha mesa ou no WireGuard de outro lugar.
Por Que Este Layout Funciona
Mantenha os dados próximos da computação.
| Serviço | Localização | Por Que |
|---|---|---|
| OpenClaw | Pi | Orquestra tudo, deve estar sempre ativo |
| fmem | Pi | Consultas de memória precisam de baixa latência |
| SearXNG | Pi | Busca durante conversas, sem limites de API |
| Hermes | Pi (Docker) | Assistente familiar, contêiner leve |
| Ollama Cloud | Remoto | Inferência primária, zero overhead local |
| Ollama Local | EVO | Trabalho sensível à privacidade, fallback offline |
| ComfyUI | EVO | Requer GPU, não é crítico no tempo |
O que não se move: o orquestrador e a memória. O que se move: computação pesada para onde está a RAM.
Este é o mesmo padrão que fazer compras de supermercado. Você não verifica cada corredor. Você verifica a lista. A lista é o cache — local, rápida, filtrada.
O Que Eu Não Construí
Eu não construí um cluster Kubernetes. Sem Proxmox, sem TrueNAS, sem itens básicos de homelab.
Isto não está competindo com homelabs — é um foco diferente. Kubernetes ajudaria com agendamento de GPU se eu precisasse. Proxmox ajudaria se eu estivesse executando muitos serviços. Não estou. Estou executando três coisas: orquestração, memória, inferência.
| Foco Homelab | Foco Laboratório de IA |
|---|---|
| Disponibilidade de serviço | Velocidade de inferência |
| Alta disponibilidade | Privacidade em primeiro lugar |
| Muitos serviços | Poucos serviços, profundos |
| Dashboards GUI | CLI e APIs |
Eu não preciso de cinco noves de uptime. Preciso de inferência disponível, meus dados sensíveis locais quando necessário, e custos mínimos de nuvem.
Quanto Custa
| Componente | Hardware | Consumo de Energia | Custo Est./Mês |
|---|---|---|---|
| Pi 5 | 8GB, sempre ligado | ~5W | ~$0.50 |
| GL.iNet Flint 2 | Roteador, WireGuard | ~6W | ~$0.60 |
| EVO X2 | 96GB, sob demanda | ~120W ativo | ~$5 (uso ocasional) |
| Surface Go 2 | Sob demanda | ~15W | Negligenciável |
| Pixel 8 | Dispositivo pessoal | — | — |
| Ollama Cloud | Inferência remota | — | Nível gratuito / $20 Pro |
Total: ~$6/mês de energia + nível Ollama Cloud.
Como Se Mantém Seguro
Nada está exposto à internet pública. Todo o laboratório roda em uma rede privada — sem portas abertas, sem encaminhamento de porta, sem superfície de ataque.
O GL.iNet Flint 2 lida com o perímetro:
- WireGuard VPN para acesso remoto — Surface Go e Pixel 8 se conectam com segurança de qualquer lugar
- Criptografia na velocidade da linha — sem gargalo de CPU, sem latência perceptível
- Roteia todo o tráfego através do Pi, nada contorna o gateway
O que está exposto:
- SpudHub — Dashboard via túnel Cloudflare
- BingeWatching — Rastreamento de entretenimento
- Foundry VTT — Jogos de mesa (sob demanda)
O que não está exposto:
- API OpenClaw
- Endpoints Ollama
- fmem, SearXNG, Hermes
Túneis Cloudflare (cloudflared) lidam com o roteamento. Sem conexões de entrada. O túnel disca para fora, Cloudflare roteia o tráfego de volta. Se o túnel morrer, o serviço desaparece — sem superfície de ataque obsoleta.
Onde Isso Quebra
Esta arquitetura não é para todos.
Limites do Pi 5:
- 8GB RAM é bom sem Ollama — 5GB+ buffer
- Sem GPU. Mas com prioridade na nuvem, isso não importa
- SSD externo para OS — armazenamento rápido para cargas de trabalho de orquestração
Limites do EVO X2:
- ROCm 7.1.1 funciona para Ollama fora da caixa (vLLM tem problemas, mas não estou usando)
- Execução binária requer aprovação em contêineres Distrobox — por design, mas pode ser desativada com modo yolo se necessário
- Não é sempre ligado sem aceitar custo de energia
O erro: Copie isso porque parece legal. Não faça isso.
O padrão: Comece com suas restrições. Construa o que funciona. Adicione sofisticação quando a restrição morder.
O Ponto
Você não precisa de um data center. Você precisa de um Raspberry Pi e uma ideia clara do que está otimizando.
Para mim, era: prioridade na nuvem para conveniência, local para privacidade.
O Pi orquestra. Ollama Cloud pensa. O EVO lida com trabalho sensível. Dispositivos de borda são terminais com uma linha direta para casa.
Mesmo padrão que entrega de supermercado: deixe outra pessoa estocar o armazém, cozinhe na sua própria cozinha quando importar.
Isenção de responsabilidade: Esta arquitetura reflete minhas restrições — prioridade de custo de energia, preferência local-first, sem necessidade de HA empresarial. Se você está executando uma carga de trabalho de produção, construa para suas restrições, não as minhas.