Mac mini com Ollama não é um engenheiro de IA. É outra coisa.

Quinze tokens por segundo. É o que um Mac mini M4 de entrada entrega rodando o Llama 3 8B via Ollama em prompts curtos. Para ler um resumo de reunião, passa. Para debugar um serviço distribuído com dez arquivos abertos ao mesmo tempo, é inutilizável. E esse número já assume que você comprou os 16 GB de RAM, não usa o swap e está rodando o modelo mais leve que ainda faz algo de útil.

A promessa que circula em fóruns de desenvolvimento é sedutora: $600 no Mac mini M4, Ollama instalado em dez minutos, e você tem um par de programação de nível mundial rodando localmente, sem assinatura, sem API, sem vazamento de dados para nenhum servidor da Anthropic ou da OpenAI. Soberania digital completa. É uma narrativa bonita. É também tecnicamente impossível no hardware disponível hoje.


O que a RAM realmente limita

O chip M4 da Apple é genuíno na sua eficiência. Dez núcleos de CPU, GPU integrada de dez núcleos, Neural Engine de 16 núcleos — uma engenharia impressionante para o que foi projetado: produtividade, criação de conteúdo, compilação. O problema não é o chip. É a memória, e como ela é consumida quando um LLM entra em operação.

No M4, RAM e VRAM são a mesma coisa. O sistema operacional, as aplicações abertas e o modelo de IA competem pelo mesmo pool. Um modelo de 7 bilhões de parâmetros em quantização de 4 bits — o Llama 3 8B ou o Mistral 7B, por exemplo — precisa de 4 a 6 GB só para carregar os pesos antes de processar uma única palavra. À medida que a conversa avança e o contexto cresce, esse consumo sobe. Em 16 GB de RAM compartilhada, o espaço para contexto real é estreito desde o início.

A janela de contexto é onde a comparação com modelos de nuvem se torna brutal. O Claude 3.5 Sonnet opera com 200 mil tokens de contexto — o equivalente a colar um repositório inteiro de código e ainda ter espaço para o histórico da conversa. No Mac mini de 16 GB rodando modelos locais, manter 8 mil tokens sem degradação de performance é otimista. Acima disso, ou a geração desacelera para menos de 1 token por segundo, ou o modelo começa a “esquecer” o início do contexto — o que, para engenharia de software, significa perder a coerência entre arquivos.

Aumentar para o modelo de 32 GB ou 64 GB muda a equação de escassez, mas não resolve o problema fundamental: os modelos que cabem no hardware de consumo não têm a capacidade de raciocínio dos modelos que rodam na infraestrutura de datacenter.


A lacuna que os parâmetros explicam

Parâmetros não são tudo em um LLM, mas são um proxy honesto de capacidade quando os dados de treinamento são comparáveis. O Claude 3.5 Sonnet opera com uma ordem de grandeza a mais de parâmetros do que qualquer modelo que roda de forma prática em hardware de consumo — e foi treinado em datasets proprietários de escala e qualidade que não estão disponíveis publicamente.

A consequência prática aparece em tarefas de engenharia com múltiplas etapas: decomposição de problema, manutenção de coerência entre funções interdependentes, raciocínio sobre efeitos colaterais de uma refatoração em outras partes do sistema. Modelos de 8B a 13B parâmetros seguem instruções simples com precisão razoável. Quando a instrução tem cinco etapas e depende de contexto estabelecido três mensagens atrás, a taxa de falha sobe visivelmente.

A Neural Engine da Apple agrava esse ponto por outra via. Embora poderosa em papel, ela ainda não é totalmente aproveitada por bibliotecas de código aberto como o llama.cpp — a base técnica do Ollama. A inferência cai em grande parte sobre a GPU integrada, que foi projetada para outro tipo de carga de trabalho. O resultado é que você paga pelo Neural Engine, mas ele não está trabalhando no que você instalou.


Onde faz sentido e onde não faz

Isso não é argumento para jogar fora o Ollama. É argumento para saber o que ele é.

Há casos de uso legítimos e poderosos para modelos locais. Dados que não podem sair da máquina — registros médicos, informações sob NDA, código de sistema crítico — têm aqui o único ambiente onde AI pode ser aplicada sem risco de exposição. Trabalho offline, em regiões com conectividade instável ou em ambientes air-gapped, é outro cenário onde local é a única opção. Inferências repetitivas e simples em volume — classificação de tickets, extração de campos de formulários, resumo de logs — podem rodar localmente a custo zero com qualidade suficiente.

Para essas funções, o Mac mini com Ollama é uma ferramenta legítima e valiosa. Para pair programming em código complexo, arquitetura de sistemas distribuídos, debugging de comportamento emergente em microserviços, ou qualquer tarefa onde o modelo precisa manter coerência em um contexto longo e raciocinar sobre interdependências — o hardware de $600 não entrega. E nenhuma engenharia de prompt resolve um limite de física.


O futuro da IA aplicada é híbrido, mas a divisão de trabalho não é arbitrária. Local serve privacidade e volume simples. Nuvem serve inteligência pesada. Tentar forçar o segundo caso no primeiro hardware não é soberania digital — é aceitar uma ferramenta inferior por razão ideológica. O Claude ainda mora na nuvem porque é lá que ele consegue ser o que é. Enquanto o hardware de consumo não der um salto de duas gerações em capacidade de memória e largura de banda, isso não vai mudar.


Fontes

Hardware — Mac mini M4: Apple — Mac mini Specs | Apple — M4 Chip

Modelos locais e quantização: Meta — Llama 3 Model Card | Mistral AI — Mistral 7B | llama.cpp — Apple Silicon Performance

Inferência e benchmarks de velocidade: Ollama — Documentação oficial | llama.cpp GitHub | Simon Willison — Running LLMs locally

Claude 3.5 Sonnet — contexto e especificações: Anthropic — Claude 3.5 Sonnet | Anthropic — Model Comparison