Modelos S Tier: GLM e Hermes 👀👀🔥🥰
3 meses atrás, percebi que era irremediavelmente dependente de corporações que só se preocupam com poder, dinheiro e controle.
Neste ponto, Cursor, Claude, OpenAI, todos haviam robusto seus planos ilimitados.
Eu queria um Mac M3 Ultra com 512 GB de RAM. Ahmad e Pewdiepie me convenceram do contrário.
Aqui está o que aprendi construindo meu próprio AI Rig
-----------------------------
A construção ($ 3K - $ 10K)
Este Ă© o melhor desempenho que vocĂŞ pode obter abaixo de 10k USD
• 4x RTX 3090s com 2x NVLink
• CPU Epyc com 128 pistas PCIe
• 256-512 GB de RAM DDR4
• Placa-mãe Romed8-2T
• Rack personalizado + resfriamento por ventilador
• Fonte de alimentação AX1600i + risers de qualidade
Custo: $ 5K nos EUA, $ 8K na UE (obrigado IVA)
Verificação da realidade do desempenho
Mais 3090s = modelos maiores, mas retornos decrescentes entram em ação rapidamente.
PrĂłxima etapa: 8-12 GPUs para AWQ de 4 bits ou BF16 Mix GLM 4.5-4.6
Mas, neste ponto, vocĂŞ atingiu os limites de hardware do consumidor.
----------------------------------------
Modelos que funcionam:
Modelos S-Tier (o padrĂŁo de ouro)
• GLM-4.5-Air: Corresponde ao Sonnet 4.0, os códigos conseguiram com perfeição até 50 tps estáveis e pré-preenchimento de 4k/s com vLLM
• Hermes-70B: Diz qualquer coisa sem jailbreak
Cavalos de batalha de nĂvel A
• Linha Qwen
• Linha Mistral
• GPT-OSS
Opções de nĂvel B
• Linha Gemma
• Linha Lhama
------------------------------------
A pilha de software que realmente funciona
Para codificação/agentes:
• Claude Code + Router (GLM-4.5-Air funciona perfeitamente)
• Roocode Orchestrator: Definir modos (codificação, segurança, revisor, pesquisador)
O orquestrador gerencia o escopo, cria LLMs locais com contexto fragmentado e, em seguida, sintetiza os resultados. VocĂŞ pode usar GPT-5 ou Opus/GLM-4.6 como orquestrador e modelos locais como todo o resto!
Opções de andaimes (classificadas)
1. vLLM: Desempenho máximo + usabilidade, extremamente rápido se o modelo se encaixar
2. exllamav3: Muito mais rápido, todos os tamanhos quant, mas andaimes pobres
3. llama.cpp: InĂcio fácil, boas velocidades iniciais, degrada-se sobre o contexto
Recomendações de interface do usuário
• lmstudio: Bloqueado para llama.cpp, mas ótimo UX
• 3 Sparks: aplicativo da Apple para LLMs locais
• JanAI: Bom, mas com recursos limitados
-------------------------------
Ponto-chave
O Mac Ultra M3 oferece desempenho de 60 a 80% com acesso MLX. Mas se vocĂŞ quer o melhor absoluto, precisa da Nvidia.
Essa jornada me ensinou: a verdadeira independência vem da compreensão e da construção de suas próprias ferramentas.
Se vocĂŞ estiver interessado em benchmarks, postei muito no meu perfil


7,84Â mil
70
O conteúdo desta página é fornecido por terceiros. A menos que especificado de outra forma, a OKX não é a autora dos artigos mencionados e não reivindica direitos autorais sobre os materiais apresentados. O conteúdo tem um propósito meramente informativo e não representa as opiniões da OKX. Ele não deve ser interpretado como um endosso ou aconselhamento de investimento de qualquer tipo, nem como uma recomendação para compra ou venda de ativos digitais. Quando a IA generativa é utilizada para criar resumos ou outras informações, o conteúdo gerado pode apresentar imprecisões ou incoerências. Leia o artigo vinculado para mais detalhes e informações. A OKX não se responsabiliza pelo conteúdo hospedado em sites de terceiros. Possuir ativos digitais, como stablecoins e NFTs, envolve um risco elevado e pode apresentar flutuações significativas. Você deve ponderar com cuidado se negociar ou manter ativos digitais é adequado para sua condição financeira.