Modelos de nivel S: GLM y Hermes 👀👀🔥🥰
Hace 3 meses, me di cuenta de que dependía irremediablemente de las corporaciones que solo se preocupan por el poder, el dinero y el control.
En este punto, Cursor, Claude, OpenAI, todos habían arruinado sus planes ilimitados.
Quería un Mac M3 Ultra con 512 GB de RAM. Ahmad y Pewdiepie me convencieron de lo contrario.
Esto es lo que aprendí construyendo mi propio AI Rig
-----------------------------
La construcción ($ 3K- $ 10K)
Este es el rendimiento máximo que puede obtener por debajo de 10k USD
• 4x RTX 3090s con 2x NVLink
• CPU Epyc con 128 carriles PCIe
• 256-512 GB de RAM DDR4
• Placa base Romed8-2T
• Rack personalizado + enfriamiento por ventilador
• Fuente de alimentación AX1600i + elevadores de calidad
Costo: $ 5K en EE. UU., $ 8K en la UE (gracias IVA)
Verificación de la realidad del rendimiento
Más 3090 = modelos más grandes, pero los rendimientos decrecientes se activan rápidamente.
Siguiente paso: 8-12 GPU para AWQ de 4 bits o BF16 Mix GLM 4.5-4.6
Pero en este punto, ha alcanzado los límites de hardware de consumo.
----------------------------------------
Modelos que funcionan:
Modelos de nivel S (el estándar de oro)
• GLM-4.5-Air: Coincide con Sonnet 4.0, los códigos lo consiguieron sin problemas hasta un prellenado constante de 50 tps y 4k/s con vLLM
• Hermes-70B: Te dice cualquier cosa sin jailbreak
Caballos de batalla de nivel A
• Línea Qwen
• Línea Mistral
• GPT-OSS
Opciones de nivel B
• Línea Gemma
• Línea de llama
------------------------------------
La pila de software que realmente funciona
Para codificación/agentes:
• Código Claude + Router (GLM-4.5-Air funciona perfectamente)
• Roocode Orchestrator: Definir modos (codificación, seguridad, revisor, investigador)
El orquestador administra el ámbito, activa los LLM locales con contexto fragmentado y, a continuación, sintetiza los resultados. Puedes usar GPT-5 u Opus/GLM-4.6 como orquestador, ¡y modelos locales como todo lo demás!
Opciones de andamios (clasificadas)
1. vLLM: Máximo rendimiento + usabilidad, ultrarrápido si el modelo encaja
2. exllamav3: Mucho más rápido, todos los tamaños cuantitativos, pero andamios pobres
3. llama.cpp: Arranque fácil, buenas velocidades iniciales, se degrada con el contexto
Recomendaciones de interfaz de usuario
• lmstudio: Bloqueado para llama.cpp pero gran UX
• 3 Sparks: aplicación de Apple para LLM locales
• JanAI: Está bien pero tiene funciones limitadas
-------------------------------
En conclusión
Mac Ultra M3 te ofrece un rendimiento del 60-80% con acceso MLX. Pero si quieres lo mejor, necesitas Nvidia.
Este viaje me enseñó: la verdadera independencia proviene de comprender y construir tus propias herramientas.
Si estás interesado en los puntos de referencia, he publicado mucho en mi perfil


8.68 K
75
El contenido al que estás accediendo se ofrece por terceros. A menos que se indique lo contrario, OKX no es autor de la información y no reclama ningún derecho de autor sobre los materiales. El contenido solo se proporciona con fines informativos y no representa las opiniones de OKX. No pretende ser un respaldo de ningún tipo y no debe ser considerado como un consejo de inversión o una solicitud para comprar o vender activos digitales. En la medida en que la IA generativa se utiliza para proporcionar resúmenes u otra información, dicho contenido generado por IA puede ser inexacto o incoherente. Lee el artículo enlazado para más detalles e información. OKX no es responsable del contenido alojado en sitios de terceros. Los holdings de activos digitales, incluidos stablecoins y NFT, suponen un alto nivel de riesgo y pueden fluctuar mucho. Debes considerar cuidadosamente si el trading o holding de activos digitales es adecuado para ti según tu situación financiera.