Modelos de nivel S: GLM y... | Teknium (e/λ) OKX Feed

Hace 3 meses, me di cuenta de que dependía irremediablemente de las corporaciones que solo se preocupan por el poder, el dinero y el control. En este punto, Cursor, Claude, OpenAI, todos habían arruinado sus planes ilimitados. Quería un Mac M3 Ultra con 512 GB de RAM. Ahmad y Pewdiepie me convencieron de lo contrario. Esto es lo que aprendí construyendo mi propio AI Rig ----------------------------- La construcción ($ 3K- $ 10K) Este es el rendimiento máximo que puede obtener por debajo de 10k USD • 4x RTX 3090s con 2x NVLink • CPU Epyc con 128 carriles PCIe • 256-512 GB de RAM DDR4 • Placa base Romed8-2T • Rack personalizado + enfriamiento por ventilador • Fuente de alimentación AX1600i + elevadores de calidad Costo: $ 5K en EE. UU., $ 8K en la UE (gracias IVA) Verificación de la realidad del rendimiento Más 3090 = modelos más grandes, pero los rendimientos decrecientes se activan rápidamente. Siguiente paso: 8-12 GPU para AWQ de 4 bits o BF16 Mix GLM 4.5-4.6 Pero en este punto, ha alcanzado los límites de hardware de consumo. ---------------------------------------- Modelos que funcionan: Modelos de nivel S (el estándar de oro) • GLM-4.5-Air: Coincide con Sonnet 4.0, los códigos lo consiguieron sin problemas hasta un prellenado constante de 50 tps y 4k/s con vLLM • Hermes-70B: Te dice cualquier cosa sin jailbreak Caballos de batalla de nivel A • Línea Qwen • Línea Mistral • GPT-OSS Opciones de nivel B • Línea Gemma • Línea de llama ------------------------------------ La pila de software que realmente funciona Para codificación/agentes: • Código Claude + Router (GLM-4.5-Air funciona perfectamente) • Roocode Orchestrator: Definir modos (codificación, seguridad, revisor, investigador) El orquestador administra el ámbito, activa los LLM locales con contexto fragmentado y, a continuación, sintetiza los resultados. Puedes usar GPT-5 u Opus/GLM-4.6 como orquestador, ¡y modelos locales como todo lo demás! Opciones de andamios (clasificadas) 1. vLLM: Máximo rendimiento + usabilidad, ultrarrápido si el modelo encaja 2. exllamav3: Mucho más rápido, todos los tamaños cuantitativos, pero andamios pobres 3. llama.cpp: Arranque fácil, buenas velocidades iniciales, se degrada con el contexto Recomendaciones de interfaz de usuario • lmstudio: Bloqueado para llama.cpp pero gran UX • 3 Sparks: aplicación de Apple para LLM locales • JanAI: Está bien pero tiene funciones limitadas ------------------------------- En conclusión Mac Ultra M3 te ofrece un rendimiento del 60-80% con acceso MLX. Pero si quieres lo mejor, necesitas Nvidia. Este viaje me enseñó: la verdadera independencia proviene de comprender y construir tus propias herramientas. Si estás interesado en los puntos de referencia, he publicado mucho en mi perfil

8.68 K

El contenido al que estás accediendo se ofrece por terceros. A menos que se indique lo contrario, OKX no es autor de la información y no reclama ningún derecho de autor sobre los materiales. El contenido solo se proporciona con fines informativos y no representa las opiniones de OKX. No pretende ser un respaldo de ningún tipo y no debe ser considerado como un consejo de inversión o una solicitud para comprar o vender activos digitales. En la medida en que la IA generativa se utiliza para proporcionar resúmenes u otra información, dicho contenido generado por IA puede ser inexacto o incoherente. Lee el artículo enlazado para más detalles e información. OKX no es responsable del contenido alojado en sitios de terceros. Los holdings de activos digitales, incluidos stablecoins y NFT, suponen un alto nivel de riesgo y pueden fluctuar mucho. Debes considerar cuidadosamente si el trading o holding de activos digitales es adecuado para ti según tu situación financiera.