hace 11 h
Este documento de Meta acaba de romperme la cabeza 🤯 Todos han estado entrenando modelos de RL a ciegas, desperdiciando más de 100k horas de GPU esperando que algo funcione. ScaleRL lo cambia todo, ahora puedes predecir el éxito desde el primer día. Probaron 400,000 horas de GPU en todos los métodos principales y encontraron el patrón oculto: Déjame explicar ↓
Mostrar original
6,59 mil
37
El contenido de esta página lo proporcionan terceros. A menos que se indique lo contrario, OKX no es el autor de los artículos citados y no reclama ningún derecho de autor sobre los materiales. El contenido se proporciona únicamente con fines informativos y no representa las opiniones de OKX. No pretende ser un respaldo de ningún tipo y no debe ser considerado como un consejo de inversión o una solicitud para comprar o vender activos digitales. En la medida en que la IA generativa se utiliza para proporcionar resúmenes u otra información, dicho contenido generado por IA puede ser inexacto o incoherente. Lee el artículo vinculado para obtener más detalles e información. OKX no es responsable del contenido alojado en sitios de terceros. El holding de activos digitales, incluyendo stablecoins y NFT, implican un alto grado de riesgo y pueden fluctuar en gran medida. Debes considerar cuidadosamente si el trading o holding de activos digitales es adecuado para ti a la luz de tu situación financiera.