11 horas
Este artigo da Meta simplesmente quebrou a minha cabeça 🤯 Todos têm treinado modelos de RL às cegas, desperdiçando mais de 100 mil horas de GPU na esperança de que algo funcione. O ScaleRL muda tudo, agora você pode prever o sucesso desde o primeiro dia. Eles testaram 400.000 horas de GPU em todos os principais métodos e encontraram o padrão oculto: Deixe-me explicar ↓
Mostrar original
6,58 mil
37
O conteúdo apresentado nesta página é fornecido por terceiros. Salvo indicação em contrário, a OKX não é o autor dos artigos citados e não reivindica quaisquer direitos de autor nos materiais. O conteúdo é fornecido apenas para fins informativos e não representa a opinião da OKX. Não se destina a ser um endosso de qualquer tipo e não deve ser considerado conselho de investimento ou uma solicitação para comprar ou vender ativos digitais. Na medida em que a IA generativa é utilizada para fornecer resumos ou outras informações, esse mesmo conteúdo gerado por IA pode ser impreciso ou inconsistente. Leia o artigo associado para obter mais detalhes e informações. A OKX não é responsável pelo conteúdo apresentado nos sites de terceiros. As detenções de ativos digitais, incluindo criptomoedas estáveis e NFTs, envolvem um nível de risco elevado e podem sofrer grandes flutuações. Deve considerar cuidadosamente se o trading ou a detenção de ativos digitais é adequado para si à luz da sua condição financeira.