Эта работа Meta просто сломала мой мозг 🤯
Все обучали модели RL вслепую, тратя более 100 тысяч часов GPU в надежде, что что-то сработает.
ScaleRL меняет все, теперь вы можете предсказать успех с первого дня.
Они протестировали 400 000 часов GPU по всем основным методам и нашли скрытый паттерн:
Позвольте мне объяснить ↓
Показать оригинал
7,2 тыс.
49
Содержание этой страницы предоставляется третьими сторонами. OKX не является автором цитируемых статей и не имеет на них авторских прав, если не указано иное. Материалы предоставляются исключительно в информационных целях и не отражают мнения OKX. Материалы не являются инвестиционным советом и призывом к покупке или продаже цифровых активов. Раздел использует ИИ для создания обзоров и кратких содержаний предоставленных материалов. Обратите внимание, что информация, сгенерированная ИИ, может быть неточной и непоследовательной. Для получения полной информации изучите соответствующую оригинальную статью. OKX не несет ответственности за материалы, содержащиеся на сторонних сайтах. Цифровые активы, в том числе стейблкоины и NFT, подвержены высокому риску, а их стоимость может сильно колебаться. Перед торговлей и покупкой цифровых активов оцените ваше финансовое состояние и принимайте только взвешенные решения.