Uber details Fiber, фреймворк для обучения модели распределенного ИИ

Препринт бумага В соавторстве с учеными Uber AI и Джеффом Клуном, руководителем исследовательской группы в стартапе OpenAI в Сан-Франциско, описывается Fiber, платформа для разработки и распределенного обучения AI для таких методов, как обучение с подкреплением (которое побуждает агентов AI достигать цели с помощью наград) и популяционное обучение , Команда говорит, что Fiber расширяет доступ к крупномасштабным параллельным вычислениям без необходимости в специальном оборудовании или оборудовании, позволяя неспециалистам пользоваться преимуществами генетических алгоритмов, в которых эволюционируют группы агентов, а не отдельные члены.

Как отмечают исследователи, растущие вычисления лежат в основе многих последних достижений в машинном обучении, причем все больше и больше алгоритмов полагаются на распределенное обучение для обработки огромного количества данных. (OpenAI FiveРобот OpenAI, играющий в Dota 2, обучался работе с 256 графическими картами и 1280 000 процессорных ядер в Google Cloud. Но методы подкрепления и популяционные методы создают проблемы для надежности, эффективности и гибкости, которые не удовлетворяют некоторые платформы.

Fiber решает эти проблемы с помощью упрощенной стратегии для планирования задач. Он использует программное обеспечение для управления кластерами для планирования и отслеживания заданий, не требует предварительного выделения ресурсов и может динамически увеличивать и уменьшать масштаб на лету, позволяя пользователям легко переходить с одного компьютера на несколько.

Fiber включает в себя уровень API, внутренний уровень и уровень кластера. Первый уровень предоставляет базовые строительные блоки для процессов, очередей, пулов и менеджеров, а бэкэнд обрабатывает такие задачи, как создание и завершение заданий в разных менеджерах кластера. Что касается кластерного уровня, он выбирает разных менеджеров кластеров, чтобы помочь управлять ресурсами и следить за различными заданиями, уменьшая количество элементов, которые должны отслеживать волокна.

Fiber представляет концепцию процессов, поддерживаемых заданиями, где процессы могут запускаться удаленно на разных компьютерах или локально на одном и том же компьютере, и он использует контейнеры для инкапсуляции работающей среды (например, необходимых файлов, входных данных и зависимых пакетов) текущие процессы, чтобы гарантировать, что все автономно. Полезно, что Fiber делает это, напрямую взаимодействуя с менеджерами кластеров компьютеров, что устраняет необходимость его настройки на нескольких компьютерах.

В экспериментах Fiber имел время отклика в пару миллисекунд. При численности населения в 2048 работников (например, процессорных ядер) он масштабировался лучше, чем два базовых метода, при этом время, необходимое для его работы, постепенно уменьшалось с увеличением количества работников (другими словами, это занимало меньше времени обучить 32 рабочих, чем полные 2048 рабочих).

«(Наша работа показывает, что) Fiber достигает многих целей, включая эффективное использование большого количества разнородного вычислительного оборудования, динамическое масштабирование алгоритмов для повышения эффективности использования ресурсов, снижение нагрузки на инженерию, необходимой для работы (обучение с усилением) и алгоритмов, основанных на популяциях. компьютерные кластеры и быстрая адаптация к различным вычислительным средам для повышения эффективности исследований », — написали соавторы.« Мы ожидаем, что это будет способствовать прогрессу в решении сложных задач (обучение с подкреплением) с помощью алгоритмов (обучение с подкреплением) и популяционных методов, сделав его легче разработать эти методы и обучить их в масштабах, необходимых для истинного их сияния ».

Открытие Fiber происходит после выхода SEED ML, фреймворк это масштабирует обучение модели AI до тысяч машин. Google сказал, что это может облегчить обучение на машине с миллионами кадров в секунду при одновременном снижении затрат на 80%, потенциально выравнивая игровое поле для стартапов, которые ранее не могли конкурировать с большими лабораториями ИИ.



Источник: Uber details Fiber, фреймворк для обучения модели распределенного ИИ


Похожие материалы по теме: Uber details Fiber, фреймворк для обучения модели распределенного ИИ

Leave a comment