Техника DeepMind поощряет игроков ИИ сотрудничать в играх с нулевой суммой

В препринте бумага, DeepMind описал новую технику обучения с подкреплением, которая моделирует поведение человека потенциально новым и мощным способом. Это может привести к гораздо более способным системам принятия решений ИИ, чем было выпущено ранее, что может стать благом для предприятий, стремящихся повысить производительность труда за счет автоматизации рабочих мест.

В «Учиться решать дилеммы альянса в многопользовательских играх с нулевой суммой» DeepMind — исследовательское подразделение Alphabet, работа которого главным образом включает в себя обучение с подкреплением, область ИИ, касающуюся того, как программные агенты должны предпринимать действия для максимизации вознаграждения, — вводит модель экономической конкуренции с механизмом однорангового контракта, который позволяет обнаруживать и обеспечение альянсов среди агентов в многопользовательских играх. Соавторы говорят, что такого рода формирование альянса дает преимущества, которых не было бы, если бы агенты действовали в одиночку.

«Игры с нулевой суммой долгое время руководствовались исследованиями в области искусственного интеллекта, поскольку они обладают богатым стратегическим пространством наилучших ответов и четкой метрикой оценки», — пишут авторы статьи. «Более того, конкуренция является жизненно важным механизмом во многих реальных мультиагентных системах, способных генерировать интеллектуальные инновации: дарвиновскую эволюцию, рыночную экономику и алгоритм AlphaZero, и многие другие».

Ученые DeepMind сначала стремились математически определить задачу формирования альянсов, уделяя особое внимание формированию альянсов в играх с нулевой суммой для многих игроков — то есть математическим представлениям ситуаций, в которых выигрыш или потеря полезности каждого участника точно уравновешивается потерями или выгоды от полезности других участников. Они исследовали симметричные игры с множеством игроков с нулевой суммой — игры, в которых все игроки имеют одинаковые действия и симметричные выплаты с учетом действий каждого человека, — и они попытались дать эмпирические результаты, показывающие, что формирование альянса часто приводит к социальной дилемме, что требует адаптации между -players.

Как отмечают исследователи, многопользовательские игры с нулевой суммой представляют проблему динамического формирования и распада команды. Новые команды должны координировать свои действия внутри себя, чтобы эффективно конкурировать в игре, как в командных играх, таких как футбол. Процесс формирования команды сам по себе может быть социальной дилеммой — интуитивно, игроки должны создавать альянсы, чтобы побеждать других, но членство в альянсе требует, чтобы люди вносили вклад в более широкое благо, которое не полностью соответствует их личным интересам. Кроме того, необходимо принять решение о том, к каким командам присоединиться и уйти, и как сформировать стратегию этих команд.

Команда экспериментировала с «игрой в подарок», в которой игроки, то есть агенты, обученные усилению, начинали с кучи цифровых фишек своего цвета. На ходу каждого игрока они должны были взять фишку своего цвета и подарить ее другому игроку или выбросить из игры. Игра закончилась, когда ни у одного игрока не осталось фишек своего цвета; победителями стали игроки с наибольшим количеством фишек любого цвета, причем победители делят выплату со значением «1» одинаково, а все остальные игроки получают вознаграждение «0».

Исследователи обнаружили, что игроки действовали эгоистично чаще, чем когда-либо, накапливая фишки, в результате чего происходило трехстороннее розыгрыш, несмотря на то, что если два агента согласились обменять фишки, они добились лучшего результата. Команда полагает, что это произошло потому, что хотя два игрока могли добиться лучшего результата для альянса, если бы они доверяли друг другу, каждый выиграл, убедив другого подарить фишку, а затем отказаться от сделки.

Тем не менее, они утверждают, что обучение с подкреплением способно адаптироваться, если существует институт, поддерживающий кооперативное поведение. Здесь заключаются контракты — исследователи предлагают механизм для включения контрактов в игры, где каждый игрок должен представить предложение, включающее (1) выбор партнера, (2) предлагаемое действие для этого партнера и (3) действие, которое игрок обещает взять. Если два игрока предлагают контракты, которые являются идентичными, они становятся обязательными, то есть среда обеспечивает выполнение обещанных действий.

Команда сообщает, что, как только агенты смогли подписать обязывающие контракты, фишки свободно переходили в «игру подарков». В отличие от этого, без контрактов и преимуществ взаимного доверия, которым они обменивались, обмена чипами не было.

«Наша модель предлагает несколько направлений для дальнейшей работы», — написали соавторы. «Совершенно очевидно, что мы могли бы рассмотреть контракты в среде с большим пространством состояний … В целом, было бы интересно узнать, как система контрактов может возникать и сохраняться в динамике обучения нескольких агентов без непосредственного навязывания механизмов для обеспечения соблюдения. Такое стремление может в конечном итоге привести к ценной обратной связи от ИИ к социологии и экономике ».



Источник: Техника DeepMind поощряет игроков ИИ сотрудничать в играх с нулевой суммой


Похожие материалы по теме: Техника DeepMind поощряет игроков ИИ сотрудничать в играх с нулевой суммой

Leave a comment