Microsoft предлагает ИИ, который улучшается, когда ты улыбаешься

Позитивная аффективность или характеристика, которая описывает, как люди испытывают аффекты (например, ощущения, эмоции и чувства) и, как следствие, взаимодействуют с другими, была связана с повышенным интересом и любопытством, а также с удовлетворением в процессе обучения. Вдохновленная этим, команда исследователей Microsoft предлагает внедрить обучение с подкреплением, методику обучения искусственного интеллекта, которая использует вознаграждение, чтобы стимулировать системы к достижению целей, с положительным эффектом, который, как они утверждают, может способствовать исследованиям, полезным для сбора опыта, критически важного для обучения.

Как объясняют исследователи, обучение с подкреплением обычно реализуется с помощью специальных политических вознаграждений, разработанных для заранее определенной цели. Проблемно эти внешний Награды узки по объему и могут быть трудно определить, в отличие от свойственный награды, которые не зависят от задачи и быстро указывают на успех или неудачу.

Проводя внутреннюю политику, исследователи разработали структуру, включающую механизмы, мотивированные человеческим воздействием, — те, которые мотивируют агентов такими побуждениями, как восторг. Используя систему компьютерного зрения, которая моделирует вознаграждение, и другую систему, которая использует данные для решения множества задач, она измеряет человеческие улыбки как положительный эффект.

Среда поощряет агентов исследовать виртуальные или реальные среды, не попадая в опасные ситуации, и имеет преимущество в том, что не зависит от каких-либо конкретных машинный интеллект заявление. Механизм положительного внутреннего вознаграждения предсказывает реакцию улыбки человека по мере развития исследования, в то время как последовательная структура принятия решений изучает обобщаемую политику. Что касается модели положительного внутреннего аффекта, она изменяет выбор действий таким образом, что смещает действия, обеспечивая лучшее внутреннее вознаграждение, а конечный компонент использует данные, собранные в ходе исследования агента, для построения представлений для визуального распознавания и понимания задач.

Чтобы проверить структуру, исследователи собрали данные по пяти предметам, которым поручено исследование цифрового трехмерного лабиринта с транспортным средством, а также синхронизировали видеосъемку каждого из их лиц. (Каждый человек ездил по 11 минут каждый, предоставляя в общей сложности 64 000 кадров.) Участникам было предложено исследовать окружающую среду, но им не давали никаких дополнительных инструкций о других целях, и их улыбки были рассчитаны и записаны с помощью алгоритма с открытым исходным кодом.

Модель внутренней мотивации, основанной на воздействии, обучалась с использованием данных субъектов, причем кадры изображения с приборной панели автомобиля служили входом, а вероятность улыбки — выходом. Результаты дальнейших экспериментов показывают, что структура улучшила безопасное исследование, в то же время обеспечивая эффективное обучение; По сравнению с исходными условиями, внутренняя политика вознаграждения исследователей покрывала на 46% больше места в лабиринте и сталкивалась с препятствиями на 29% меньше времени.

«Здесь мы не пытались имитировать аффективные процессы, а скорее продемонстрировали, что обученные функции по влиянию, например, по сигналам, могут привести к повышению производительности», — написали соавторы статьи с подробным описанием работы. Итак, мы утверждаем, что такая внутренне мотивированная структура обучения, основанная на аффективных механизмах, может быть эффективной в увеличении охвата во время исследования, уменьшении количества катастрофических сбоев и что накопленный опыт может помочь нам выучить общие представления для решения задач, включая оценку глубины. , сегментация сцены и перевод эскиза в изображение ».



Источник: Microsoft предлагает ИИ, который улучшается, когда ты улыбаешься


Похожие материалы по теме: Microsoft предлагает ИИ, который улучшается, когда ты улыбаешься

Leave a comment