Roboflow: популярный автономный набор данных транспортных средств содержит критические недостатки

Производительность модели машинного обучения настолько же хороша, насколько и качество набора данных, на котором она обучена, и в области транспортных средств с автономным управлением крайне важно, чтобы на производительность не оказывали негативного влияния ошибки. В тревожном отчете стартапа по компьютерному зрению Roboflow утверждается, что именно этот сценарий произошел — согласно для основателя Брэда Дуайера, важные части данных были опущены в корпусе, используемом для обучения моделей автомобилей с самостоятельным вождением.

Дуайер пишет, что в Udacity Dataset 2, который содержит 15 000 изображений, снятых во время вождения в Маунтин-Вью и соседних городах в дневное время, есть упущения. Тысячи немаркированных транспортных средств, сотни немеченых пешеходов и десятки немаркированных велосипедистов присутствуют примерно в 5000 выборок, или в 33% (217 вообще не имеют каких-либо аннотаций, но на самом деле содержат легковые автомобили, грузовики, уличные фонари или пешеходов). Хуже случаи фантомных аннотаций и дублирующих ограничивающих прямоугольников (где «ограничивающий прямоугольник» относится к интересующим объектам), в дополнение к «резко» огромным ограничивающим прямоугольникам.

Проблематично, учитывая, что метки — это то, что позволяет системе ИИ понимать последствия паттернов (например, когда человек встает перед автомобилем) и оценивать будущие события на основе этих знаний. Предметы с неверной маркировкой или без маркировки могут привести к низкой точности и, в свою очередь, к плохому принятию решений, что в автомобиле с автоматическим управлением может стать причиной катастрофы.

Вверху: несколько примеров изображений, содержащих пешеходов, которые не содержали аннотаций в исходном наборе данных.

Изображение предоставлено: Roboflow

«Наборы данных с открытым исходным кодом — это здорово, но если общественность будет доверять нашему сообществу их безопасность, мы должны лучше работать над тем, чтобы данные, которыми мы делимся, были полными и точными», — написал Двайер, который отметил, что тысячи студентов в курсе инженерии по самостоятельному вождению в Udacity используйте Udacity Dataset 2 в сочетании с проектом самостоятельного вождения автомобиля с открытым исходным кодом. «Если вы используете общедоступные наборы данных в своих проектах, пожалуйста, проявите должную осмотрительность и проверьте их целостность, прежде чем использовать их в дикой природе».

Хорошо известно, что ИИ склонен к проблемы смещения вытекает из неполных или искаженных наборов данных. Например, встраивание слов, общая методика алгоритмического обучения, которая включает в себя связь слов с векторами, неизбежно начинается — и в худшем случае усиливается — предрассудки, скрытые в исходном тексте и диалоге. Многие системы распознавания лиц ошибочно идентифицировать люди цвета чаще, чем белые люди. И Google Фото однажды позорно маркированный изображения темнокожих людей как «горилл».

Но неэффективный ИИ может нанести гораздо больший вред, если его, так сказать, посадить за руль автомобиля. Не было зарегистрировано ни одного случая, когда автомобиль с автоматическим управлением стал причиной столкновения, но они находятся на дорогах общего пользования только в небольших количествах. Это может измениться — в 2025 году к дороге будет добавлено до 8 миллионов автомобилей без водителя, по данным маркетинговой компании ABI, и Research and Markets ожидает, что к 2030 году в США будет эксплуатироваться около 20 миллионов автономных автомобилей.

Робофлоу Дуайер

Вверху: примеры ошибок (аннотации, выделенные красным цветом, отсутствовали в исходном наборе данных).

Изображение предоставлено: Roboflow

Если эти миллионы автомобилей будут работать с ошибочными моделями искусственного интеллекта, последствия могут быть разрушительными, что сделает общественность, которая уже настороженно относится к автомобилям без водителя, более скептически. Два исследования — одно опубликовано Институт Брукингса и другой от Защитников Шоссе и Автобезопасности (AHAS) — обнаружил, что большинство американцев не убеждены в безопасности автомобилей без водителя. Более 60% респондентов в опросе Брукингса заявили, что они не склонны ездить на автомобилях с самостоятельным вождением, и почти 70% опрошенных AHAS выразили обеспокоенность по поводу того, чтобы поделиться с ними дорогой.

Решение проблемы с набором данных может заключаться в лучшей практике маркировки. Согласно GitHub-странице Udacity Dataset 2, компания Autti, занимающаяся сбором аннотаций в корпусе из краудсорсинга, занималась маркировкой, используя комбинацию машинного обучения и задачников. Неясно, мог ли этот подход привести к ошибкам — мы обратились к Autti за дополнительной информацией — но строгий шаг проверки мог бы помочь выявить их.

Со своей стороны, Roboflow сообщает Sophos Голая Безопасность что он планирует провести эксперименты с исходным набором данных и фиксированной версией набора данных компании, который он сделал доступным в открытом исходном коде, чтобы увидеть, насколько серьезной будет проблема для обучения различным модельным архитектурам. «Из наборов данных, которые я просматривал в других областях (например, медицина, животные, игры), этот выделялся как особенно плохое качество», — сказал Дуайер изданию. «Я хотел бы надеяться, что крупные компании, которые фактически выставляют автомобили на дорогу, гораздо более строгие в отношении процессов маркировки, очистки и проверки данных».



Источник: Roboflow: популярный автономный набор данных транспортных средств содержит критические недостатки


Похожие материалы по теме: Roboflow: популярный автономный набор данных транспортных средств содержит критические недостатки

Leave a comment