Вход / Регистрация
18.11.2024, 04:25
/ Новости сайта / Наука и Технологии / Искусственный интеллект научился «видеть» так же, как и человек
Искусственный интеллект научился «видеть» так же, как и человек
Инженеры Калифорнийского университета в Лос-Анджелесе (UCLA) и Стэнфордского университета продемонстрировали компьютерную систему, способную обнаруживать и идентифицировать объекты реального мира, которые она «видит», на основе метода визуального обучения, используемого людьми.
Новая система считается шагом вперед в технологии, называемой «компьютерное зрение», которая позволяет компьютерам считывать и идентифицировать визуальные образы. Это может приблизить нас к созданию общих систем искусственного интеллекта — самообучаемых компьютеров, которые способны рассуждать и принимать самостоятельные решения. Современные системы компьютерного зрения ИИ с каждым днем становятся все более мощными и эффективными, однако до сих пор зависят от конкретной задачи. Это означает, что их способность определять то, что они видят, ограничена степенью их обучения и программирования людьми.
Даже лучшие на сегодня системы компьютерного зрения не могут создать полную картину объекта на основе только определенных его частей, поэтому ее можно обмануть, если продемонстрировать объект в незнакомой роботу обстановке. Инженеры стремятся создать такие компьютерные системы, которые бы не имели этого недостатка, подобно тому, как люди способны узнать собаку, даже если она спряталась за стулом, из-за которого видны только лапы и хвост. С помощью интуиции человек легко поймет, где находится голова собаки, а где — остальная часть ее тела, однако эта способность все еще недоступна большинству систем ИИ.
Современные системы компьютерного зрения не предназначены для самостоятельного обучения, поэтому их программируют путем демонстрации тысяч изображений объектов, которые они должны идентифицировать. Кроме того, компьютеры не могут интуитивно определить, что изображено на фотографии: системы на основе ИИ не составляют внутренний образ знакомых объектов, как это делают люди. Новый метод, описанный в журнале Proceedings of the National Academy of Sciences, рассказывает, как можно решить эти проблемы.
Новая система считается шагом вперед в технологии, называемой «компьютерное зрение», которая позволяет компьютерам считывать и идентифицировать визуальные образы. Это может приблизить нас к созданию общих систем искусственного интеллекта — самообучаемых компьютеров, которые способны рассуждать и принимать самостоятельные решения. Современные системы компьютерного зрения ИИ с каждым днем становятся все более мощными и эффективными, однако до сих пор зависят от конкретной задачи. Это означает, что их способность определять то, что они видят, ограничена степенью их обучения и программирования людьми.
Даже лучшие на сегодня системы компьютерного зрения не могут создать полную картину объекта на основе только определенных его частей, поэтому ее можно обмануть, если продемонстрировать объект в незнакомой роботу обстановке. Инженеры стремятся создать такие компьютерные системы, которые бы не имели этого недостатка, подобно тому, как люди способны узнать собаку, даже если она спряталась за стулом, из-за которого видны только лапы и хвост. С помощью интуиции человек легко поймет, где находится голова собаки, а где — остальная часть ее тела, однако эта способность все еще недоступна большинству систем ИИ.
Современные системы компьютерного зрения не предназначены для самостоятельного обучения, поэтому их программируют путем демонстрации тысяч изображений объектов, которые они должны идентифицировать. Кроме того, компьютеры не могут интуитивно определить, что изображено на фотографии: системы на основе ИИ не составляют внутренний образ знакомых объектов, как это делают люди. Новый метод, описанный в журнале Proceedings of the National Academy of Sciences, рассказывает, как можно решить эти проблемы.
Система «компьютерного зрения», разработанная в Калифорнийском университете в Лос-Анджелесе, может идентифицировать объекты, основываясь только на их частях / © UCLA
Подход состоит из трех этапов. Во-первых, система разбивает изображение на маленькие кусочки, которые исследователи называют «вьюлетами» (viewlets). Во-вторых, компьютер запоминает, как эти вьюлеты могут сочетаться друг с другом, образуя нужный объект. На третьем этапе ИИ обращает внимание на то, какие еще объекты находятся в обозримой области и имеют ли они отношение к описанию и идентификации первичного объекта. Чтобы помочь новой системе «учиться» и становиться похожей на людей, инженеры решили погрузить ее в интернет-копию человеческой среды.
«К счастью, интернет предоставляет две вещи, которые помогают мозговой системе компьютерного зрения обучаться тем же способом, что и люди. Во-первых, это наличие множества изображений и видеороликов, на которых показаны объекты одного и того же типа. Во-вторых, эти объекты видны с разных точек зрения — скрытые, с высоты птичьего полета, с близкого расстояния — и размещены в различных условиях», — утверждает профессор Калифорнийского университета и руководитель исследования Ввани Ройховдхури (Vwani Roychowdhury).
Начиная с младенчества мы узнаем о каком-то предмете, так как видим много его вариаций в различных контекстах. Такое контекстное обучение считается ключевой особенностью нашего мозга: оно помогает нам создавать надежные модели объектов, которые составляют часть интегрированного мировоззрения, где все функционально связано.
Это понимание помогло инженерам добиться результата: они успешно протестировали систему с помощью порядка 9000 картинок, на каждой из которых были изображены люди и другие объекты. Платформа построила детальную модель человеческого тела без внешнего наведения и маркировки изображений. Инженеры провели аналогичные испытания, используя изображения мотоциклов, автомобилей и самолетов.
Во всех случаях их система работала лучше или по крайней мере так же, как традиционные системы компьютерного зрения с многолетним обучением, что вселяет надежду на дальнейший прогресс.
Во всех случаях их система работала лучше или по крайней мере так же, как традиционные системы компьютерного зрения с многолетним обучением, что вселяет надежду на дальнейший прогресс.