Вход / Регистрация
22.12.2024, 14:46
/ Новости сайта / Наука и Технологии / Искусственный интеллект научили распознавать объекты по описанию
Искусственный интеллект научили распознавать объекты по описанию
Инженеры из Массачусетского технологического института (MIT) создали систему машинного обучения, разбивающую картинку на сетку, из которой она вычленяет описанные предметы в реальном времени.
Существующие системы распознавания речи вроде Siri требуют больших затрат. Им потребуются тысячи часов аудиозаписей, чтобы различать заложенные транскрипции. При появлении в лексиконе новых слов систему приходится тренировать заново. Для облегчения процесса обучения специалисты MIT создали новый алгоритм.
За основу они взяли сверточную нейронную сеть (CNN), состоящую из двух частей. Первая анализировала изображения, а другая — спектрограммы (визуальный рисунок аудиозаписей). Материалы двух частей сопоставлялись с корректировкой правильного ответа. Например, картинке А соответствует звуковая подпись А — такое сравнение считается верным. Затем к картинке А подставляют подпись B и множество других ошибочных. В результате система распознает звуковые сигналы, принадлежащие конкретному изображению, и ассоциирует их с определенными словами.
Существующие системы распознавания речи вроде Siri требуют больших затрат. Им потребуются тысячи часов аудиозаписей, чтобы различать заложенные транскрипции. При появлении в лексиконе новых слов систему приходится тренировать заново. Для облегчения процесса обучения специалисты MIT создали новый алгоритм.
За основу они взяли сверточную нейронную сеть (CNN), состоящую из двух частей. Первая анализировала изображения, а другая — спектрограммы (визуальный рисунок аудиозаписей). Материалы двух частей сопоставлялись с корректировкой правильного ответа. Например, картинке А соответствует звуковая подпись А — такое сравнение считается верным. Затем к картинке А подставляют подпись B и множество других ошибочных. В результате система распознает звуковые сигналы, принадлежащие конкретному изображению, и ассоциирует их с определенными словами.
Демонстрация работы / ©David Harwath
Для того чтобы искусственный интеллект научился сопоставлять отдельные слова и объекты, исследователи модернизировали обе части алгоритма, добавив библиотеку из 400 тысяч пар картинок с описанием. Теперь первая часть разделяла изображение на сетку из пикселей, а вторая разбивала спектрограмму на сегменты длиною около секунды, в которых помещалось одно или два слова. Система соотносила получившиеся ячейки из пикселей со всеми аудиосегментами одну за другой. Проблема заключалась в том, что в этот раз алгоритм не знал, какая пара правильная, но он смог обучиться самостоятельно, анализируя множество верных пар «картинка-описание».
Работу искусственного интеллекта специалисты продемонстрировали на примере изображения с девочкой в голубом платье. Система верно отметила ребенка, маяк и одежду по указанному описанию.