В каждый момент каждого дня наш мозг тщательно преобразует множество сенсорных сигналов в значимые представления об окружающем нас мире. Однако то, как на самом деле работает этот непрерывный процесс, остается малоизученным.
image-decoding-paper (отчет)
Сегодня Meta* объявляет о важной вехе в решении этого фундаментального вопроса. Используя магнитоэнцефалографию (МЭГ), неинвазивный метод нейровизуализации, при котором в секунду проводятся тысячи измерений мозговой активности, мы демонстрируем систему искусственного интеллекта, способную декодировать разворачивание визуальных представлений в мозге с беспрецедентным временным разрешением.
Эта система искусственного интеллекта может быть развернута в режиме реального времени для восстановления изображений, воспринимаемых и обрабатываемых мозгом в каждый момент времени на основе мозговой активности. Это открывает важный путь для того, чтобы помочь научному сообществу понять, как изображения репрезентируются в мозге, а затем используются в качестве основы человеческого интеллекта. В долгосрочной перспективе это также может стать отправной точкой на пути к неинвазивным интерфейсам мозг-компьютер в клинических условиях, которые могли бы помочь людям, которые после перенесенного поражения мозга потеряли способность говорить.
Используя нашу новейшую архитектуру, разработанную для декодирования восприятия речи из сигналов MEG, мы разрабатываем трехкомпонентную систему, состоящую из кодировщика изображений, кодировщика мозга и декодера изображений. Кодировщик изображений создает богатый набор представлений изображения независимо от мозга. Затем кодировщик мозга учится согласовывать сигналы MEG с этими вложениями изображений. Наконец, декодер изображений генерирует правдоподобное изображение, учитывая эти представления мозга.
Это функциональное согласование между такими системами искусственного интеллекта и мозгом затем может быть использовано для создания изображения, подобного тому, что участники видят на сканере. Хотя наши результаты показывают, что изображения лучше декодируются с помощью функциональной магнитно-резонансной томографии (ФМРТ), наш МЭГ-декодер можно использовать в любой момент времени и, таким образом, он создает непрерывный поток изображений, декодированных с помощью мозговой активности.
Хотя сгенерированные изображения остаются несовершенными, результаты показывают, что восстановленное изображение сохраняет богатый набор высокоуровневых характеристик, таких как категории объектов. Однако система искусственного интеллекта часто генерирует неточные низкоуровневые объекты, неуместно размещая или неправильно ориентируя некоторые объекты на сгенерированных изображениях. В частности, используя набор данных Natural Scene Dataset, мы показываем, что изображения, полученные с помощью МЭГ-декодирования, остаются менее точными, чем декодирование, полученное с помощью ФМРТ, сравнительно медленного, но пространственно точного метода нейровизуализации.
В целом, наши результаты показывают, что MEG можно использовать для расшифровки с точностью до миллисекунды нарастания сложных представлений, генерируемых в мозге. В более общем плане это исследование укрепляет долгосрочную исследовательскую инициативу Meta по пониманию основ человеческого интеллекта, выявлению его сходства, а также различий по сравнению с современными алгоритмами машинного обучения и, в конечном счете, направляет разработку систем искусственного интеллекта, предназначенных для того, чтобы учиться и рассуждать, как люди”.
* Meta, в том числе ее продукты Facebook и Instagram, признана экстремистской организацией в России.