На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Свежие комментарии

  • Владимир
    Риск снижается, но все равно в итоге приводит к 100 % смертности.Инфаркт миокарда ...

Компьютерная модель «увидела» и «услышала» одновременно

Создана первая компьютерная модель, которая «видит» и «слышит» одновременно, как человек. Ее основой стали нейронные вычисления, впервые обнаруженные… у насекомых. Открытие объясняет известные иллюзии и открывает широкие перспективы для искусственного интеллекта. Достижение опубликовано в журнале eLife.

alt

Популяционная модель мультисенсорного корреляционного детектора (MCD) состоит из элементарных вычислительных единиц (слева), каждая из которых реагирует на аудиовизуальные стимулы (то есть изменения входных данных), коррелирующие во времени и пространстве.

Популяция таких единиц (справа) может обрабатывать реальные аудиовизуальные стимулы и имитировать мультисенсорное восприятие. CreditPariseet al / eLife 2025


Ученые впервые создали компьютерную модель, которая обрабатывает звук и изображение так же, как это делает человеческий мозг – одновременно. Разработанная система не только объясняет, почему мы поддаемся известным иллюзиям вроде эффекта чревовещателя, но и открывает новые горизонты для создания более эффективного и «человечного» искусственного интеллекта.

Когда мы смотрим на говорящего человека, наш мозг бессознательно и безупречно объединяет движение губ со звуком речи. Этот процесс настолько автоматический, что им можно манипулировать – знаменитой иллюзии Мак-Герка, когда человеку показывают артикуляцию одного слога (например, «га-га»), а в аудиодорожке звучит другой («ба-ба»), он начинает «слышать» несуществующий третий вариант («да-да»). А в иллюзии чревовещания мы невольно связываем голос кукловода с губами куклы.

Долгое время не существовало компьютерной модели, способной объяснить этот механизм на основе реальных сигналов, а не абстрактных параметров, заданных программистом. До сих пор ни одна система не могла решить эту, казалось бы, простую задачу – ежемоментно проверять, совпадает ли звук с изображением артикуляции.

Секрет оказался в нейронных схемах насекомых. Их зрительная система использует так называемый «детектор корреляции», который сравнивает сигналы от соседних рецепторов, чтобы определить направление движения. Исследователи решили, что этот принцип может лежать в основе объединения сигналов от разных органов чувств. Они разработали мультисенсорный корреляционный детектор,  а затем создали целую «решетку» из таких детекторов, которая анализирует звук и изображение одновременно в пространстве и времени.

Чтобы доказать свою эффективность, модель протестировали на данных 69 классических экспериментов по аудиовизуальному восприятию, проведенных на людях, обезьянах и крысах.

Кроме того, модель смогла предсказать, куда будет направлен взгляд человека при просмотре фильма, выступая в роли упрощенной «карты внимания», а еще преимущество модели – вычисляемость. Она работает напрямую с «сырыми» аудиовизуальными сигналами, а не с заранее подготовленными данными. Это открывает огромные возможности для искусственного интеллекта, который пока с трудом объединяет информацию из разных источников.

Так что понимание модели зрительного восприятия мухи теперь объясняет, как мозг  создает единую картину мира из звуков и образов. Это открытие не только углубляет наше понимание работы мозга, но и предлагает элегантное и мощное решение для технологий будущего.


ТекстДарья Тюльганова

Multisensory integration operates on correlated input from unimodal transient channels by Cesare V Parise, Marc O Ernst in eLife. 2025

https://doi.org/10.7554/eLife.90841.3

Adblock test (Why?)

Ссылка на первоисточник
наверх