Предыдущие исследования неизменно подчеркивали решающую роль дофаминовых нейронов в обучении за вознаграждение. Обучение с вознаграждением – это процесс, посредством которого люди и другие животные приобретают различную информацию, навыки или поведение, получая вознаграждение после выполнения определенных действий или после предоставления «правильного» / желаемого ответа на вопрос.
Когда люди получают награды лучше, чем они ожидают, активируются дофаминовые нейроны. Напротив, когда вознаграждение, которое они получают, хуже, чем они предсказывали, дофаминовые нейроны подавляются. Этот конкретный образец активности напоминает так называемые «ошибки предсказания вознаграждения», которые по сути представляют собой разницу между полученным вознаграждением и прогнозируемым.
Исследователи из Университета Питтсбурга недавно провели исследование, в котором изучали, как частота вознаграждений и ошибки прогнозирования вознаграждений могут влиять на сигналы дофамина. Их статья, опубликованная в Nature Neuroscience, дает новое и ценное представление о связанных с дофамином нейронных основах обучения с вознаграждением.
"Ошибки предсказания вознаграждения имеют решающее значение для обучения животных и машинного обучения," Уильям Р. Штауфер, доктор философии.D., один из исследователей, проводивших исследование, сообщил Medical Xpress. "Однако в классических теориях обучения животных и машинного обучения часть уравнения, «предсказываемая награда», – это просто среднее значение прошлых результатов. Хотя эти прогнозы полезны, было бы гораздо полезнее прогнозировать средние значения, а также более сложную статистику, отражающую неопределенность."
Исследователи черпали вдохновение в исследовании, опубликованном в 2005 году Вольфрамом Шульцем, главным научным сотрудником Wellcome, профессором нейробиологии Кембриджского университета и постдокторским наставником Штауффера. Это исследование 2005 года показало, что ответы на ошибки прогнозирования вознаграждения дофамина нормализованы в соответствии со стандартными отклонениями, которые Шульц и его коллеги оперировали как диапазоны между наибольшим и наименьшим исходами.
"Это исследование было новаторским, потому что оно показало, что предсказания нейронов действительно отражают неопределенность," Штауфер сказал "Тем не менее, есть несколько различных способов модуляции неопределенности, и я подозреваю, что они психологически не эквивалентны."
Модуляция диапазона, которую Шульц и его коллеги использовали в своем исследовании (для изменения стандартного отклонения), оставляла каждую потенциальную награду с той же предсказанной вероятностью.
"Нам было любопытно узнать, как бы отреагировали дофаминовые нейроны, если бы диапазон был постоянным, но относительная вероятность вознаграждения в этом диапазоне изменилась," Штауфер сказал. "Соответственно, основная цель нашего исследования состояла в том, чтобы узнать, чувствительны ли дофаминовые нейроны к формам вероятностных распределений."
В своих экспериментах Штауффер и его коллеги использовали две разные визуальные подсказки для предсказания вознаграждения, полученного из двух разных распределений вероятности вознаграждения.Оба этих виртуальных раздачи содержали три типа наград, а именно маленькие, средние и большие капли сока.
Однако одно из распределений вероятности вознаграждения напоминало нормальное распределение, где центральное значение (i.е., средние капли сока) были доставлены в большинстве испытаний, в то время как маленькие и большие капли сока были доставлены редко. С другой стороны, второе распределение вероятности вознаграждения следовало так называемому “ равномерному распределению ”, когда мелкие, средние и большие вознаграждения были доставлены с равной вероятностью (i.е., столько же раз).
Используя электроды, Штауффер и его коллеги регистрировали дофаминовые реакции, в то время как обезьяны просматривали визуальные подсказки, связанные с вознаграждением из двух разных распределений вероятности вознаграждения. Они также регистрировали дофаминовые реакции, когда обезьяны получали вознаграждение, «вытягиваемое» из виртуальных распределений вероятностей вознаграждения.
Примечательно, что исследователи отметили, что вознаграждения, которые назначались с меньшей частотой (i.е., редкие награды) усиленные дофаминовые реакции в мозгу обезьян. Для сравнения, награды такого же размера, но с большей частотой вызывали более слабые дофаминовые реакции.
"Наши наблюдения предполагают, что прогнозирующие нейронные сигналы отражают уровень неопределенности прогнозов, а не только прогнозируемые значения," Штауфер сказал. "Это также означает, что одна из основных систем обучения с вознаграждением в мозге может оценивать неопределенность и потенциально обучать подчиненные структуры мозга об этой неопределенности. Есть несколько других нейронных систем, в которых у нас есть такие прямые доказательства алгоритмической природы нейронных ответов, и эти захватывающие результаты указывают на новый аспект этого нейронного алгоритма."
Исследование, проведенное этой командой исследователей, подчеркивает влияние частоты вознаграждения на дофаминовые реакции, возникающие во время обучения с вознаграждением. Эти результаты послужат информацией для дальнейших исследований, которые могут значительно улучшить текущее понимание нейронных механизмов, участвующих в обучении за вознаграждение.
В конечном итоге исследователи хотят изучить, как убеждения о вероятности могут быть применены к выбору, сделанному в условиях двусмысленности (i.е., когда вероятности исхода неизвестны). В этих конкретных сценариях принятия решений люди обычно вынуждены принимать решения на основе своих убеждений о распределении вероятностей вознаграждения.
"Это исследование стало первым шагом к пониманию того, как субъективное распределение вероятностей вознаграждения закодировано в мозгу и какую форму могут принимать эти убеждения," Штауфер сказал. "Имея эти результаты под рукой, мы вернемся к изучению вариантов. Тем не менее, я подозреваю, что эти результаты будут иметь более широкое значение, а также будут важны для систем обучения, основанных на биологическом и искусственном интеллекте."