强化学习,又称为再励学习,其原理是动物学习了某种行为得到奖励导致出现该行为的趋势加强。之前的研究表明,当动物获得意想不到的奖励时,多巴胺神经元兴奋性增强。因此,研究人员认为这些多巴胺信号在强化学习方面发挥着重要的作用。
你有否想过,人为什么会有思想,会有感觉,会对一些事物热烈追求,这可能都只不过是来自我们大脑内一些微小物质的化学作用而已。麻省理工学院的一项新研究 表明,神经递质多巴胺就发挥着这样的作用,它是一种代表获得奖励的信号。从另外一个角度来说,也许正在因为多巴胺水平过低,缺乏动力,帕金森病人才难以完 成大脑的指令。
在现实生活中,并不是所有的奖励都能立即兑现:为了生存,自然界的动物必须有一个长远的目标,保持积极性,花费大量的时间和精力才可能寻找到食物。人也如此,要想到达一个目的地,必须要有坚持的动力。医|学教育网搜集整理
麻省理工学院麦戈文脑科学研究所(McGovern Institute for Brain Research)研究员 Ann Graybiel 教授领导的研究小组决定研究强化学习是如何影响多巴胺水平变化的。每次实验时,研究人员将老鼠置于水迷宫中,并播放一个指示其在路口左转或者右转的提示音,当老鼠到达目的地时给予巧克力牛奶作为奖励。为了测定大脑释放多巴胺的量,而不只是简单测定多巴胺神经元的活性,麻省理工和华盛顿大学的研究人员将微型碳纤维电极植入小鼠体内,利用快速扫描循环伏安法(FSCV)进行对多巴胺含量的持续性测定。FSCV 法测定老鼠经过四个不同地点时,大脑中多巴胺的水平。每一个探针测定脑组织内一个微小体积内的胞外多巴胺浓度,其可能反映数以千计的神经末梢的活性。“
研究人员惊奇地发现,当接近目的地时,老鼠体内的多巴胺水平平稳上升,这似乎在表明,它在期待着奖励。当越接近目标,多巴胺的含量越多。并且,多巴胺的水平高低与预期奖励的丰厚程度成正比。当对老鼠进行训练后,期待较多巧克力牛奶的老鼠,其多巴胺水平上升得更快。而在一些T型迷宫实验中,动物需要多费一些周折才能到达目的地获得奖励。相应地,其多巴胺的水平是呈斜坡状逐渐增加的。
Ann Graybiel 教授表示,正是由于帕金森病人的多巴胺水平过低,不能因大脑指令形成增加趋势,导致患者精神萎靡。 “这意味着,多巴胺的水平可以帮助动物在选择途径接近目标上做出选择,并且估计起点到终点的距离。”Salk 研究所计算神经科学家 Terrence Sejnowsk 说。