近日,北京大學心理與認知科學學院、北京大學麥戈文腦科學研究所李健課題組在《PLOS Computational Biology》期刊發(fā)表了題為“The shadowing effect of initial expectation on learning asymmetry”的研究論文。該研究使用強化學習建模,在跨情境(穩(wěn)定學習環(huán)境,變化學習環(huán)境)和跨效價(收益、損失和收益損失混合)的學習情境中發(fā)現(xiàn)一致的結(jié)果:個體在學習時對選項的初始預期存在個體差異性,將這一差異性納入建模后發(fā)現(xiàn),個體基于負反饋中的更新比正反饋大,表現(xiàn)出對負反饋更強的敏感性,即負的效價不對稱性。

強化學習模型目前被廣泛用于刻畫個體的學習過程,然后對于個體如何基于反饋更新信息,卻還沒有一致的結(jié)論。一些研究發(fā)現(xiàn),個體從正反饋中更新更多,而另一些研究則認為個體從負反饋中更新更多。本課題組發(fā)現(xiàn),以往研究在對強化學習過程進行建模時,大多對被試的初始預期使用相同的(選項反饋的均值或0)粗略值,沒有考慮個體真實的預期。對初始預期的錯誤設置會放大或縮小預期誤差,從而使得模型估計的學習率偏小或者偏大。如果使用自由參數(shù)來刻畫個體的初始預期,則可以消除這一影響。

為了驗證這一推導,研究收集了不同學習環(huán)境、不同獎勵效價下的學習數(shù)據(jù)(圖1.A-B)。 結(jié)果發(fā)現(xiàn),如果將個體的初始預期設置為固定值(平均獎勵大小),則在不同情境中被試的效價不對稱性并不一致(圖1.D,A-FI 模型),而當在強化學習建模中考慮個體初始預期差異,則發(fā)現(xiàn)一致的負的效價不對稱性(圖1.E,A-FI model模型),即被試的負學習率大于正學習率。


圖1. 獎勵環(huán)境變化情境下的強化學習

進而,研究采用模擬的方法進一步刻畫是否考慮初始預期對估計的學習率的影響。結(jié)果發(fā)現(xiàn),當在模型中使用自由參數(shù)估計初始預期時,A-VI模型能對初始預期和學習率都實現(xiàn)較為準確的估計(圖2.A-C);而如果在模型估計時將初始預期設定為獎勵反饋均值(A-FI模型,圖2.D-F),則估計的學習率會偏離實際的學習率。


圖2. A-VI和A-FI模型模擬結(jié)果

綜上所述,當前研究通過對個體的學習行為進行強化學習建模和模型模擬的方式,揭示了初始預期對強化學習效價不對稱性的重要影響,進而發(fā)現(xiàn)了一致的效價不對稱性:相比正反饋,個體對負反饋更敏感,從負反饋中更新更多。

原文鏈接: https://doi.org/10.1371/journal.pcbi.1010751

北京大學心理與認知科學學院倪蔭梅博士和孫經(jīng)緯博士為該論文共同第一作者,北京大學心理與認知科學學院、麥戈文腦科學研究所李健研究員為本文通訊作者。該研究獲得國家科技創(chuàng)新2030項目、國家自然科學基金委項目資助。

參考文獻:

Lefebvre G, Lebreton M, Meyniel F, Bourgeois-Gironde S, Palminteri S. Behavioural and neural characterization of optimistic reinforcement learning. Nat Hum Behav. 2017; 1(4):0067.

Li J, Daw ND. Signals in human striatum are appropriate for policy update rather than value prediction. JNeurosci. 2011; 31(14):5504–11. https://doi.org/10.1523/JNEUROSCI.6316-10.2011 PMID: 21471387

Niv Y, Edlund JA, Dayan P, O’Doherty JP. Neural prediction errors reveal a risk-sensitive reinforcement-learning process in the human brain. J Neurosci. 2012; 32(2):551–62. https://doi.org/10.1523/JNEUROSCI.5498-10.2012 PMID: 22238090

Palminteri S, Lefebvre G, Kilford EJ, Blakemore SJ. Confirmation bias in human reinforcement learning: Evidence from counterfactual feedback processing. PLoS Comput Biol. 2017; 13(8):e1005684. https://doi.org/10.1371/journal.pcbi.1005684 PMID: 28800597

Sharot T, Korn CW, Dolan RJ. How unrealistic optimism is maintained in the face of reality. Nat Neurosci. 2011; 14(11):1475–9. https://doi.org/10.1038/nn.2949 PMID: 21983684


2023-07-28