你是否想過,作為非職業玩家,我們為何沉迷遊戲?僅僅是為了打發時間,追求推掉水晶、拿下五殺的快感,還是和朋友組隊開黑的歡樂?
其實這些都不是根本原因。一場遊戲的勝利或一次精彩操作帶來的興奮,不足以讓我們一局接一局地玩下去。
真正讓我們欲罷不能的,是大腦的反饋機制,而多巴胺則是其中的關鍵。很多人誤以為多巴胺就是快感本身,實則不然。多巴胺是腦垂體腺的前體物質,它代表著我們對快感的預期,是追求快感的驅動力。
當在遊戲中獲勝或擊殺敵人時,身體分泌的腎上腺素、催產素和內啡肽讓我們感到愉悅,但大腦神經對這些情緒的體驗是短暫的。真正促使我們不斷開啟下一局遊戲的,是多巴胺構建的信號機制。
在多巴胺的影響下,打遊戲時,我們想的不是 “玩遊戲真爽”,而是 “這把能翻盤,下把肯定贏,再贏一把就能升段位”。多巴胺直接作用於大腦獎勵迴路,讓我們反覆沉浸在遊戲世界中。
要將遊戲的反饋機制運用到學習,先得瞭解它的工作原理。假設你是 MOBA 遊戲新手,只知道要推掉敵方水晶。首次遊戲時,你貿然孤身闖入敵方防禦塔被擊殺,大腦產生失望情緒。
復活后,你大概率會選擇跟隨兵線推進,最終推掉防禦塔並贏得勝利,獲得滿足感。大腦會判斷跟隨兵線推進是更明智的選擇,下次遊戲時,你採取這種行動的概率會增加,還會做出更多正確操作,反饋迴路效果得以強化。這也是職業選手出眾的原因,他們的反饋機制更迅速。
反饋機制由這幾個部分構成:交互環境(如遊戲實時狀態)、自身狀態(擊殺、獲勝等)、動作(打開遊戲、操作角色等,影響後續行為概率)、獎勵(獲勝的愉悅感,本質是快感預期)。
它遵循規則:遊戲中每個時間點可能有不同動作;動作影響下一刻狀態;每個狀態對應獎勵;動作影響後續反饋,且作用可正可負。
構建反饋迴路的重要方法是強化目標預期。遊戲的反饋是否及時、有效,決定了遊戲的趣味性。遊戲廠商常通過提高玩家動作收益(如推水晶升分數)、增加不確定性(隨機皮膚設定)來加強反饋迴路。
同樣學習中的反饋也決定了學習模式的吸引力。
遊戲主要有三種反饋強化模式:固定比率強化(打敗固定數量怪物升級,或連勝固定場次升段)、固定時序強化(特定時間後解鎖寶箱)、不固定比率強化(如抽卡有一定概率獲得稀有卡牌)。
這些方法將不確定性獎勵轉化為確定性收益,對應遊戲廠商關注的留存率、在線人數和凈收入。反饋回路與反饋強化是強化學習的基礎機制,強化是個體在嘗試中更新反饋迴路,優化至接近目標的過程,和監督式機器學習一樣是人工智慧的基石,且更符合人類進化模式,不符合正反饋迴路的行為或族群會被淘汰。
人類進化得益於總結知識、發現規律以及不斷嘗試。谷歌 AlphaGo 是完善的強化學習系統,能通過大量對弈強化反饋迴路。監督式機器學習是方法抽取,強化學習是方法探索,更接近理想中的人工智慧。
瞭解強化學習機制,能看透學習行為本質。我們常思考學習的目的,有人說為了更好生活而學習,但什麼是更好的生活?
從人工智慧角度看,學習和玩遊戲本質相同。學習要背單詞、記公式、刷題,遊戲要記英雄技能、練習走位和出裝,在強化學習系統里都是動作,關鍵在於狀態和預期獎勵。
人類天生抵觸枯燥,學習缺乏即時快感,所以容易讓人產生抵觸情緒。但有些人能堅持學習並享受其中,原因在於反饋機制。當學習帶來正向收益,就能獲得快感預期,即分泌多巴胺。
僅靠意志力學習違背生理本能,難以持久。大腦的行動動機如同海豹為獲取 “小魚干”,只有不斷得到正向反饋,才會有前進動力。
學霸和學渣的區別在於對快感的預期和反饋不同。學霸是高效的強化學習系統,有完整反饋迴路和有效反饋強化。想成為學霸,要做到以下三點:
縮短反饋週期:反饋週期長是很多人難以堅持學習的主因。高中時測試頻繁,努力學習能快速看到成績進步和名次上升,獲得表揚,學習處於正向迴圈。大學反饋週期變長,學習動力減弱。將大目標分解為小目標,縮短反饋週期,能塑造連續學習迴路。
增加反饋強化:參考遊戲的反饋強化模式,比如考試進步獎勵美食,把他人認可當作學習中的 “稀有獎勵”,學習一定時長獎勵玩遊戲,以此提高學習留存率、延長學習時間、增加學習收益。
調整反饋難度:研究表明,玩家在高難度遊戲獲勝時大腦多巴胺迴路活躍,適度高難度能激活反饋迴路,這也是競技遊戲排位賽機制。學習中設置難度要結合自身實際,難度既不能太簡單,也不能過高。一旦形成正反饋迴路,學習動力會更充足,甚至能享受學習過程 。
文本來源@圖靈的貓 的視頻內容