發了瘋地學習（下篇）——底層探究，激發學習的元動力

http://m.yanjunaudio.com2021年05月28日 13:50教育裝備網

　　強化學習，反饋回路與反饋強化就是構成人工智能理論中強化學習的基礎機制，強化是指在不斷嘗試中，個體所學習到的反饋回路，不斷更新，并最終優化到可能目標的過程，它和監督式機器學習一樣，是構成人工智能的基石，從生物學的角度講，強化學習更符合人類的進化方式，從古代的尼安德特人開始，不符合正反饋回路的行為或族群就注定被環境所更新，也意味著淘汰，人類之所以進化成人類，是因為除了總結舊有知識并發現規律外，還會不斷嘗試和探索。深度了解強化學習的機制我們就能發現“學習”這個動作的本質。

　　學習，究竟是為了什么?不打游戲是為了更好的學習，更好的學習是為了更好的生活，那什么又是更好的生活呢?可以痛快的玩游戲，算不算更好的生活呢。我們從小被教導要好好學習，卻從來沒有真正思考過，為什么要好好學習，如果連成因機制都不了解，看再多的思維教學和學習導論，也沒有辦法讓自己高效的執行學習這件事，我們真的厭惡學習嗎?

　　其實，站在人工智能的角度看，學習和玩游戲沒有本質的區別，學習是一個枯燥的過程，你要背單詞，記公式，還要練習，玩游戲也是如此，你要記憶每個角色的技能，走位技巧，出裝順序，也要通過很多的對局來練習。在強化學習系統中，他們都是一種東西，即“動作”。動作本身無所謂枯燥和有趣，關鍵看它所處的狀態和預期的獎勵。人類厭惡枯燥的東西，所以當學習索然無味時，我們就會討厭學習，這是天性，學習并不能帶來和游戲一樣的快感，否則的話，沒有人會討厭學習，但是，也有人卻堅持學習并樂在其中，為什么?答案就是反饋機制，當學習的動作帶給人的收益為正，就會帶給我們所說的快感預期，也即前文所題的多巴胺，如果只靠意志力去學習，就像不斷繃緊一根弦，強行違背生理的感覺，到最后早晚會斷掉。

　　我們絕大多數人，沒有移山填海的毅力，因此這樣的學習是不科學的，大腦發出指令的動機其實和海洋館里的海豹一樣，是為了眼前那條小魚干，頂一次球給一條魚，只有不斷收到正向的反饋，才會自然而然地保持前進的動力。高清楚了這點，我們就可以思考，如何讓自己像打游戲一樣沉迷于學習。

　　我們該怎么做?學霸和學渣的區別，就在于對快感預期的不同，預期不同形成的反饋也不同。學霸，可以看作一個高效的強化學習系統，它具備完整的反饋回路以及有效的反饋強化。具體到操作中，成為學霸，以下三點是基礎。

　　縮短反饋周期。反饋周期長意味著半衰期長。那半衰期是什么，以后的文章我會講，這里只需要知道，反饋周期太長，是大多數人無法堅持的主要原因。舉個例子，有的人高中學習成績很好，可是到了大學就一落千丈，有人說是因為高考之后人松懈了，容易變笨犯懶。很可惜，這個說法并沒有研究結論支撐，真正的原因是反饋周期的拉長。在高中時，一個月會有三四次測試，努力學習一個周，就能看到努力的效果，班級名次很容易進步，接著，同學吃驚，家長表揚，老師夸贊，你會覺得很開心，打了雞血一樣繼續學習，這種感覺可能會持續幾天，還沒等它消退，下一次考試又來了，在這樣的反饋回路中動作帶來的獎勵被極大加速，整個系統變得完全正向。而上了大學以后，認真學習一個學期才能有一個號的GPA，這個反饋周期變長了好幾倍，而且也很少有人再收到過度的夸獎和極大表揚。因此，大多數人堅持不下來，取而代之的很多人習慣，考試前一周開始執行學習的動作，因為只需要一周就可以獲得獎勵，比如及格。所以，要想辦法減少你的反饋周期。其他做法，將大目標分解成小目標，會更容易塑造一個連續的回路。

　　增加反饋強化。前面我們提到過三種反饋模式，固定比率強化，固定時距強化，不固定比率強化，那么把游戲替換成學習，我們需要做什么?可以是考試累積進步10名，就請自己吃燒烤;也可以是隔壁班的小愛刮目相看的SSR;又或是再看三小時書就去打游戲。對應到相應的收益上來，就是提高學習留存率;延長學習時間;增加學習收益。

　　調整反饋難度，有研究表明，游戲玩家在大多高難度關卡挑戰成功后，大腦多巴胺回路會異常激活，也就是說，適當的高難度游戲，能夠最大化的激化反饋回路，這也是很多游戲中設置排位賽機制的由來，通過匹配不同難度的對手，既不會讓你一直輸下去，也不會讓你永遠贏。而是塑造一種升段掉段的獎勵機制，讓你的反饋回路一直處于半激活狀態。在學習中，如何設置難度，需要根據個人情況制定，下一次考試提高10分，或成為班級第一，就是兩種不同的難度，既不要太簡單也不要太難。

　　一旦大腦完成了一次正反饋回路，那么久嘗試過一次甜頭，你的動力就會越來越足，甚至會享受學習這件事本身像打游戲一樣，瘋狂的學習，這，就是學霸的誕生規則。關于反饋機制，還有很多東西可以講，具體的學習方法也遠不止這些。那MR智慧教育，就是在探究學習動機和反饋的根源后，高效地輔助教學，引導反饋回路的正向，通過形象生動性增加反饋強化，大數據的指導下，也針對性的調整反饋難度。奧圖碼MR智慧教育，用底層思維邏輯，運用5G/VR/AR/MR/AI等技術手段，激發學習元動力。