最優策略是動態的----《自私的基因》讀後感（長文）鄧元傑

Random Tags

破面李冠首募分陳哥孖到轉招串粥灼日一老態傾心方春如芯為樂鐵物廢為損丁的毅他打覺更洪宗曳完李運基攜女黐毯景須太張紙治全大靚來不係靚 Hospitality 的豬林學古宜斌細拾遺讓低 OWARIWARI 僅敗龍海誤人平壤梁佩兩上雕謝瀛晟拜博奔私

最優策略是動態的----《自私的基因》讀後感（長文）鄧元傑

http://xueqiu.com/1069456225/25514072
理查德·道金斯（Richard Dawkins，1941－　）寫的《自私的基因》（中信出版社2012年9月版，盧允中等譯）讓我充分認識到博弈策略的動態性。或者說，根本沒有所謂的最優策略，競爭雙方（或多方）在不斷改變策略的過程中進化，誰跟不上形勢，誰就被淘汰。

　　舉個例子。比如一隻動物（比如鹿）要到水邊喝水，水是不能不喝的，但水裡有可以吃掉它的危險動物（比如鱷魚）。此時這只動物該怎麼辦？

　　一個策略是：儘量忍住不喝，到渴極了的時候再到水邊猛喝一通。但這樣一次可能喝很長時間的水，給了鱷魚可乘之機。所以可以考慮另一個策略：不斷頻繁、快速地奔向水邊，喝一口趕緊再跑回來，減少每次喝水的時間。這兩種策略到底哪種更好？

　　不知道。因為這要看競爭對手（水裡的危險動物）採用什麼策略了。如果對手反應敏捷，或許一次喝一口是不錯的策略，但如果對手反應遲緩，容易發現，那麼一次喝足，或許也是不錯的策略。而水中的危險動物，也在根據喝水動物的策略調整自己的策略，否則早就被進化淘汰了。所以雙方的策略都是不斷調整的，要根據對方（甚至第三方、第四方）的情況，不斷改變自己的策略。

　　實際上，單個個體很難改變策略，改變了也沒什麼大用，改變策略的是基因。或者說，在不斷吃與被吃、勝利與失敗的過程中，有某一方面特長的基因的個體生存下來的，它們繁衍出更多的後代，而沒有特長的基因的個體，後代越來越少，最後被淘汰。客觀地看，物種發生了進化。

　　但是，物種進化的一個趨勢是恆定不變的，就是（動物的）反應越來越快，速度越來越快，頭腦越來越聰明，視覺、聽覺越來越發達，身體的適應性越來越強。因為物種是彼此促進的，你反應慢、跑得慢，在複雜的環境下不能很好地權衡，做出正確的抉擇，就會被吃掉，或者吃不到別的物種，於是就被淘汰。我見過很多聰明動物的例子，它們的反應讓我震驚。當然這已經超出本書之外了，不再展開。

　　人，當然是擁有無與倫比的大腦，所以才在各種生物中脫穎而出。

　　各種策略的優勝劣汰、動態平衡、彼此相生相剋，有一個很有趣的例子：假如某個物種中的動物，只具有兩種性格之一：鷹派和鴿派。請注意它們表面上都一樣，但性格或者是鷹派，或者是鴿派。一旦同一物種相遇發生戰鬥（比如爭奪食物或配偶），鷹派一定要戰鬥到底，不是打死或打敗對方，就是被對方打死。鷹派是從來不會退卻的。而鴿派從來不打，所以當鴿派遇到鷹派，如果發生衝突，鴿派會立即退卻，讓鷹派獲得勝利，以保全自己的生命。

　　很顯然，鴿派之間是不會有衝突的，鴿派碰到鷹派也不會有衝突，因為鴿派會立刻選擇逃避。而鷹派碰到鷹派，發生衝突後只能戰鬥，知道其中一個死掉，才能解決問題。

　　那麼：種群中的鷹派佔多數，還是鴿派佔多數呢？

　　進化策略顯示，兩者之間會維持一個穩定的平衡。

　　比如，假設初始種群都是鴿派，此時變異出一隻鷹派（在漫長的進化過程中，這幾乎是必然的），鷹派成了街頭霸王，可以隨意欺負鴿派，佔有異性。假設鷹派和鴿派結合，後代一半是鷹派，一派是鴿派。可以想像它會佔有更多配偶，產生更多後代，由此導致鷹派越來越多。但是，當鷹派多到一定程度，就不會繼續增加了，因為它們以後相遇的概率會不斷提高，破釜沉舟的戰鬥必然導致鷹派之間相互消耗力量。而鴿派，當減少到一定比例，就又會重新開始擴大，因為鴿派不參加戰鬥，存活的時間長，理論上也可以產生更多後代。

　　相反，假設群體中一開始全是鷹派，突然變異出一隻鴿派，結果也一樣。所以，從長期看，群體中的鷹派和鴿派，必然圍繞一個比例波動。

　　看到這裡，假如你在這個群體中生存，你會採取什麼策略呢？

　　很顯然，如果鷹派過多，你應該做鴿派；反之，做鷹派。總之，不要和大多數人站在一起。

　　寫到這裡，不知道你是不是想到股市投資了？呵呵，當大多數人買一隻股的時候，你要賣；反之則買，往往是最優策略。

　　當然，物種在進化過程中，還可以產生出更狡猾的策略。比如一隻鴿派假裝鷹派，當它碰到對手時先嚇唬對方，如果對方是鴿派，就會退卻，這樣它就得逞了；如果對方是鷹派，憤而應戰，那它立刻夾著尾巴逃跑，也不會受傷。所以在鷹派、鴿派中，派生中假裝鷹派的鴿派，一開始也是很有利的。但問題是，當這種個體越來越多，假裝鷹派的鴿派相互遇到並發生衝突時，又會是什麼情況呢？顯然它們會相互威脅，但並不會真正投入戰鬥。它們的這種策略，讓真正的鷹派或鴿派看到，又會派生出什麼策略呢？

　　所以，沒有固定不變的最優策略！這是我看這本書的最大感受。

　　還有一個生存策略來源於囚徒困境。囚徒困境可能現在很多人都知道了，也是博弈論的基本知識，說的是兩個人，他們如果彼此合作，都可以得到不錯的利益（比如每人100分），但如果其中一個人選擇合作，而另一個人背叛，則背叛的一方可以得到相當優厚的利益（比如250分），而合作的一方成了傻瓜，利益為負（比如負50分）。但如果兩個人互相背叛，則是雙輸，比如都是負10分。那麼請問：如果你是其中一人，是選擇合作還是選擇背叛？

　　這是博弈論的基礎內容，很多人都知道：如果博弈是一次性的，應該選擇背叛；如果博弈是重複博弈，應該選擇合作。

　　嗯，合作總體是不錯的，但背叛的誘惑太大了。如果基於囚徒困境設計出更加複雜的博弈策略，到底誰會取勝呢？比如有這麼幾個代表性策略：

　　1、「傻瓜」策略：永遠合作，永遠與人為善。

　　2、絕對惡意策略：永遠選擇背叛。

　　3、「一報還一報」策略：（書上翻譯成「針鋒相對」）首先選擇合作，下一次採用對方上一次的策略。也就是說，如果上一次對方背叛了我，下一次我也背叛；上一次對方和我合作，下一次我也合作。所以，這種策略的出發點是善意的，但對於惡意的背叛，選擇一報還一報。

　　4、「二報還一報」策略：遭到兩次背叛，才選擇一次背叛。所以它是比「一報還一報」還要善意的策略。更善意的甚至有「三報還一報」等策略。很顯然，這個策略的目的是：「我要用我的真誠感動你，但如果你背叛我多次，我也會背叛一次，讓你知道我也是有血性的。」

　　5、偶爾背叛策略：首先選擇合作，如果遇到了善意的策略（比如「n報還一報」），該策略也會一直合作，但會偶爾選擇背叛，比如十次合作中突然來一次背叛，從而獲得巨大利益。在現實生活中，這種人最可怕，因為他平時看起來很忠厚老實，但關鍵時刻會欺騙，因為對他來說，這一次博弈是最後博弈，騙完就走人。但和他相處的朋友並不知道，於是就上了當。

　　6、「欺負老實人」策略：初次選擇合作或背叛並不重要，重要的是在不斷博弈中看看對方是什麼策略。如果對方是「老實人」，比如「傻瓜」策略或「n報還一報」策略，我就選擇背叛；如果對方不好欺負，比如「一報還一報」，我就老老實實選擇合作；如果對方是絕對惡意策略，我也絕對惡意。

　　7、「永不寬恕」策略：第一次選擇合作，但如果你騙我一次，我以後永遠背叛，永不寬恕。

　　8、「加倍報復」策略：你騙我一次，我一定要騙你兩次，否則永遠沒完。

　　當然，我們還可以設計出更多策略，但具有代表性的就以上幾種。很顯然，它們反映出我們的人性。

　　它們博弈的結果，很多人都知道了：是「一報還一報」取勝，科學家們做過多次實驗，都是如此。

　　事後想想，似乎很正常：因為「一報還一報」是善意的，對惡意也報以相等的懲罰。而且「一報還一報」並不記仇：如果你以後選擇合作，我還會和你繼續合作。這大概相當於「沒有永遠的朋友，也沒有永遠的敵人，只有永遠的利益」？呵呵。相比之下，「傻瓜」策略、「n報還一報」過於善良了，而「永不寬恕」和「加倍報復」策略則過於記仇了，所以在多次博弈中得分並不高。當然，多種惡意策略的得分是最低的。甚至，「永不寬恕」和「加倍報復」策略，在相當程度上也是惡意的，因為你不允許別人改過，或者懲罰措施過於激烈，導致衝突升級。

　　但是別忙：難道「一報還一報」真的能永遠取勝嗎？

　　並非如此。假如整個生態環境中全是善意策略，大家彼此合作，此時根本不能體現出「一報還一報」的優勢，它會和其他善意策略獲得一樣的分數。假如，假如----此時混進了一個惡意策略，這個惡意策略的分數會遠高於所有善意策略，因為它一直（或主要）靠欺騙，剝奪別人的利益。所以在善意群體中如果出現惡意策略（這幾乎是必然的，就像一群好人中總會混進壞人，或者他們的後代中必然有壞人一樣），惡意策略會繁殖得很快，相當於一小撮罪犯在一群忠厚老實者中獲得巨大利益。

　　所以，當惡意策略不斷增加時，極為善意的策略，比如「傻瓜」策略、「n報還一報」策略都會被逐漸消滅（相當於忠厚老實人壞人幹掉）。此時，當事物發展到這一階段時，才能充分體現出「一報還一報」策略的優勢。也就是說，當惡意策略增加到一定程度時，「一報還一報」策略就會逐漸雄起，在群體中佔據優勢，

　　假如 ---- 群體中的善意策略極少，幾乎都是極端惡意或接近極端惡意的策略，所以「一報還一報」和其他善意策略的數量極少，並且散佈在惡意策略中，那麼「一報還一報」的得分也不高。它必須突破一個「臨界點」，才會取得優勢地位。

　　看到這裡，我感慨萬千。這相當於什麼呢？相當於：人類社會如果已經發展到人與人之間都是敵人的程度了，那你或者做個壞人，或者隱藏起來，找到極少數和你一樣的好人，彼此合作，才能生存下去。在幾千年文明史中，確實有極少數時期，社會就是這個樣子。

　　但幸運的是，這種情況畢竟是極少數，在絕大多數情況下，善必將戰勝惡，所以秉承「一報還一報」策略，與人為善，懲罰惡，但又不記仇，應該是最好的策略。

　　寫得有點多了，呵呵。

　　總的感覺是：《自私的基因》讓我充分認識到博弈的動態性，在很多情況下（不是多次博弈）並沒有最好的策略，要根據對方的情況進行調整。我記得《孫子兵法》中說過：「能因敵變化而取勝者，謂之神」。我在《自私的基因》中，總算為它找到理論依據了，呵呵。我們玩股票，如果環境變了，情況變了，當然要調整自己的策略。這沒什麼丟人的。我們要避免的是無謂的亂變，以及毫無意義的堅持。這一切都要加強分析能力。

　　所以看了這本書，讓我對股市博弈有了更深入的思考。比如：

　　1、價值投資者（我指的是關注市盈率、市淨率很低、也有成長性的股票的人）的策略，在熊轉牛初期往往不好，因為此時是前期超跌股大漲，而白馬股因為是白馬，跌得不夠深，反彈自然也不會多。

　　2、天天追漲停和熱點的短線投資者（或投機者），玩得好確實掙錢，但如果沒有極高的敏銳性，最好還是不要玩。總之，這是一種難以做大的策略。

　　3、股市和生物界還是不一樣。生物界一般講究合群（因為群居動物佔優勢），但在群體中選擇生存策略，往往要和別人不一樣。要根據大多數人的選擇，不斷調整自己的決策，所以這是個永無休止的動態過程。炒股最好別合群。所以一種炒股策略如果用的人多了，比如都是價值投資，都買銀行股，那麼銀行股可能就很難漲起來。

　　4、所以，股市投資者最好學會多種策略，當然可以以一種策略為主。長期來看，只要是穩定的策略，一種策略也行（如價值投資）。什麼是「穩定」策略？以不變應萬變，在絕大多數環境中表現都不錯的策略。

　　5、最好的策略，似乎是分析板塊潛力，中線持股。吃完這塊吃那塊，幾個月或頂多一兩年就換。當然這個要求比價值投資要高，因為除了要分析個股，還要不斷評估板塊潛力，評估整體大勢，所以也更難做到。所以，價值投資確實是一種很好的、穩定的策略。

　　《自私的基因》總體是一本相當優秀的書，讓我對基因支配，有了比過去深得多的理解。其實過去我也看過類似的書和文章，但這本書的內容還是極為深入，讓我獲益很大。

　　但看完全書，我還是不能同意「基因是完全自私的」觀點。作者說，生命個體（比如人）有時候會表現出合作、幫助他人的行為，貌似無私，其實最終目的還是為了滿足個人利益（物質或精神上的）。所以無私是為了自私。既然是為了自私，本質上就是自私。

　　對此我想了很久，還是不能同意。因為我認為，既然生物逐步進化成了社會化動物（比如人、猴子、猩猩、獅子、狼、鬣狗、斑馬、角馬、羚羊、大象、河馬、野牛、野豬、豚鼠、老鼠、螞蟻、蜜蜂、蝙蝠、各種群居的鳥和魚……），並且社會化動物逐漸佔據優勢（我不否認老虎、豹子目前在競爭中絲毫不落下風，但總體是社會化動物佔優），這肯定說明合作已經佔據了越來越重要的位置。那麼，有利於合作的基因，似乎也應該佔據更多位置才對。在生活中，一個極端自私的人肯定不受歡迎，他/她的基因估計也很難流傳下去。

　　當然，我的爭辯是膚淺的，因為作者道金斯用了大量篇幅來論證他的觀點，作者認為：合作和群居也是為了讓基因流傳下去，因為群體的力量大，所以基因本質上還是自私的。但還是不能說服我，因為現在很多群居物種，離開群體的單個個體，實際上是很難生存的，甚至無法生存。此時為了生存，群居是必不可少的，是彼此需要的。如果回到分散狀態，各個單個個體都會被更強大的物種消滅掉。所以，群居既然促進了物種的繁衍和進化，最終變成不可缺少的生活方式，難道就不會讓基因變得稍微無私一點？

　　從更高的層次來看，道金斯堅持一元論，不夠中庸，總讓我不是太信服。但我必須承認，他的論證很有力，這本書也是一本絕對不可多得的好書。

PermaLink: https://articles.zkiz.com/?id=76221

📖 ZKIZ Archives

Random Tags

最優策略是動態的----《自私的基因》讀後感（長文） 鄧元傑

最優策略是動態的----《自私的基因》讀後感（長文）鄧元傑