生活中的博弈論(二)

雜談分類:經(jīng)濟(jì)知識

博弈論普及書中容易出錯的一個問題。應(yīng)該說,對局者采用優(yōu)勢策略在對方采取任何策略時,總能夠顯示出優(yōu)勢。圍棋則是對弈雙方相繼按照一先一后次序行動的博弈。對于一人一步的相繼行動的博弈,每個參與者都必須向前展望或預(yù)期,估計對手的意圖,從而倒后推理,決定自己這一步應(yīng)該怎么走。

這是一條線性的推理鏈:“假如我這么做,他就會那么做———若是那樣,我會這么反擊”,后面的步驟依此類推。也就是說,你怎么走棋,完全取決于對手的上一招。這在博弈論上叫做“倒推法”。

在動態(tài)博弈中,存在明顯的馬太效應(yīng),也就是說凡是擁有較少的,連他僅有的那一點(diǎn)點(diǎn)也奪過來;凡是多的,就加給他,讓他更多。比如在圍棋上,就有“一招不慎,滿盤皆輸”的諺語,當(dāng)然我們也要應(yīng)用馬太效應(yīng)原理,在獲得優(yōu)勢的情況能夠保持優(yōu)勢,擴(kuò)大優(yōu)勢,直至最后成功。

而在同時行動的靜態(tài)博弈里,沒有一個博弈者可以在自己行動之前得知另一個博弈者的整個計劃。在這種情況下,互動推理不是通過觀察對方的策略進(jìn)行,而是必須通過看穿對手的策略才能展開。

要想做到這一點(diǎn),單單假設(shè)自己處于對手的位置會怎么做還不夠。即便你那樣做了,你只會發(fā)現(xiàn),你的對手也在做同樣的事情,即他也在假設(shè)自己處于你的位置會怎么做。

因此,每一個人不得不同時擔(dān)任兩個角色,一個是自己,一個是對手,從而找出雙方的最佳行動方式。與一條線性的推理鏈不同,這是一個循環(huán),即“假如我認(rèn)為對方認(rèn)為我認(rèn)為……”。

這樣來看,定式是一系列納什均衡的累計直至局部達(dá)到穩(wěn)定的一種變化,直到一方認(rèn)為可以根據(jù)形勢選擇任何變化或脫先而無局部受損之虞。由于定式是在大量實(shí)戰(zhàn)基礎(chǔ)上不斷被驗(yàn)證并長期積累而成。

因此在動態(tài)博弈中,納什均衡的要義在于:即使在對抗條件下,雙方可以通過向?qū)Ψ教岢鐾{和要求,找到雙方能夠接受的解決方案而不至于因?yàn)楦髯宰非笞晕依娑鵁o法達(dá)到妥協(xié),甚至兩敗俱傷。穩(wěn)定的均衡點(diǎn)建立在找到各自的“占優(yōu)策略”(dominantstrategy),即無論對方作何選擇,這一策略始終應(yīng)優(yōu)于其它策略。

從愛情故事談起:優(yōu)勢策略

“原地高天,堪嘆古今情難盡;癡男怨女,可憐風(fēng)月債難償。”

我們來先看歐·亨利的小說《麥吉的禮物》描述的這樣一個愛情故事。新婚不久的妻子和丈夫,很是窮困潦倒。除了妻子那一頭美麗的金色長發(fā),丈夫那一只祖?zhèn)鞯慕饝驯?,便再也沒有什么東西可以讓他們引以為傲了。雖然生活很累很苦,他們卻彼此相愛至深。每個人關(guān)心對方都勝過關(guān)心自己。為了促進(jìn)對方的利益,他們愿意奉獻(xiàn)和犧牲自己的一切。

話說明天就是圣誕節(jié)了,小兩口都是身無余錢。為了讓愛人過得好一點(diǎn),每個人還是想悄悄準(zhǔn)備一份禮物給對方。丈夫賣掉了心愛的懷表,買了一套漂亮發(fā)卡,去配妻子那一頭金色長發(fā)。妻子剪掉心愛的長發(fā),拿去賣錢,為丈夫的懷表買了表鏈和表袋。

最后,到了交換禮物的時刻,他們無可奈何地發(fā)現(xiàn),自己如此珍視的東西,對方已作為禮物的代價而出賣了?;藨K痛代價換回的東西,竟成了無用之物。出于無私愛心的利他主義行為,結(jié)果卻使得雙方的利益同時受損。

歐·亨利在小說中寫道:“聰明的人,送禮自然也很聰明。大約都是用自己有余的物事,來交換送禮的好處。然而,我講的這個平平淡淡的故事里,兩個住公寓的傻孩子,卻是笨到極點(diǎn),彼此為了對方,白白犧牲了他們屋檐下最珍貴的財富?!?/p>

從這段文字看,歐·亨利似乎并不認(rèn)為這小兩口是理性的。且讓我們暫時拋開愛情的溫馨,單從利益的角度來解讀。我們假定,他們每個人,有一個“毫不利己,專門利人”的偏好系統(tǒng),毫不考慮自身利益,專門謀求別人的幸福。

這樣,個人選擇付出還是不付出,只看對方能不能得益,與自己是否受損無關(guān)。以這樣的偏好來衡量,最好的結(jié)果自然是自己付出而對方不付出,對方收益增大;次好的結(jié)果是大家都不付出,對方不得益也不犧牲;再次的結(jié)果是大家都付出;最壞的結(jié)果是別人付出而自己不付出,靠犧牲別人來使自己得益。我們不妨可用數(shù)字來代表個人對這四種結(jié)果的評價:第一種結(jié)果給3分,第二種結(jié)果給2分,第三種結(jié)果給1分,最后那種給0分。

不難看出,無論對方選擇付出,還是選擇不付出,個人自己的最佳選擇都是付出。然而這并不是對大家都有利的選擇。事實(shí)上,大家都選擇不付出,明顯優(yōu)于大家都選擇付出的境況,這就達(dá)到了上文提到的納什均衡。

實(shí)際上,這里的例子有一個占優(yōu)策略均衡。通俗地說,在占優(yōu)策略均衡中,不論所有其他參與人選擇什么策略,一個參與人的占優(yōu)策略都是他的最優(yōu)策略。顯然,這一策略一定是所有其他參與人選擇某一特定策略時該參與人的占優(yōu)策略。

因此,占優(yōu)策略均衡一定是納什均衡。在這個例子中,妻子選擇不付出,也就是不剪掉金發(fā)對于妻子來說是一個優(yōu)勢策略,也就是說妻子不付出,丈夫不管選擇什么策略,妻子所得的結(jié)果都好于丈夫。同理,丈夫不賣掉懷表對于丈夫來說也是一個優(yōu)勢策略。

再舉個常見的例子:一名籃球前鋒和隊(duì)友在籃下面對著對方的一個后衛(wèi)時,形成了二打一的局面,該前鋒可以選擇直接投籃,也可以選擇傳球給隊(duì)友,根據(jù)經(jīng)驗(yàn),傳球過人的成功率更大,那么傳球就是該前鋒的優(yōu)勢策略。即某些時候它勝于其他策略,且任何時候都不會比其他策略差。

如果一個球員具有這樣一種策略,無論其他球員怎么做,這個策略都會高出一籌,那么這個球員就有一個優(yōu)勢策略。當(dāng)然如果一個球員有這么一個優(yōu)勢策略,他的決策就會變得非常簡單,只要直接采用該策略而完全不必考慮對手的應(yīng)對策略。

還有一個要注意的問題是,采用優(yōu)勢策略得到的最壞結(jié)果并不一定比采用另外一個策略得到的最佳結(jié)果要好,這是很多

比如就這個例子來說,就妻子來說,她采用不付出的策略,無論丈夫付出或不付出,妻子的不付出策略總是占有優(yōu)勢。丈夫的優(yōu)勢策略也是一樣。但是,妻子選擇不付出的最壞結(jié)果是1,選擇付出的最好結(jié)果是3,很明顯,妻子的優(yōu)勢策略得到的最壞結(jié)果并不比采用另外一個策略得到的最佳結(jié)果要高出一籌。

反之,劣勢策略則是指在博弈中,不論其他參與人采取什么策略,某一參與人可能采取的策略中,對自己嚴(yán)格不利的策略,劣勢策略是我

房地產(chǎn)開發(fā)博弈、警察捉小偷與混和策略們在日常生活中不可以選擇的行動。劣勢策略是與優(yōu)勢策略相對應(yīng)的概念,筆者這里就不多做介紹。

實(shí)際上,在每個參與人都有優(yōu)勢策略的情況下,優(yōu)勢策略均衡是非常合乎邏輯的。一個優(yōu)勢策略優(yōu)于其他任何策略,同樣,一個劣勢策略則劣于其他任何策略。

假如你有一個優(yōu)勢策略,你可以選擇采用,并且知道你的對手若是有一個優(yōu)勢策略他也會照辦;同樣,假如你有一個劣勢策略,你應(yīng)該避免采用,并且知道你的對手若是有一個劣勢策略他也會規(guī)避。

但遺憾的是,并不是所有博弈都有優(yōu)勢策略,哪怕這個博弈只有兩個參與者。實(shí)際上,優(yōu)勢策略只是博弈論的一種特例。雖然出現(xiàn)一個優(yōu)勢策略可以大大簡化行動的規(guī)則,但這些規(guī)則卻并不適用于大多數(shù)現(xiàn)實(shí)生活中的博弈。

來看這樣一個房地產(chǎn)開發(fā)博弈的例子。假定北京市的房地產(chǎn)市場需求有限,A、B兩個開發(fā)商都想開發(fā)一定規(guī)模的房地產(chǎn),但是市場對房地產(chǎn)的需求只能滿足一個房地產(chǎn)的開發(fā)量,而且,每個房地產(chǎn)商必須一次性開發(fā)這一定規(guī)模的房地產(chǎn)才能獲利。在這種情況下,無論是對開發(fā)商A還是開發(fā)商B,都不存在一種策略完全優(yōu)于另一種策略,也不存在一個策略完全劣于另一個策略。

因?yàn)?,如果A選擇開發(fā),則B的最優(yōu)策略是不開發(fā);如果A選擇不開發(fā),則B的最優(yōu)策略是開發(fā);類似地,如果B選擇開發(fā),則A的最優(yōu)策略是不開發(fā);如果B選擇不開發(fā),則A的最優(yōu)策略是開發(fā)。這樣就形成了一個循環(huán)選擇。

根據(jù)納什均衡含義就是:給定你的策略,我的策略是最好的策略;給定我的策略,你的策略也是你最好的策略。即雙方在對方給定的策略下不愿意調(diào)整自己的策略。

這個博弈的納什均衡點(diǎn)不止一個,而是兩個:要么A選擇開發(fā),B不開發(fā);要么A選擇不開發(fā),B選擇開發(fā)。在這種情況下,A與B都不存在優(yōu)勢策略,也就是A和B不可能只要選擇某一個策略而不考慮對方的所選擇的策略。實(shí)際上,在有兩個或兩個以上納什均衡點(diǎn)的博弈中,其最后結(jié)果難以預(yù)測。在房地產(chǎn)博弈中,我們無法知道,最后結(jié)果是A開發(fā)B不開發(fā),還是A不開發(fā)B開發(fā)。

再來看這樣一個警察捉小偷博弈的例子。某個村莊上只有一名警察,他要負(fù)責(zé)整個村的治安。小村的兩頭住著兩個全村最富有的村民A和B,A、B分別需要保護(hù)的財產(chǎn)為2萬元、1萬元。整個小村某一天來了個小偷,要在村中偷盜A和B的財產(chǎn),這個消息被警察得知。

因?yàn)榉稚矸πg(shù),警察一次只能在一個地方巡邏;而小偷也只能偷盜其中一家。若警察在某家看守財產(chǎn),而小偷也選擇了去該富戶家,就會被警察抓?。蝗艟鞗]有看守財產(chǎn)的富戶家而小偷去了,則小偷偷盜成功。

一般人會憑著感覺認(rèn)為,警察當(dāng)然應(yīng)該看守富戶A家財產(chǎn),因?yàn)锳有2萬元的財產(chǎn),而B只有1萬元的財產(chǎn)。實(shí)際上,對于警察的一個最好的做法是,警察抽簽決定去A家還是B家。

因?yàn)锳家的財產(chǎn)是B家的2倍,小偷自然光顧A家的概率要高于B家,不妨用兩個簽代表A家,比如如果抽到1、2號簽去A家,抽到3號簽去B家。這樣警察有2/3的機(jī)會去A家做看守,1/3的機(jī)會去B家做看守。

而小偷的最優(yōu)選擇是:以同樣抽簽的辦法決定去A家還是去B家實(shí)施偷盜,只是抽到1、2號簽去A家,抽到3號簽去B家,那么,小偷有l(wèi)/3的機(jī)會去A家,2/3的機(jī)會去B家。這些數(shù)值是可以通過聯(lián)立方程準(zhǔn)確計算出的,筆者這里就不給出具體的數(shù)學(xué)計算過程了。

細(xì)心的讀者會發(fā)現(xiàn),警察捉小偷博弈與前面所舉的兩個博弈案例有一個很大的差別,就是用到了概率的知識,警察與小偷沒有一個一定要選擇某個策略的納什均衡,而只有選擇某個策略是多少幾率的納什均衡。

在博弈論中,可以選擇出某個策略的納什均衡,這個策略叫做純策略。

用專業(yè)的話來說,所謂純策略是指參與者在他的策略空間中選取惟一確定的策略。但至少存在一個混合策略均衡點(diǎn)。

所謂混合策略是指參與者采取的不是惟一的策略,而是其策略空間上的概率分布。這就是納什于1950年證明了的納什定理。而這個博弈沒有純策略納什均衡點(diǎn),而有混合策略均衡點(diǎn)。這個混合策略均衡點(diǎn)下的策略選擇是每個參與者的混合策略選擇。

最常見混和策略就是猜硬幣游戲。比如在足球比賽開場,裁判將手中的硬幣拋擲到空中,讓雙方隊(duì)長猜硬幣落下的正反面。由于硬幣落下是正是反是隨機(jī)的,概率應(yīng)該都是1/2。那么,猜硬幣游戲的參與者都是1/2的概率選擇正與反,這時博弈達(dá)到混和策略納什均衡。

再比如我們兒時玩的“剪、布、錘”就不存在純策略均衡,對每個小孩來說,自己采取出“剪”、“布”、還是“錘”的策略應(yīng)當(dāng)是隨機(jī)的。一旦一方知道另一方出其中某個策略的可能性增大,那么這個對弈者在游戲中輸?shù)目赡苄跃驮龃蟆R虼?,每個小孩的最優(yōu)混合策略是采取每個策略的可能性是l/3。在這樣的博弈中,每個小孩各取三個策略的1/3是納什均衡。

由此可見,純策略是參與者一次性選取的,并且堅(jiān)持他選取的策略。而混合策略是參與者在各種備選策略中采取隨機(jī)方式選取的。

在博弈中,參與者可以改變他的策略,而使得他的策略選取滿足一定的概率。當(dāng)博弈是零和博弈時,即一方所得是另外一方的所失時,此時只有混合策略均衡。對于任何一方來說,此時不可能有純策略的占優(yōu)策略。

位置博弈的策略

有這么一個大家都很熟悉的現(xiàn)象,那就是在每個大大小小的城市街道上,經(jīng)常見到一些地段上的商店十分擁擠,形成一個繁榮的商業(yè)中心區(qū),但另一些地段卻十分冷僻,沒什么商店。

更有意思的是,往往同類型的商家總是聚集在比較近的地方,比如肯德基、麥當(dāng)勞之間總是緊緊相鄰。再如超市現(xiàn)象,前兩年有很多人對超市的布局發(fā)表了一些議論。因?yàn)橛腥俗⒁獾?,如果在一條街上有2~3家超市的話,這幾家超市經(jīng)常會“相依為鄰”,選址離得很近,倘若它們稍微分散地布置于街上,無疑對市民的購物提供相當(dāng)?shù)谋憷?,因此他們認(rèn)為超市“擁擠”在一起屬于資源浪費(fèi)。

類似的事情也發(fā)生于國內(nèi)各省級電視臺的節(jié)目播放。很多電視迷會發(fā)現(xiàn),大部分電視臺總是將最精彩的節(jié)目放在相同的時間段,甚至有些時候是在相同時間段播放類似的節(jié)目,比如你播“快樂大本營”,我就播“超級總動員”;你播“玫瑰之約”,我就播“單身男女”。人都說文人相輕,電視臺也是這么相煎太急。

博弈論能夠?qū)@個現(xiàn)象作出科學(xué)的解釋。首先對一個簡單的博弈模型進(jìn)行敘述:

假設(shè)有條完全筆直的公路,連接城市A到城市B之間的交通。這條公路上每天行駛著大量的車輛,并且車流量在公路上是均勻分布的。假設(shè)有兩家快餐店,我們不妨假設(shè)為靠高速公路起家的麥當(dāng)勞與肯德基,它們要在這條公路上選擇一個位置開設(shè)快餐,招攬來往車輛。為了能夠更加清晰地說明這個博弈,我們不得不畫一張圖。

再對該模型作一個合乎邏輯的假定:通常情況下,車輛總是樂意到距自己最近的快餐店購買食物。根據(jù)這個原則,從資源的最佳配置來看,麥當(dāng)勞、肯德基應(yīng)該分別開在1/4、3/4處是最優(yōu)。

在這種均勻散布的情況下,每家快餐店都擁有1/2的顧客量,同時對于開車的人們總體來說,這種策略的選擇,車輛到快餐店的總的距離最短。

然而,人生不如意事十之八九,天并不總能遂人之愿??系禄c麥當(dāng)勞都是百年老店,自然是精明之至,從經(jīng)濟(jì)學(xué)上就是具有經(jīng)濟(jì)理性。他們只要手段合法,總是希望自己的生意盡可能地紅火,至于其他人的生意的好壞則與己無關(guān)。

出于這種理性,肯德基分店經(jīng)理肯定會想到:如果我將店鋪從3/4點(diǎn)處向左移一點(diǎn),那么1/4點(diǎn)之間的中點(diǎn)不再是1/2點(diǎn)處,而是位于1/2點(diǎn)的靠左邊一點(diǎn)。這等于說,這一移位,肯德基將從麥當(dāng)勞奪取部分顧客,這對于肯德基單方面來說無疑是一個好主意。當(dāng)然麥當(dāng)勞也不甘示弱,作為一個“理性人”,麥當(dāng)勞自然也應(yīng)該想到將自己的店鋪從1/4點(diǎn)處向右移動以爭取更多的顧客。

不難想象,雙方博弈的結(jié)果將使他們的店鋪設(shè)置在l/2中點(diǎn)附近達(dá)到納什均衡狀態(tài),甲乙兩人相依為鄰且相安無事地做起快餐生意。如果我們放寬條件,不是兩家快餐店,而是很多家快餐店,很容易分析得到結(jié)果:這些快餐店仍然會在1/2處設(shè)店達(dá)到納什均衡。

同樣的道理,如果地段的繁華等其他原因在一條路上都可以認(rèn)為到處相同的話,沒有一個商家會將自己安置于某條路的一頭,只要條件許可,超市將幾乎趨向于相依為鄰,這種現(xiàn)象完全可以看做公正的市場競爭的合理結(jié)果。這就是很多城市商業(yè)中心形成的原理,在博弈論中稱為位置博弈。

電視臺之間在時間段上的重疊問題在本質(zhì)上就是位置博弈。事實(shí)上,我們只要將時間設(shè)想為上述案例中的公路,就不難分析出:市場競爭的結(jié)果就是,觀眾青睞的精彩節(jié)目將集中在同一黃金時段。在這種情況下,電視臺之間的競爭會更加激烈,為了獲得收視率,電視臺只能在制作質(zhì)量上下功夫,最終獲得實(shí)惠的仍然是廣大觀眾。

西方國家在名義上是民權(quán)政治。實(shí)際上,選舉上臺的各個政黨之間的政策并沒有多大差別。就拿美國來說,民主黨與共和黨為了能夠獲得總統(tǒng)大選的勝利,必須要盡量爭取最多的選民。兩黨在制訂政策時,必然以這個目的為原則。我們把選民的政治主張看成是位置博弈中的均勻分布的人群,把兩個政黨看成是兩個店鋪,最終的結(jié)果必然是兩個政黨的政策趨向于折衷,并且非常近似。從這個意義上來說,西方政黨的換屆選舉倒真是有“換湯不換藥”的味道。

獵鹿模型的合作哲學(xué)

社會學(xué)告訴我們,在人類文明之初的原始社會,人們維生的方式主要是狩獵。

話說某個部落有兩個出色的獵人,某一天他們狩獵的時候,看到一頭梅花鹿。于是兩人商量,只要守住梅花鹿可能逃跑的兩個路口,梅花鹿就會無路可逃。只要他們能夠齊心協(xié)力,梅花鹿就會成為他們的盤中餐。不過只要其中有任何一人放棄圍捕,梅花鹿就會逃跑掉。

“福兮禍之所依;禍兮福之所伏?!庇袝r運(yùn)氣太好并不一定有好的結(jié)果。正當(dāng)兩個獵人嚴(yán)陣以待,圍捕梅花鹿的時候,在兩個路口都跑過一群兔子,如果獵人去抓兔子,會抓住4只兔子。從維持生存的角度來看,4只兔子可以供一個人吃4天,1只梅花鹿如果被抓住將被兩個獵人平分,可供每人吃10天。這里不妨假設(shè)兩個獵人叫A和B。

在這個矩陣圖中,每一個格子都代表一種博弈的結(jié)果。具體說來:

1.左上角的格子表示,獵人A和B都抓兔子,結(jié)果是獵人A和B都能吃飽4天;

2.左下角的格子表示,獵人A抓兔子,獵人B打梅花鹿,結(jié)果是獵人A可以吃飽4天,B則一無所獲;

3.在右上角,獵人A打梅花鹿,獵人B抓兔子,結(jié)果是獵人A一無所獲,獵人B可以吃飽4天;

4.在右下角,獵人A和B合作抓捕梅花鹿,結(jié)果是兩人平分獵物,都可以吃飽10天。

在這個博弈中,根據(jù)納什均衡的定義,應(yīng)用博弈論中的“嚴(yán)格劣勢刪除法”(有興趣的讀者可以找本書參考文獻(xiàn)中的相關(guān)書籍閱讀,這里不做詳細(xì)介紹。)可以得到該博弈有兩個納什均衡點(diǎn),那就是:要么分別打兔子,每人吃飽4天;要么合作,每人吃飽10天。

兩個納什均衡,就是兩個可能的結(jié)局。兩種結(jié)局到底哪一個最終發(fā)生,這無法用納什均衡本身來確定。

比較[10,10]和[4,4]兩個納什均衡,明顯的事實(shí)是,兩人一起去獵梅花鹿比各自去抓兔子可以讓每個人多吃6天。按照經(jīng)濟(jì)學(xué)的說法,合作獵鹿的納什均衡,分頭抓打兔子的納什均衡,具有帕累托優(yōu)勢。與[4,4]相比,[10,10]不僅有整體福利改進(jìn),而且每個人都得到福利改進(jìn)。

換一種更加嚴(yán)密的說法就是,[10,10]與[4,4]相比,其中一方收益增大,而其它各方的境況都不受損害。這就是[10,10]對于[4,4]具有帕累托優(yōu)勢的含義。

在經(jīng)濟(jì)學(xué)中,帕累托效率準(zhǔn)則是:經(jīng)濟(jì)的效率體現(xiàn)于配置社會資源以改善人們的境況,主要看資源是否已經(jīng)被充分利用。如果資源已經(jīng)被充分利用,要想再改善我就必須損害你或別的什么人,要想再改善你就必須損害另外某個人。

一句話簡單概括,要想再改善任何人都必須損害別的人了,這時候就說一個經(jīng)濟(jì)已經(jīng)實(shí)現(xiàn)了帕累托效率。

相反,如果還可以在不損害別人的情況下改善任何人,就認(rèn)為經(jīng)濟(jì)資源尚未充分利用,就不能說已經(jīng)達(dá)到帕累托效率。效率是指資源配置已達(dá)到這樣一種境地,即任何重新改變資源配置的方式,都不可能使一部分人在沒有其他人受損的情況下受益。這一資源配置的狀態(tài),被稱為“帕累托最優(yōu)”(Paretooptimum)狀態(tài),或稱為“帕累托有效”(Pareto efficient)。

目前在世界上比比皆是的企業(yè)強(qiáng)強(qiáng)聯(lián)合,就接近于獵鹿模型的帕累托改善,跨國汽車公司的聯(lián)合、日本兩大銀行的聯(lián)合等等均屬此列,這種強(qiáng)強(qiáng)聯(lián)合造成的結(jié)果是資金雄厚、生產(chǎn)技術(shù)先進(jìn)、在世界上占有的競爭地位更優(yōu)越,發(fā)揮的影響更顯著。

總之,他們將蛋糕做得越大,雙方的效益也就越高。比如寶山鋼鐵公司與上海鋼鐵集團(tuán)強(qiáng)強(qiáng)聯(lián)合也好,還是其他什么重組方式,最重要的在于將蛋糕做大。在寶鋼與上鋼的強(qiáng)強(qiáng)聯(lián)合中,寶鋼有著資金、效益、管理水平、規(guī)模等各方面的優(yōu)勢,上鋼也有著生產(chǎn)技術(shù)與經(jīng)驗(yàn)的優(yōu)勢。兩個公司實(shí)施強(qiáng)強(qiáng)聯(lián)合,充分發(fā)揮各方的優(yōu)勢,發(fā)掘更多更大的潛力,形成一個更大更有力的拳頭,將蛋糕做得比原先兩個蛋糕之和還要大。

獵鹿模型的討論,我們的思路實(shí)際只停留在考慮整體效率最高這個角度,而沒有考慮蛋糕做大之后的分配。獵鹿模型是假設(shè)獵人雙方平均分配獵物。

我們不妨做這樣一種假設(shè),獵人A比獵人B狩獵的能力水平要略高一籌,但B獵人卻是酋長之子,擁有較高的分配權(quán)。

可以設(shè)想,A獵人與B獵人合作獵鹿之后的分配不是兩人平分成果,而是A獵人僅分到了夠吃2天的梅花鹿肉,B獵人卻分到了夠吃18天的梅花鹿肉。

在這種情況下,整體效率雖然提高,但卻不是帕累托改善,因?yàn)檎w的改善反而傷害到獵人A的利益。我們假想,具有特權(quán)的獵人B會通過各種手段方法讓獵人A乖乖就范。但是獵人A的狩獵熱情遭到傷害,這必然會導(dǎo)致整體效率的下降。進(jìn)一步推測,如果不是兩個人進(jìn)行狩獵,而是多人狩獵博弈,根據(jù)分配可以分成既得利益集團(tuán)與弱勢群體,這和我國的現(xiàn)狀非常相似。

我國改革的進(jìn)程在九十年代中期以前是一種帕累托改善的過程。但是隨著各種復(fù)雜的不確定因素影響,貧富差距逐漸拉大,基尼指數(shù)甚至超過0.45的國際警戒線,帕累托改善的過程受到干擾。

這種情況如果繼續(xù)下去,社會穩(wěn)定和改革深化必將受到?jīng)Q定性的沖擊。我們的黨和政府已經(jīng)關(guān)注到弱勢群體的生存狀態(tài),并適時地提出建設(shè)和諧社會的改革目標(biāo),糾正了一些錯誤思潮,將改革的進(jìn)程拉回到健康的軌道。

“囚徒困境”的深刻哲理

在博弈論中,有一個流傳頗為廣泛的故事,叫做“囚徒困境”(Pris-oner's Dilemma)。

話說有一天,一位富翁在家中被殺,財物被盜。警方在此案的偵破過程中,抓到兩個犯罪嫌疑人A和B,并從他們的住處搜出被害人家中丟失的財物。但是,他們都矢口否認(rèn)曾殺過人,辯稱是先發(fā)現(xiàn)富翁被殺,然后只是順手牽羊偷了點(diǎn)兒東西。于是警方將兩人隔離審訊。

這個時候,聰明的警官找他們談話,分別告訴他們說:“你們的偷盜罪確鑿,所以可以判你們2年刑期。但是,我可以和你做個交易。如果你招了,他不招,那么你會作為證人無罪釋放,他將被判10年徒刑;如果你招了,他也招了,你們都將被判5年有期徒刑;如果他招了,你不招,他無罪釋放,你被判無期徒刑,終身囚禁;如果你們都不招,各判2年。”

一般讀者可能會誤認(rèn)為,既然兩個囚犯最好的結(jié)果是都不招供,兩人都只被判2年,那么,兩個囚犯都選擇不招供就是這個博弈的最終結(jié)果。

然而,人算不如天算,“囚徒困境”之所以稱為“困境”正是因?yàn)檫@個博弈的最終結(jié)局恰恰是最壞的結(jié)果,即兩個囚犯統(tǒng)統(tǒng)招供,結(jié)果都被判有期徒刑5年。

反過來說,這也是警官的聰明之處。警官采取的游戲規(guī)則必然會讓兩名囚犯坦白罪行,認(rèn)罪伏法。對一個博弈來說,游戲規(guī)則非常地重要,適宜的規(guī)則才能夠達(dá)到目的。在我們的日常生活中莫不如此,規(guī)則制訂者往往利用條件制定出有利于自身的規(guī)章制度。

讀到這里,很多讀者不禁會問,為什么兩個人都選擇了“招”,傻到接受這種最壞的結(jié)果呢?

在解釋這個問題之前,筆者首先說明一下,囚徒困境和其它的博弈一樣,都需要有2個前提假設(shè):囚徒A和B兩人都是自利理性的個人,即只要給出兩種可選的策略,每一方將總是選擇其中對他更有利的那種策略;兩人無法溝通,要在不知道對方所選結(jié)果的情況下,獨(dú)自進(jìn)行策略選擇。

囚犯“思想搏斗過程”大致如下,囚犯A的內(nèi)心活動是這樣:假如他招了,我不招,我就要將牢底坐穿,招了最壞坐10年,還是招了合算;假如他不招,我也不招,只坐2年的牢(因無法串供,風(fēng)險太大);如果我招,他不招,馬上被釋放,也是招了合算。

因此,無論囚犯B是坦白還是沉默,囚犯A采取坦白的策略對自己更為有利。

同樣,以上推理也適用于囚犯B。結(jié)果兩個囚徒都坦白了,都被判刑5年。

囚徒困境之所為被稱為“困境”,正是在于:如果A、B二人都保持沉默,則都只被判刑2年,顯然比兩人都坦白的結(jié)果要好。

兩名囚犯都作出招供的選擇,這對他們個人來說都是最佳的,即最符合他們個體理性的選擇。照博弈論的說法,這是惟一的納什均衡點(diǎn)。

除了這個均衡點(diǎn),A與B的任何一人單方面改變選擇,他只會得到更加不經(jīng)濟(jì)的結(jié)果。而在其它的結(jié)果中,比如兩人都不坦白的情況下,都有一人可以通過單方面改變選擇,來減少自己的刑期??墒莾扇私?jīng)過一番理性計算后,卻選擇了一個使自己陷入不利的結(jié)局。

其實(shí)“囚徒困境”不允許囚犯A和B進(jìn)行溝通的假設(shè),與實(shí)際生活中大部分情況的現(xiàn)實(shí)是有差異的。比如,在愛情博弈中,很多戀人會經(jīng)?;ㄇ霸孪?、徹夜廝守;在企業(yè)的價格戰(zhàn)中,企業(yè)之間也會多有溝通,甚至結(jié)成價格聯(lián)盟;即使是20世紀(jì)下半世紀(jì)的美蘇軍備競賽中,兩個超級大國也會經(jīng)常進(jìn)行外交交談,及時交換信息。

因此不妨將條件放寬,允許囚犯A和B在審訊室里在一起呆上10分鐘,給予他們充分的串供的機(jī)會。

很明顯,雙方交流的主旨就是建立攻守同盟,克服自利心理,甚至可能訂立一個口頭協(xié)議,要求雙方都不去坦白。然后,雙方再單獨(dú)被提審。

我們不妨設(shè)想囚犯A的心理活動。他一定會認(rèn)為,如果囚犯B遵守約定的話,則自己坦白就可獲得自由;如果囚犯B告密的話,若自己不坦白就會被終生囚禁。事實(shí)上,囚犯A的策略并沒有因?yàn)楹唵蔚臏贤ɑ騾f(xié)議而擺脫兩難境地。對于囚犯B也是一樣。

雖然“坦白從寬,抗拒從嚴(yán)”的道理人人都懂,而從博弈論的角度來看,實(shí)際上就是一個囚徒困境的應(yīng)用?!扒敉嚼Ь场北豢闯墒遣┺恼摰拇硇园咐?,不僅因?yàn)槠浜唵我锥?,還在于它的現(xiàn)象在日常生活中廣泛存在。

比如,戀人們在戀愛中的海誓山盟,最終還是分手;企業(yè)之間相互溝通合作結(jié)成戰(zhàn)略關(guān)系時是信誓旦旦,但價格戰(zhàn)仍然會爆發(fā);美蘇兩國經(jīng)常會晤,甚至簽訂核不擴(kuò)散條約,但軍費(fèi)一年高過一年。

囚徒困境的游戲規(guī)則,能夠讓狡猾的罪犯招供,得到應(yīng)有的懲罰,固然不是壞事。然而,我們不妨假設(shè)囚徒A和B完全都是清白的具有理性的大大的良民,這個博弈的納什均衡并不會因?yàn)樗麄兊那灏锥淖?。如果在現(xiàn)實(shí)生活中,審案存在對身體的殘害,完全可能造成屈打成招的冤假錯案。在中國歷史上,這種冤案并不是什么稀少的事情。

從更深刻的意義上講,囚徒困境模型動搖了傳統(tǒng)社會學(xué)、經(jīng)濟(jì)學(xué)理論的基礎(chǔ),這是經(jīng)濟(jì)學(xué)的重大革命。

傳統(tǒng)經(jīng)濟(jì)學(xué)的鼻祖亞當(dāng)·斯密在其傳世經(jīng)典《國民財富的性質(zhì)和原因的研究》中這樣描述市場機(jī)制:“當(dāng)個人在追求他自己的私利時,市場的看不見的手會導(dǎo)致最佳經(jīng)濟(jì)后果?!边@就是說,每個人的自利行為在“看不見的手”的指引下,追求自身利益最大化的同時也促進(jìn)了社會公共利益的增長。即自利會帶來互利。

傳統(tǒng)經(jīng)濟(jì)學(xué)秉承了亞當(dāng)·斯密的思想。傳統(tǒng)經(jīng)濟(jì)學(xué)認(rèn)為:因此經(jīng)濟(jì)學(xué)不必?fù)?dān)心人們參與競爭的動力,只需關(guān)注如何讓每個求利者能夠自由參與盡可能展開公平競爭的市場機(jī)制。只要市場機(jī)制公正,自然會增進(jìn)社會福利。

關(guān)注我們微信公眾號:mw748219