從博弈論的角度分析詐唬(1):什么情況下該詐唬

時間:2019-07-22 14:04來源:未知作者:xiaoxiong

 

這篇文章的主要內容有:


• 數學背景


• 最佳策略


• 納什均衡點



詐唬是撲克游戲的重要組成部分,每一個優秀的玩家都應該牢記。從不詐唬或太頻繁詐唬,對一個撲克玩家來說都是巨大的錯誤。如何找到適當的平衡點?什么時候詐唬才是理想的選擇?什么時候,以什么樣的頻率對某些玩家詐唬才能打出有收益的撲克呢?

 

 

這篇文章會涉及到詐唬的數學背景,并利用博弈論闡述一些策略。

 

我應該詐唬嗎?


你正處在河牌圈,牌面是6♠9♥K♠A♦5♣。


你確定對手有一手成牌。從他的行動你認為他可能有AA,KK或AK。你的牌是J♠10♠。


你聽牌失敗。底池是$100,你和對手還各剩$100,你先行動。這時過牌你就輸了。(如果對手也過牌,你會輸掉攤牌;如果對手下注,你也沒足夠的錢去詐唬他。)


假設對手讀出了你的牌,在河牌之前,他猜到你在聽牌。為了簡單起見,我們假設他有80%的概率認為你聽同花或卡順失敗,另外20%的概率認為你有87,在河牌擊中順子。


如果你有87,擊中順子,你應該價值下注,可惜你沒有。你有兩個選擇:過牌放棄,或是嘗試詐唬拿下底池。假設你在詐唬時,會全下所有$100,也就是一個底池,你的詐唬頻率應該是多少?


這個問題的答案是什么?


要回答這個問題,我們需要利用一些數學工具。別擔心,不會太復雜,你只需一點代數知識和一些常識。差點忘了,還有博弈論,但是只會用到很常識的部分。

 

把問題轉化為數學


我們會用到一些符號。P代表底池大小,B代表下注大小。q代表對手認為你會贏這手牌的概率。在我們的例子中,P=$100,B=$100,q=0.20.如果你對20%這個數字不滿意,可以換掉,計算方法是一樣的。同樣,你也可以改變底池大小和下注大小。


我們需要用符號表示詐唬頻率和對手的跟注頻率。x代表詐唬賠率,y代表跟注賠率。如果我們有30%的概率詐唬(x = 0.3),從長期來看我們詐唬的頻率就是30%。同樣,y表示對手會跟注我們下注的頻率。


所以我們初始的問題變成了求x的最佳值。

 

 

期望回報和純策略

 

首先,追溯到最初始的問題。我們打撲克的目標是什么?贏錢。準確地說,是贏盡可能多的錢。在做決定的時候,我們要問問自己,哪個行動會有最大的期望回報?

 

在這個例子中,如果你有優勝牌,你會做價值下注。在你下注以后,對手可能跟注(y),也可能棄牌(1 – y)。

 

當他跟注時,你會贏下現有的底池,再加上對手跟注的錢,也就是P + B。當他棄牌時,你只會贏得現有的底池,也就是P。(現有底池通常指你下注之前的底池大小。) 因此,如果你有一手獲勝牌,你的期望回報Ew (w代表獲勝winning)會是

 

Ew = y(P + B) + (1 – y)P

 

如果你的牌會輸(聽牌失敗),情況就會變得更復雜。你有可能詐唬(x),也可能過牌放棄(1 – x)。

 

當你選擇詐唬時,對手還是有可能跟注(y),或棄牌(1 – y)。當他跟注時,你會損失這次下注,所以你的凈回報是負的,也就是–B。 當他棄牌時,你會贏得現有底池,也就是P。所以當你詐唬時,你的期望回報會由這兩部分組成:

 

(1 – y)P – yB

 

如果你選擇過牌(放棄這手牌),你贏不到一分錢,所以這種情況下你的期望回報是0。

 

 

 

綜上所述,當你的牌會輸時,你的預期回報 El (l代表失敗losing)會是

 

El = (1 – x)0 + x[(1 – y)P – yB]

 

由于第一部分是0,我們可以直接忽略,公式變為:

 

El = x[(1 – y)P – yB]

 

假設你知道對手從不跟注(y = 0),你的期望回報公式還可以簡化為:

 

El = xP

 

要最大化期望回報,你必須讓x = 1,也就是說你應該每次都詐唬。

 

但是,如果對手總是跟注(y = 1),你的期望回報公式會變為:

 

El= – xB

 

在這種情況下,為了最大化期望回報,你必須讓x = 0,這代表你永遠不要詐唬。(所以明白了嗎?永遠不要詐唬一個跟注站。)

 

以上計算是知道對手在兩種特殊情況下會采取什么策略,然后得出的應對結果,但是這兩種情況非常極端,所以這個策略被稱為純策略。在真實的撲克游戲中,對手們會更加飄忽不定,他會有一定的頻率跟注你的下注(y不會是0也不會是1)。他采取的會是混合策略。

 

 

最佳策略

 

對手可以選擇一個跟注頻率y,讓你無論使用什么策略(也就是無論x是多少),期望回報都不會改變。我們用yopt表示這個跟注頻率(在某種程度來看,yopt就是y的最佳值。)

 

yopt很容易計算,下一篇文章會講。

 

yopt = P/(P + B)

 

在我們的例子中,P = B = $100,所以yopt = 1/2。如果對手剛好有一半的機會跟注,你是打不過他的。如果對手根據y = yopt的策略打牌,你的期望回報將會是

 

El= x[PB/(P + B) – PB/(P + B)] = 0

(就是把yopt帶入求El的公式)

 

這時,無論你選擇什么策略(無論x是多少),你的期望回報都不會升高或降低。

 

有趣的是yopt只取決于底池和下注的大小,不受q(q代表對手認為你會贏這手牌的概率)的影響。這表明yopt并不總是y的最佳值。例如當 q=1時,也就是你的對手確定你有優勝牌,這時他不會有一半的跟注頻率,因為他根本不會跟注。他會使用y=0的策略。

 

后面我們還會說,yopt在什么情況下才是最佳值。

 

同樣,你也可以選擇一個x,讓對手無論選擇什么樣的策略(無論y是多少),他的期望回報都一樣。我們用xopt表示這個特殊的x。但是,求xopt的值會更復雜一些,它的公式是

 

xopt = qB/[(1 – q)(P + B)]

 

如果你經常用會輸的牌詐唬,對手的期望回報為

 

Eop = (1 – q)P – qPB/(P + B)

 

這個公式里沒有y,所以對手的期望回報不會改變。

 

在我們的例子中P = B = $100,q = 0.2,所以xopt = 1/8。如果你有1/8的概率詐唬,對手就贏不了你,就算他非常善于觀察,了解你的策略(知道x = xopt)。如果你的詐唬頻率高于或低于1/8,善于觀察的對手就會剝削你策略上的漏洞。所以當你面對非常優秀的對手時,xopt可以確保 你的策略是最佳的。

 

優秀的對手用什么頻率跟注你的下注?yopt就是答案。如果你根據x = xopt的策略打牌,他選擇任何打法都不能提高或降低期望回報。如果對手不使用y = yopt的策略打牌,你可以觀察他的漏洞,利用他的錯誤,選擇最佳的回應剝削。

 

只有當他的y = yopt時,你是無法剝削他的,這時無論使用怎樣的打法,你的期望回報都不會改變。

 

記住,如果你不使用xopt的策略,對手也會調整打法來剝削你的漏洞。

 

 

現在你知道xopt和yopt在什么時候情況下才是最佳值了吧:當對手無法剝削你時。在博弈論中, 這兩個策略(xopt, yopt )被稱為納什均衡點。這在博弈論和經濟學中都是非常重要的概念。(沒錯,就是電影 《美麗心靈》中的納什,1994年諾貝爾經濟學獎的獲得者)。現在你知道它在撲克中也扮演著重要的角色了吧。

 

未完待續...

重庆时时开奖历史结果