AKQ GameのEV分布でGTOを学ぶ（前回の続き）

alphanavis.hatenablog.com

の続きを少し短めに。また少し数理的なってしまいますがなるべく要点だけお伝えしていけたらなと思います。

１．おさらい

AKQ Gameはリバーのシチュエーションをとても簡略化したものです。

OOPの期待値(EV)は以下のように計算されるんでした。

$E_{P_1} = \dfrac{1}{6}bc-\dfrac{1}{3}b(1-c)-\dfrac{1}{6}c+\dfrac{1}{6}b$

$b = Pr^Q(\mbox{bluff})$ はIPがQでブラフを打つ確率、

$c = Pr^K(\mbox{bluff chatch})$ はOOPがKでブラフキャッチをする確率でした。

AはPure Nuts(100% equity)、KはBluff Cacher(50% equity)、QはPure Air(0% equity)でした。

AKQ Gameはリバーのブラフ率、ブラフキャッチ率の最適な頻度を考えるのに大変良いモデルだと思います。

２．EV分布

さて、 $b$ と $c$ は $[0,1$ ]の範囲をとりますが、これらを動かしてみてるとOOPの期待値はどのように変化するのでしょうか。見てみましょう。

f:id:alphanavis:20180625034015p:plain

$x$ 軸はIPがブラフを打つ確率です(P_2 bet)。 $y$ 軸はIPがブラフキャッチをする確率です(P_1 call）。 $z$ 軸が $P_1(P_{OOP})$ の期待値です。例えばIPがすべてのQでベットし( $b = 1.0$ )、OOPがすべてのＫでフォールド( $c =0.0$ )する戦略をとっていると、OOPの期待値は約-0.15bb、つまり-15.5bb/100handです。

アグレッションが異常に高い、いわゆるManiacなプレイヤーに対してコールを多めにしなければいけないのはこういうことです。

OOPの期待値が0以上になっている点だけを緑の点でプロットしてみると、

f:id:alphanavis:20180625035043p:plain

このような風になります。OOPのはIPのすべての戦略に対して期待値が正になる部分は非常に少ない、言い換えると大変不利だということです。（ポーカーはポジションゲーだということがよくわかります。）

３．搾取プレイ

2節ではマニアックに対してコールするという戦略が必要だということをお話ししました。これは搾取プレイに当たります。 $b=0.85$ のIPとプレイしているとすれば、OOPの期待値は以下の水色の線になります。

f:id:alphanavis:20180625035741p:plain

OOPの最適戦略はすべてのKでコールになっていることが図からわかります。大体期待値は0.13bb/handあたりでしょうか。

しかし、IP側がこちらのすべてコールという戦略に気づき始め、ベットする頻度を極端に減らしてきました。 $b = 0.25$

f:id:alphanavis:20180625035946p:plain

こちらはすべてのKでコールする戦略をとっているため期待値がマイナスになっています(-0.12bb/hand)。これは、IPのブラフ頻度が減ったことにより、相手のベットレンジのナッツ率が上がったためです。

水色線のような $P_2$ ベット戦略のEV分布をみると、傾きがあることがわかります。この傾きがないような戦略がGTOです。傾きがないということは相手がどの戦略を選択しようと、EVが変化しません。

４．AKQ GameのGTOとEV

f:id:alphanavis:20180625040631p:plain

前回の記事でそれぞれのGTOは

$b=\dfrac{1}{3},c=\dfrac{1}{3}$ だということを証明しました。上の図はGTOにおけるEVの線分です。どちらも傾きがないことが見てわかります。 $P_1$ がGTOをプレイしているときの期待値は $-\dfrac{1}{18}$ です。ゼロサムゲームなので、必然的に $P_2$ の期待値は $+\dfrac{1}{18}$ です。