2018-06-24

AKQ GameでGTOを学ぶ（改正版）

7/24改正

４節の期待値の計算がめちゃくちゃだったのと、GTOに関する理解不足だったので、４節にめちゃくちゃなことを書いていたことを訂正しました。

twitterのフォロワーさんとAKQgameの話になったので、私も真面目に考えてみることにしました。

１．AKQ Gameのルール

二人で行われるゲーム。
ポットには参加費として1$支払う。
デッキにはAce, King, Queenの三枚しか含まれておらず、強さはA>K>Q。
ベッティングラウンドは1回のみ。
ベットは1$固定、レイズなし。（オールインと同義）
OOP、IPの順にプレイ。ただしOOPは必ずcheck戦略を選択しなければならない。

f:id:alphanavis:20180624062508p:plain

fig1: AKQ Game

２．AKQ Gameを学ぶと何が嬉しい？

AKQ Gameはポーカーをかなり簡略化したものです。こんなものを真面目に考えても意味がなさそうに思えますが、実はリバーのシチュエーションによく似ています。

A is Pure Nuts. (100% equity)

K is Bluff Cacher. (50% equity)

Q is Pure Air. (0% equity)

AKQ Gameを理解することで、リバーにおけるプレイの概略的なGTO戦略を理解することができます。

f:id:alphanavis:20180624062522p:plain

fig2: Simplified River Situation

３．AKQ GameにおけるGTO（理論的）

数式が苦手な方はこの章を読み飛ばしてもらって構いません。

Notation:

$P_1, P_2 \in \mathcal{P} \mbox{ , A set of player}$

$P^j_{i_a} \in \mathcal{P}_\mbox{ev}, i \in (1,2),j \in (A, K, Q), a \in (bet, check, fold)$

$\mbox{A set of EV for player }i\mbox{'s strategy }a\mbox{ with hand }j$

$P_1$ (OOP)のGTOを求める

OOPである $P_1$ は意思決定の情報を持っていないため、必ずチェック(ゲームのルール)。なので $P_2$ のベットに対する最適戦略がGTOになる。

・前提(自明なGTO)

Aを持っている場合、 $P_2$ のベットに対して必ずコール　　　　

Qを持っている場合、 $P_2$ のベットに対して必ずフォールド

・Kを持っているときの $P_2$ のベットに対してのGTOを導出。

$P_1$ のGTOは $P_2$ がQを持っているときに、ベットしてもフォールドしても期待値が変わらないような戦略だから、つまり

$P^Q_{2_\mbox{check}} = 0$

$P^Q_{2_\mbox{bet}} = \dfrac{1}{2}(-1)+\dfrac{1}{2}(c_{P_1}(-1)+(1-c_{P_1})2)$ で

$P^Q_{2_\mbox{check}} = P^Q_{2_\mbox{bet}} - (1)$

を満たす $c_{P_1}$ である。

式(1)を計算すれば、

$c_{P_1} = \dfrac{1}{3}$

となり、 $P_1$ の最適戦略はKを持っているとき $\dfrac{1}{3}$ の頻度でコールすることである。

$P_2$ (IP)のGTOを求める

OOPである $P_1$ は必ずチェックするため、 $P_2$ はベットするかしないかの戦略を選択する必要がある。Aを持っているときは必ずベットがGTO(自明）。Kを持っているときは必ずチェック。（理由：ベットしてしまうと $P_1$ がAを持っているときはコールされ、Qを持っているときはフォールドされる。つまり $P^K_{1_\mbox{check}}はP^K_{1_\mbox{bet}}$ のドミナント戦略）

・前提(自明なGTO)

Aを持っている場合、 $P_1$ は必ずベット。

Kを持っている場合、 $P_1$ は必ずチェック。

・Qを持っているときの $P_1$ のGTOを導出。

$P_2$ のGTOはQを持っているときに、 $P_1$ がKでコール(ブラフキャッチ)してもフォールドしても期待値が変わらないような戦略だから、つまり

$P^K_{1_\mbox{fold}} = 0$

$P^K_{1_\mbox{call}} = \dfrac{1}{2}(-1)+\dfrac{1}{2}(b_{P_2}(2+1))$ で

$P^K_{1_\mbox{fold}} = P^K_{2_\mbox{call}} - (2)$

を満たす $b_{P_2}$ である。

式(2)を計算すれば、

$b_{P_2} = \dfrac{1}{3}$

となり、 $P_2$ の最適戦略はQを持っているとき $\dfrac{1}{3}$ の頻度でベットすることである。

IPの保証期待値

GTOはそれぞれ

$S^{\mbox{bet}}_{P_2}(A, K, Q) = (1, 0, \dfrac{1}{3})$

$S^{\mbox{call}}_{P_1}(A, K, Q) = (1, \dfrac{1}{3}, 0)$ より

$b=\dfrac{1}{3}, c=\dfrac{1}{3}$ として、ゲームツリー(fig3)よりOOPの期待値 $E_{P_1}$ は

f:id:alphanavis:20180624111753p:plain

fig3: AKQ Game Tree(extra showdown-winnings)

$E_{P_1} = \dfrac{1}{6}bc-\dfrac{1}{3}b(1-c)-\dfrac{1}{6}c+\dfrac{1}{6}b = -\dfrac{1}{18}$

両プレイヤーはGTOでプレイしているので $E_{P_1} + E_{P_2} = 0$ より

$E_{P_2} = \dfrac{1}{18}$

従ってIPのプレイヤーは相手の戦略にかかわらず+5.55bb/100handsは保証される。

４．AKQ GameにおけるGTO（定性的）

プレイヤーOOPとプレイヤーIPの二人のGTOを考えます。GTOとは相手がどのような戦略をとろうと搾取されないような戦略のことです。IPがGTOでプレイすればIPは保証されたEVを必ず受け取ることができます。

OOPのGTO

OOPは意思決定の情報を持っていないため常にチェック。つまり、OOPのGTOはIPのベットに対する戦略を考えることになります。

Aを持っている場合、必ずコールします。ナッツを降りることはあり得ません。

Qを持っている場合、必ずおります。QはPure Airなのでショーダウンしたところで絶対負けているからです。

Kを持っているときは話が変わります。Kはブラフキャッチャーです。相手がナッツとブラフでベットしているときKでブラフキャッチすることが必要です。

計算は上記に示してありますが（前節）、 $\dfrac{1}{3}$ の確率でコールすることにより、相手は期待値0(厳密には違うがここでは簡単化のために0)を上回ることができません。これがなぜかを説明します。

例えばIPがQすべてをチェック、A全てをベットしたとします。

それに対してOOPはGTO( $\dfrac{1}{3}$ でコール)をとっているとします。

OOPの期待値を $E_{OOP}$ すれば、

$E_{P_1} = \dfrac{1}{6}bc-\dfrac{1}{3}b(1-c)-\dfrac{1}{6}c+\dfrac{1}{6}b$

と表すことができます。ここでbはIPのQでのブラフ率、cはOOPのブラフキャッチ率を示しています。したがって $b = 0,c=1/3$ だとします。これを代入してきた入りを計算すると、

$E_{P_1}=-\dfrac{1}{18}$ が得られました。

IPがQすべてをベット、A全てをベットしたとします。

同様に $b = 1,c=1/3$ から代入して期待値を計算すると、

$E_{P_1}=-\dfrac{1}{18}$ が得られました。

OOPはGTOでプレイしているためIPのどのような戦略に対しても最低保証されている $-\dfrac{1}{18}$ をEVとして必ず実現することができます。

IPのGTO

OOPは必ずチェックしてくるため、IPのGTOはベット戦略になります。

Aを持っている場合、必ずベットします。（ナッツをチェックはあり得ない）

Kを持っている場合、必ずチェックします。（マージナルなハンドでベットすると、Pure Airには下りられ、Nutsにコールされるだけ）

Qを持っているときにブラフを考えます。ブラフの頻度がGTOになるわけです。

計算は上記に示しますが、 $\dfrac{1}{3}$ の確率でブラフベットすることがGTOになります。OOPのGTOでも説明した通り、OOPがどのような戦略をとっても、IPの期待値は正です( $+\dfrac{1}{18}$ )。絶対に負けることはありません。

どっちもGTOでプレイしたらどうなる？

IPにいるプレイヤーのEVが1ゲーム当たり $\dfrac{1}{18}$ になります。つまり、IPがGTOでプレイすれば100handあたり5.55bbの利益を出し続けることができます。これはOOPがどのような戦略をとっても最低限保証されるEVです。このような結果より、ポーカーにおけるポジションの重要性が理解できます。ポジションがあるほうが必然的に+EVになるんです。

５．まとめ

AKQ GameのGTOを理解することで実際のリバーについての簡略化されたGTO戦略について学ぶことができました。まとめると

OOPでは

相手のリバーベットに対して1/3でブラフキャッチ。
ディフェンスレンジはナッツが1/3, ブラフキャッチが1/3 * 1/3 = 1/9の合計4/9
コールの割合がナッツ：ブラフ = 75 : 25でGTO

IPでは

ショーダウンバリューのないハンドの1/3でブラフ
リバーのベットレンジはナッツが1/3, ブラフが1/3 * 1/3 = 1/9の合計4/9
ベットの割合がナッツ：ブラフ = 75 : 25がGTO

ポーカーはポジションゲー。

参考文献+図引用元

https://www.liverium.com/poker/game-theoretic-optimal-strategy-i/

https://plus.maths.org/content/bluffing-and-exploitation-introduction-poker-maths

2018-06-23

ブロッカーを考える

今回のエントリーはブロッカー(Blocker)についてです。プレイラインの例は私がRIO動画を見て勉強になったところをピックアップしたものです。

ブロッカーとは？

自分が持っている2枚のカードのことです。

自分が持っているカードは相手のレンジから消えるのでこれを利用して戦略を組み立てる必要があります。例でいくつか紹介したいと思います。

１．Riverでブラフするか否か１

BTN(Hero) open(QdTd) vs BB call

F: 5h7dAs BB x/c

T: 9d BB x/c

R: Ah BB x, BTN ?

フロップでは1/3potのCBを打ちました。それに対してBBがコール。BBはかなり広いレンジでディフェンスします。ターンでフラッシュドローになったので1/2potのCBを打ちました。それに対してBBのコール。相手のコールレンジにはdiamondのフラッシュドローが残りますが、こちらがQTdを持っているため相手のフラドロのレンジを大きく”ブロック”しています。（Qxd, Txd等)

リバーでBBはチェック。こちらのハンドにはほぼショーダウンバリューがありません、ブラフを打つべきでしょうか？

こちらはフラッシュドローを大きくブロックしてしまっているため、相手のハンドにはショーダウンバリューがあるハンドが大きく残っています。したがってブラフはうちませんでした。

S: BB has A6o and win a pot.

２．Riverでブラフするか否か２

UTG open vs BB(Hero) call(AsJc)

F: 5c4d9s BB x/c

T: Tc BB x

R: Ks BB ?

フロップは1/2potのCBに対してコール。ターンはチェックアラウンド、リバーでKsが落ちてBBのアクションターン。

私たちはAK, AT, JJ等のこちらのリバーベットに対するディフェンスレンジをいくつかブロックしています。またJをブロックしていることからQJのストレートのコンボが相手のレンジから削れています。したがってリバーは3/4potのブラフを打ちました。

BB 0.75b, SB r, BB f

３．Riverでコールするか否か１

BTN open vs BB(Hero) call(9c9s)

F: K65r BB x/c

T: 5s BB x/c

R: 3h BB x BTN x

リバーはBTNのチェックでしたが、もしベットされたときコールするべきか考えます。

こちらは99を持っており相手のブラフレンジ(AQ, AJ, AT, 78等）をブロックしていません。従ってリバーのベットに対して99でブラフキャッチをしていきたいところです。

５．PIO Analysis

2．のシチュエーションをPIOを使って分析してみましょう。PFレンジはSnowieのものを使っています。

Flop

f:id:alphanavis:20180623194125p:plain

まあ、ほぼほぼチェック。UTGの33%CBに対しては

f:id:alphanavis:20180623194247p:plain

AJoはコールとフォールドの混合戦略。やはり比較的小さいベットにはx/rを多めに含んでいますね。セット、トップペアストロングキッカー、フラッシュドロー、ストレートドローなど。

Turn : すべてチェック

River

f:id:alphanavis:20180623194356p:plain

AJは54%でベット（サイズは75%）。AsJcは31.5%でベット。

なのでリバーのブラフベットはGTO的には正しいことになります。本シチュエーションではUTGからレイズが返ってきたので素直にブラフごめんなさいフォールドしましょう。

まとめ

特にリバーでの意思決定時にブロッカーを考えることは非常に有意義です。ブラフベットをするときは相手のコールレンジをブロックしているか、リバーのベットに対してコールするときは相手のブラフレンジをブロックしていないかを考えてみましょう。

参考文献

How To Use Blockers When Counting Combos | SplitSuit Poker http://www.runitonce.com

RIOの"A Deeper Look Into Blocker"を見ればよりブロッカーについてのことがわかります。Iain Salterの動画等もお勧めします。

2018-06-23

ナッシュ均衡(GTO)について

以下GTOのことはすべてNash eq.で統一します。すべてGTOと読み替えて差し支えありません。説明は定性的にわかりやすくかみ砕いたもので厳密なものではないので注意してください。

NLHMにおける”解”

結論から言うと、NLHEの解とは”一番バランスの取れた戦略”のことです。

経済学を学んだことがある人はナッシュ均衡(Nash eq.)という言葉を聞いたことがあると思いますが、一番バランスの取れた戦略とはこのナッシュ均衡のことを示しています。ゲームのルールによってはNash eq.が存在しない場合がありますが、テキサスホールデムにはNash eq.が存在することが証明されています。

Nash eq.でプレイすると何が嬉しいの？

下の図を使って、ヘッズアップシチュエーションのA側についてのNash eq.を説明します。感覚的にわかりやすく表現しただけの図ですので厳密な定義ではないです。

f:id:alphanavis:20180623014509p:plain

AとBの距離をAの期待値として表現することにしましょう。AがBより右の戦略をとっているとするとAの期待値は負になります。

例えばAがNash eq.でプレイしていたとします。Bが取れる戦略にはNash eq.から右側の点しかありません。したがってAの期待値を0未満にすることができません。BはMistakeによればよるほど自分の期待値を減少させてしまいます。（Nash eq. から離れれば離れるほど）

要するに、Aは相手がどのような戦略をとろうと期待値が0未満になることはありません。これが、Nash eq.でプレイすることのメリットです。

Aが取れる戦略にはNash eq.より左側の戦略があります。これが搾取プレイと呼ばれる戦略です。搾取プレイとは相手の弱点に合わせて自分の戦略を調整(Adjust)することです。AがNash eq.より左側の戦略をとることで自分の期待値を増やすことができます。

もう少し詳しく

上の図でNash eq.より搾取的な戦略のほうが勝てるんじゃない？と思われた方もいらっしゃるかと思います。これは正しいです。しかし、相手の戦略を知っているという前提が必要です。上の図をもう少し正しく表現してみましょう。

f:id:alphanavis:20180623021355p:plain

赤線はAの期待値が正、青線はAの期待値が負になる戦略です。Aが取れる戦略にはBより右のものがあるので、この戦略をとるとAの期待値は負になるのは前節で説明したものと同じですが、Nash eq.より左の部分にも青線があります。赤線の距離はBがNash eq. から離れた距離だけ左に広がるものです。つまりAがBに対して搾取プレイを正しく行えないと、青線の戦略を選択してしまいます。

搾取プレイの弱点

実際には相手の戦略はわかりませんよね。。。搾取プレイと思っていても、実際には-EVになってしまうことを説明します。

f:id:alphanavis:20180623022553p:plain

赤丸のBはAが何らかのデータから予測したBの戦略です。従って、搾取プレイ側に寄せた戦略を選択しました。しかしBは実際に青丸Bをとっていました。Nash eq.から離れた距離だけ搾取戦略の幅が広がるため、Aが取れる搾取戦略は図の赤線（Nash eq.より左）のみです。

Aは搾取プレイしているつもりでしたが、Nash eq. から離れたために自ら期待値を捨ててしまいました。

まとめ

Nash eq.について説明してみました。うまいプレイヤーほどNash eq.に近い戦略をとってきます。その人たちに勝つためにはこちらがよりNash eq.に近い戦略をとるしかありません。なのでPIOsolverなどでGTOを体系化して覚えることはポーカーで勝つためにとても重要だと思います。

あと、間違っているところがあれば訂正していただけるととても嬉しいです！

2018-06-23

はじめまして。

去年の11月からPSでzoomを主にポーカーをはじめましたが、ただの絵合わせをしていたらBRが3回ぐらいふっとびました。いい加減ちゃんと勉強しようと思って最近はRIOの動画などで勉強しています。

上達の近道は吸収したものをアウトプットにすることだと思っているので、ブログを初めてみました。ポーカーを始めたばかりの方にもわかりやすいように（自分も含めて）記事を書くことを心がけようと思います。

現在、大学院生。来年から社会人です。

ブログのエントリーは主にPoker Snowie, PIOsolver, Run It Onceに関することになると思います。

コメント等大歓迎ですのでよろしくお願いします！

Crushing or Crushed

主にShort-handed NLHEで自分が勉強したことについてまとめるブログです。

AKQ GameでGTOを学ぶ（改正版）

１．AKQ Gameのルール

２．AKQ Gameを学ぶと何が嬉しい？

３．AKQ GameにおけるGTO（理論的）

$P_1$ (OOP)のGTOを求める

$P_2$ (IP)のGTOを求める

IPの保証期待値

４．AKQ GameにおけるGTO（定性的）

OOPのGTO

IPのGTO

どっちもGTOでプレイしたらどうなる？

５．まとめ

ブロッカーを考える

今回のエントリーはブロッカー(Blocker)についてです。プレイラインの例は私がRIO動画を見て勉強になったところをピックアップしたものです。

ブロッカーとは？

１．Riverでブラフするか否か１

２．Riverでブラフするか否か２

３．Riverでコールするか否か１

５．PIO Analysis

まとめ

ナッシュ均衡(GTO)について

NLHMにおける”解”

Nash eq.でプレイすると何が嬉しいの？

もう少し詳しく

搾取プレイの弱点

まとめ

はじめまして。