Librat

Libratus to program komputerowy wykorzystujący sztuczną inteligencję przeznaczony do gry w pokera , a konkretnie do gry w heads-up no-limit Texas Hold'em . Twórcy Libratus chcą, aby można go było uogólnić na inne aplikacje niezwiązane z pokerem. Został opracowany na Uniwersytecie Carnegie Mellon w Pittsburghu.

Tło

Chociaż Libratus został napisany od podstaw, jest nominalnym następcą Claudico . Podobnie jak jego poprzednik, jego nazwa jest łacińskim i oznacza „zrównoważony”.

Libratus został zbudowany z ponad 15 milionami podstawowych godzin obliczeniowych w porównaniu do 2-3 milionów dla Claudico. Obliczenia przeprowadzono na nowym superkomputerze „Bridges” w Pittsburgh Supercomputing Center . Według jednego z twórców Libratusa, profesora Tuomasa Sandholma, Libratus nie ma stałej wbudowanej strategii, ale algorytm, który ją oblicza. Zastosowana technika to nowy wariant kontrfaktycznej minimalizacji żalu, a mianowicie metoda CFR+ wprowadzona w 2014 roku przez Oskara Tammelina. Oprócz CFR+, Libratus zastosował nową technikę, którą Sandholm i jego doktorant, Noam Brown, opracowali dla problemu rozwiązywania gier końcowych. Ich nowa metoda pozbywa się de facto wcześniejszego standardu w programowaniu pokera, zwanego „mapowaniem akcji”.

Ponieważ Libratus gra tylko przeciwko jednemu graczowi ludzkiemu lub komputerowemu, obowiązują specjalne zasady „heads up” dla dwóch graczy Texas Hold'em.

Mecz ludzi z AI w 2017 roku

Od 11 do 31 stycznia 2017 roku Libratus walczył w turnieju z czterema czołowymi graczami w pokera – Jasonem Lesem, Dong Kimem, Danielem McAulayem i Jimmym Chou. Aby uzyskać wyniki o większym znaczeniu statystycznym, należało rozegrać 120 000 rozdań, co stanowi wzrost o 50% w porównaniu z poprzednim turniejem, w którym Claudico grał w 2015 roku. Aby zarządzać dodatkowym wolumenem, czas trwania turnieju został wydłużony z 13 do 20 dni .

Czterech graczy zostało podzielonych na dwie podzespoły po dwóch graczy w każdej. Jeden z podzespołów grał na otwartej przestrzeni, podczas gdy drugi podzespół znajdował się w oddzielnym pomieszczeniu o nazwie „The Dungeon”, w którym nie wolno używać telefonów komórkowych ani innych zewnętrznych środków komunikacji. Podzespół Dungeon otrzymał tę samą sekwencję kart, co rozdano na otwartej przestrzeni, z wyjątkiem tego, że strony zostały zamienione: ludzie Dungeon otrzymali karty, które AI dostała na otwartej przestrzeni i odwrotnie. Ta konfiguracja miała na celu zniwelowanie efektu szczęścia w kartach.

Nagroda pieniężna w wysokości 200 000 $ została podzielona wyłącznie między ludzkich graczy. Każdy gracz otrzymał co najmniej 20 000 $, a reszta została rozdzielona w zależności od ich sukcesu w grze przeciwko sztucznej inteligencji. Jak napisano z góry w zasadach turnieju, sama sztuczna inteligencja nie otrzymała nagrody pieniężnej, mimo że wygrała turniej przeciwko drużynie ludzi.

Podczas turnieju Libratus rywalizował z graczami w ciągu dni. Z dnia na dzień samodzielnie doskonalił swoją strategię, analizując poprzednią rozgrywkę i wyniki dnia, w szczególności straty. Dlatego był w stanie stale poprawiać niedoskonałości, które ludzki zespół odkrył w swojej obszernej analizie, co doprowadziło do ciągłego wyścigu zbrojeń między ludźmi a Libratusem. Na potrzeby konkursu wykorzystał kolejne 4 miliony godzin rdzenia superkomputera Bridges.

Siła SI

Libratus prowadził przeciwko ludzkim graczom od pierwszego dnia turnieju. Gracz Dong Kim został zacytowany na temat siły sztucznej inteligencji w następujący sposób: „Do dzisiaj nie zdawałem sobie sprawy, jak dobrze było. Czułem się, jakbym grał przeciwko komuś, kto oszukiwał, jakby mógł zobaczyć moje karty. Nie oskarżam to oszukiwanie. To było po prostu takie dobre.

Szesnastego dnia zawodów Libratus po raz pierwszy przekroczył barierę 1 000 000 $. Pod koniec tego dnia miał przewagę 1 194 402 $ w żetonach przeciwko ludzkiemu zespołowi. Na koniec turnieju Libratus miał przewagę w wysokości 1 766 250 $ w żetonach i tym samym wygrał spektakularnie. Jako że duża ciemna w meczach została ustalona na 100 $, współczynnik wygranych Libratus wynosi 14,7 dużej ciemnej na 100 rozdań. Jest to uważane za wyjątkowo wysoki wskaźnik wygranych w pokerze i jest wysoce istotne statystycznie.

Spośród ludzkich graczy Dong Kim był pierwszy, MacAulay drugi, Jimmy Chou trzeci, a Jason Les czwarty.

Nazwa Ranga Wyniki (w żetonach)
Dong Kim 1 -85 649 USD
Daniela MacAulaya 2 - 277 657 USD
Jimmy'ego Chou 3 -522.857 $
Jason Les 4 - 880 087 $
Całkowity: -1 766 250 USD

Inne możliwe zastosowania

Podczas gdy pierwszym zastosowaniem Libratusa była gra w pokera, jego projektanci mają na myśli znacznie szerszą misję dla sztucznej inteligencji. Badacze zaprojektowali sztuczną inteligencję, aby móc nauczyć się każdej gry lub sytuacji, w której dostępne są niepełne informacje, a „przeciwnicy” mogą ukrywać informacje, a nawet angażować się w oszustwo. Z tego powodu Sandholm i jego współpracownicy proponują zastosowanie systemu również do innych rzeczywistych problemów, w tym cyberbezpieczeństwa, negocjacji biznesowych lub planowania medycznego.

Zobacz też

Linki zewnętrzne