Alpha Go Zero

AlphaGo Zero to wersja oprogramowania Go firmy DeepMind AlphaGo . Zespół AlphaGo opublikował artykuł w czasopiśmie Nature w dniu 19 października 2017 r., Przedstawiając AlphaGo Zero, wersję stworzoną bez użycia danych z gier ludzkich i silniejszą niż jakakolwiek poprzednia wersja. Grając przeciwko sobie, AlphaGo Zero przewyższyła siłę AlphaGo Lee w trzy dni, wygrywając 100 gier do zera, osiągnęła poziom AlphaGo Master w 21 dni i przekroczyła wszystkie stare wersje w 40 dni.

Szkolenie sztucznej inteligencji (AI) bez zbiorów danych pochodzących od ludzkich ekspertów ma znaczący wpływ na rozwój sztucznej inteligencji z nadludzkimi umiejętnościami, ponieważ dane ekspertów są „często drogie, niewiarygodne lub po prostu niedostępne”. Demis Hassabis , współzałożyciel i dyrektor generalny DeepMind, powiedział, że AlphaGo Zero jest tak potężny, ponieważ „nie ogranicza go już granica ludzkiej wiedzy”. Co więcej, AlphaGo Zero działał lepiej niż standardowe modele głębokiego uczenia ze wzmocnieniem (takie jak implementacje DQN) dzięki integracji wyszukiwania drzewa Monte Carlo. David Silver , jeden z pierwszych autorów artykułów DeepMind opublikowanych w Nature na AlphaGo, powiedział, że możliwe jest uogólnienie algorytmów sztucznej inteligencji poprzez wyeliminowanie potrzeby uczenia się od ludzi.

Google opracowało później AlphaZero , uogólnioną wersję AlphaGo Zero, która oprócz Go mogła grać w szachy i Shōgi . W grudniu 2017 r. AlphaZero pokonało 3-dniową wersję AlphaGo Zero, wygrywając 60 gier do 40, a po 8 godzinach treningu pokonało AlphaGo Lee w skali Elo . AlphaZero pokonał również najlepszy program szachowy ( Stockfish ) i najlepszy program Shōgi ( Elmo ).

Szkolenie

Sieć neuronowa AlphaGo Zero została przeszkolona przy użyciu TensorFlow z 64 procesami roboczymi GPU i 19 serwerami parametrów procesora. Do wnioskowania wykorzystano tylko cztery TPU . Sieć neuronowa początkowo nic nie wiedziała o Wyjdź poza zasady . W przeciwieństwie do wcześniejszych wersji AlphaGo, Zero dostrzegał tylko kamienie na planszy, zamiast mieć kilka rzadkich zaprogramowanych przez człowieka przypadków krawędzi, które pomagały rozpoznawać nietypowe pozycje planszy Go. Sztuczna inteligencja zaangażowała się w uczenie się przez wzmacnianie , grając przeciwko sobie, dopóki nie będzie w stanie przewidzieć własnych ruchów i tego, jak te ruchy wpłyną na wynik gry. W ciągu pierwszych trzech dni AlphaGo Zero rozegrał przeciwko sobie 4,9 miliona gier w krótkich odstępach czasu. Wydawało się, że rozwinął umiejętności wymagane do pokonania najlepszych ludzi w ciągu zaledwie kilku dni, podczas gdy wcześniejszy AlphaGo potrzebował miesięcy treningu, aby osiągnąć ten sam poziom.

Dla porównania, naukowcy przeszkolili również wersję AlphaGo Zero przy użyciu ludzkich gier, AlphaGo Master, i odkryli, że uczyła się ona szybciej, ale w rzeczywistości działała gorzej na dłuższą metę. DeepMind przedstawił swoje wstępne ustalenia w artykule opublikowanym w Nature w kwietniu 2017 r., który następnie został opublikowany w październiku 2017 r.

Koszt sprzętu

Koszt sprzętu dla pojedynczego systemu AlphaGo Zero w 2017 roku, w tym czterech TPU, został wyceniony na około 25 milionów dolarów.

Aplikacje

Według Hassabisa algorytmy AlphaGo prawdopodobnie przyniosą największe korzyści w dziedzinach wymagających inteligentnego przeszukiwania ogromnej przestrzeni możliwości, takich jak zwijanie białek (patrz AlphaFold ) lub dokładne symulowanie reakcji chemicznych. Techniki AlphaGo są prawdopodobnie mniej przydatne w dziedzinach trudnych do symulacji, takich jak nauka prowadzenia samochodu. DeepMind oświadczył w październiku 2017 r., że rozpoczął już aktywne prace nad próbą wykorzystania technologii AlphaGo Zero do fałdowania białek i oświadczył, że wkrótce opublikuje nowe odkrycia.

Przyjęcie

AlphaGo Zero był powszechnie uważany za znaczący postęp, nawet w porównaniu z jego przełomowym poprzednikiem, AlphaGo. Oren Etzioni z Allen Institute for Artificial Intelligence nazwał AlphaGo Zero „bardzo imponującym wynikiem technicznym” pod względem „zarówno ich zdolności do zrobienia tego - jak i zdolności do trenowania systemu w 40 dni na czterech TPU”. The Guardian nazwał to „wielkim przełomem w dziedzinie sztucznej inteligencji”, cytując Eleni Vasilaki z Sheffield University i Toma Mitchella z Carnegie Mellon University , którzy nazwali to odpowiednio imponującym wyczynem i „wybitnym osiągnięciem inżynieryjnym”. Mark Pesce z University of Sydney nazwał AlphaGo Zero „wielki postęp technologiczny” zabiera nas na „nieodkryte terytorium”.

Gary Marcus , psycholog z New York University , ostrzegł, że z tego co wiemy, AlphaGo może zawierać „ukrytą wiedzę programistów o tym, jak konstruować maszyny do grania w problemy takie jak Go” i będzie wymagać przetestowania w innych domenach, zanim zostanie upewnij się, że jego podstawowa architektura jest skuteczna w znacznie więcej niż graniu w Go. W przeciwieństwie do tego DeepMind jest „przekonany, że to podejście można uogólnić na dużą liczbę domen”.

W odpowiedzi na doniesienia, południowokoreański profesjonalista Go, Lee Sedol, powiedział: „Poprzednia wersja AlphaGo nie była idealna i uważam, że właśnie dlatego powstała AlphaGo Zero”. Jeśli chodzi o potencjał rozwoju AlphaGo, Lee powiedział, że będzie musiał poczekać i zobaczyć, ale powiedział też, że wpłynie to na młodych graczy Go. Mok Jin-seok , który kieruje drużyną narodową Korei Południowej w Go, powiedział, że świat Go naśladuje już style gry poprzednich wersji AlphaGo i tworzy z nich nowe pomysły, i ma nadzieję, że nowe pomysły wyjdą z AlphaGo Zero . Mok dodał również, że na ogólne trendy w świecie Go wpływa teraz styl gry AlphaGo. „Na początku było to trudne do zrozumienia i prawie czułem się, jakbym grał przeciwko kosmicie. Jednak mając duże doświadczenie, przyzwyczaiłem się do tego” – powiedział Mok. „Obecnie przekroczyliśmy punkt, w którym debatujemy nad luką między możliwościami AlphaGo a ludźmi. Teraz to kwestia między komputerami”. Mok podobno zaczął już analizować styl gry AlphaGo Zero wraz z zawodnikami reprezentacji. „Chociaż obejrzeliśmy tylko kilka meczów, odnieśliśmy wrażenie, że AlphaGo Zero gra bardziej jak człowiek niż jego poprzednicy” – powiedział Mok. Chiński profesjonalista w Go, Ke Jie, tak skomentował niezwykłe osiągnięcia nowego programu: „AlphaGo, który sam się uczy, jest najsilniejszy. Ludzie wydają się zbędni w obliczu jego samodoskonalenia”.

Porównanie z poprzednikami

Konfiguracja i siła
Wersje Odtwarzanie sprzętu Ocena Elo mecze
Fan AlphaGo 176 procesorów graficznych , rozproszonych 3144 5:0 z Fanem Hui
Alpha Go Lee 48 TPU , dystrybuowane 3739 4:1 z Lee Sedolem
Mistrz AlphaGo 4 TPU, pojedyncza maszyna 4858 60:0 przeciwko profesjonalnym graczom;

Przyszłość Go Summit

AlphaGo Zero (40 dni) 4 TPU, pojedyncza maszyna 5185 100:0 przeciwko AlphaGo Lee

89:11 przeciwko AlphaGo Master

AlphaZero (34 godziny) 4 TPU, pojedyncza maszyna 4430 (szac.) 60:40 przeciwko 3-dniowemu AlphaGo Zero

AlphaZero

W dniu 5 grudnia 2017 r. zespół DeepMind opublikował wstępną wersję na arXiv , przedstawiając AlphaZero, program wykorzystujący uogólnione podejście AlphaGo Zero, który osiągnął nadludzki poziom gry w szachy , shogi i Go w ciągu 24 godzin , pokonując programy mistrzów świata, Sztokfisz , Elmo i 3-dniowa wersja AlphaGo Zero w każdym przypadku.

AlphaZero (AZ) jest bardziej uogólnionym wariantem algorytmu AlphaGo Zero (AGZ) i jest w stanie grać w shogi i szachy, a także Go. Różnice między AZ i AGZ obejmują:

  • AZ ma zakodowane na stałe reguły ustawiania hiperparametrów wyszukiwania .
  • Sieć neuronowa jest teraz stale aktualizowana.
  • Szachy (w przeciwieństwie do Go) mogą zakończyć się remisem; dlatego AZ może wziąć pod uwagę możliwość remisu.

program typu open source , Leela Zero , oparty na pomysłach z artykułów AlphaGo. Wykorzystuje GPU zamiast TPU, na których opierają się najnowsze wersje AlphaGo.

Linki zewnętrzne i dalsze czytanie