Oczekiwania Pitagorasa
Oczekiwanie pitagorejskie to formuła analizy sportowej opracowana przez Billa Jamesa w celu oszacowania odsetka meczów, które drużyna baseballowa „powinna” wygrać na podstawie liczby zdobytych i dozwolonych obiegów . Porównanie rzeczywistego i pitagorejskiego procentu zwycięstw zespołu może być wykorzystane do przewidywania i oceny, które zespoły osiągają lepsze, a które gorsze wyniki. Nazwa pochodzi od podobieństwa formuły do twierdzenia Pitagorasa .
Podstawowa formuła to:
gdzie Win Ratio to współczynnik wygranych generowany przez formułę. Oczekiwana liczba zwycięstw to oczekiwany współczynnik wygranych pomnożony przez liczbę rozegranych gier.
Pochodzenie empiryczne
Z empirycznego punktu widzenia ta formuła dość dobrze koreluje z faktycznymi wynikami drużyn baseballowych. Jednak statystycy od czasu wynalezienia tej formuły stwierdzili, że zawiera ona dość rutynowy błąd, generalnie około trzech gier do przerwy. Na przykład New York Yankees z 2002 roku zdobyli 897 obiegów i pozwolili na 697 obiegów. Zgodnie z oryginalną formułą Jamesa Yankees powinni byli wygrać 62,35% swoich meczów.
Biorąc pod uwagę 162 mecze sezonu, Yankees powinni byli wygrać 101,01 meczów. Yankees z 2002 roku faktycznie osiągnęli 103-58.
Próbując naprawić ten błąd, statystycy przeprowadzili wiele poszukiwań, aby znaleźć idealny wykładnik.
Jeśli używasz wykładnika jednoliczbowego, najdokładniejszy jest 1,83, a ten używany przez baseball-reference.com. Zaktualizowana formuła brzmi zatem następująco:
Najbardziej znana jest formuła Pythagenport opracowana przez Claya Davenporta z Baseball Prospectus :
Doszedł do wniosku, że wykładnik powinien być obliczany z danej drużyny na podstawie zdobytych przez nią obiegów (R), dozwolonych obiegów (RA) i meczów (G). Nie redukując wykładnika do pojedynczej liczby dla drużyn w dowolnym sezonie, Davenport był w stanie zgłosić błąd średniej kwadratowej 3,9911, w przeciwieństwie do błędu średniokwadratowego 4,126 dla wykładnika równego 2.
Mniej znana, ale równie (jeśli nie bardziej) skuteczna jest formuła Pythagenpat , opracowana przez Davida Smytha.
Davenport wyraził poparcie dla tej formuły, mówiąc:
Po dalszej analizie, ja (Clay) doszedłem do wniosku, że tak zwana metoda Smytha/Patriota, znana również jako Pythagenpat, jest bardziej odpowiednia. W tym przypadku X = (( rs + ra )/ g ) 0,285 , chociaż w wykładniku jest trochę miejsca na niezgodność. W każdym razie to równanie jest prostsze, bardziej eleganckie i daje lepszą odpowiedź w szerszym zakresie zdobytych przebiegów niż Pythagenport, w tym obowiązkowa wartość 1 przy 1 RPG.
Te formuły są potrzebne tylko w sytuacjach ekstremalnych, w których średnia liczba obiegów zdobytych na mecz jest albo bardzo wysoka, albo bardzo niska. W większości sytuacji proste podniesienie każdej zmiennej do kwadratu daje dokładne wyniki.
Istnieją pewne systematyczne odchylenia statystyczne między faktycznym procentem wygranych a oczekiwanym procentem wygranych, które obejmują jakość bullpen i szczęście. Ponadto formuła ma tendencję do cofania się w kierunku średniej , ponieważ drużyny, które wygrywają wiele meczów, są zwykle niedostatecznie reprezentowane w formule (co oznacza, że „powinny” wygrać mniej gier), a drużyny, które przegrywają wiele meczów, zwykle są nadreprezentowane („powinny” wygrać więcej). Godnym uwagi przykładem jest Texas Rangers 2016 , którzy przekroczyli swój przewidywany rekord o 13 gier, notując rekord 95-67, mając oczekiwany rekord zwycięstw i porażek wynoszący zaledwie 82-80.
Zwycięstwa „drugiego rzędu” i „trzeciego rzędu”.
W swoim raporcie skorygowanych rankingów Baseball Prospectus odnosi się do różnych „kolejności” zwycięstw drużyny. Podstawowa kolejność zwycięstw to po prostu liczba gier, które wygrali. Ponieważ jednak rekord zespołu może nie odzwierciedlać jego prawdziwego talentu ze względu na szczęście, opracowano różne miary talentu zespołu.
Wygrane pierwszego rzędu, oparte na czystym przebiegu różnicowym , to liczba oczekiwanych wygranych generowanych przez formułę „pythagenport” (patrz wyżej). Ponadto, aby jeszcze bardziej odfiltrować zniekształcenia szczęścia, Sabermetrycy mogą również obliczyć oczekiwane obiegi zdobyte i dozwolone przez drużynę za pomocą utworzonego równania typu obiegów (najdokładniejszym na poziomie zespołu są przebiegi bazowe ). Formuły te dają oczekiwaną liczbę runów zespołu, biorąc pod uwagę ich statystyki ofensywne i defensywne (łączna liczba pojedynczych, podwójnych, spacerów itp.), Co pomaga wyeliminować czynnik szczęścia związany z kolejnością, w której trafienia i spacery zespołu miały miejsce w rundzie. Korzystając z tych statystyk, sabermetrycy mogą obliczyć, ile obiegów zespół „powinien” zdobyć lub dopuścić.
Podłączając te oczekiwane runy zdobyte i dozwolone do formuły pitagorejskiej, można wygenerować zwycięstwa drugiego rzędu, liczbę zwycięstw, na które zasługuje drużyna w oparciu o liczbę runów, które powinni zdobyć i na które pozwolili, biorąc pod uwagę ich składowe statystyki ofensywne i defensywne. Zwycięstwa trzeciego rzędu to zwycięstwa drugiego rzędu, które zostały dostosowane do siły harmonogramu (jakości rzucania i uderzania przeciwnika). Pokazano odsetek wygranych drugiego i trzeciego rzędu [ według kogo? ] , aby przewidzieć przyszły rzeczywisty procent wygranej drużyny lepiej niż zarówno rzeczywisty procent wygranej, jak i procent pierwszej wygranej. [ potrzebny cytat ]
Wyjaśnienie teoretyczne
Początkowo korelacja między formułą a faktycznym procentem wygranych była po prostu obserwacją eksperymentalną. W 2003 roku Hein Hundal przedstawił niedokładne wyprowadzenie wzoru i wykazał, że wykładnik pitagorejski wynosił w przybliżeniu 2/( σ √ π ), gdzie σ było odchyleniem standardowym obiegów zdobytych przez wszystkie drużyny, podzielonym przez średnią liczbę zdobytych obiegów. W 2006 roku profesor Steven J. Miller przedstawił statystyczne wyprowadzenie wzoru przy pewnych założeniach dotyczących gier baseballowych: jeśli biegi dla każdej drużyny są zgodne z rozkładem Weibulla a obiegi zdobyte i dozwolone na mecz są statystycznie niezależne , to wzór podaje prawdopodobieństwo wygranej.
Mówiąc prościej, pitagorejska formuła z wykładnikiem 2 wynika natychmiast z dwóch założeń: że drużyny baseballowe wygrywają proporcjonalnie do ich „jakości” oraz że ich „jakość” jest mierzona stosunkiem ich zdobytych obiegów do ich dozwolonych obiegów. Na przykład, jeśli Drużyna A zdobyła 50 obiegów i pozwoliła na 40, jej miara jakości wyniosłaby 50/40 lub 1,25. Miarą jakości dla jej (zbiorowej) drużyny przeciwnej B, w meczach rozgrywanych przeciwko A, byłoby 40/50 (ponieważ obiegi zdobyte przez A są obiegami dozwolonymi przez B i odwrotnie), czyli 0,8. Jeśli każda drużyna wygrywa proporcjonalnie do swojej jakości, prawdopodobieństwo wygranej A wynosiłoby 1,25 / (1,25 + 0,8), co równa się 50 2 / (50 2 + 40 2 ), formuła Pitagorasa. Ta sama zależność jest prawdziwa dla dowolnej liczby runów zdobytych i dozwolonych, co można zobaczyć, zapisując prawdopodobieństwo „jakości” jako [50/40] / [50/40 + 40/50] i usuwając ułamki .
Założenie, że jedną miarą jakości drużyny jest stosunek zdobytych runów do dozwolonych, jest zarówno naturalne, jak i prawdopodobne; jest to formuła, według której określane są indywidualne zwycięstwa (gry). [Istnieją inni naturalni i wiarygodni kandydaci na miary jakości zespołu, które, zakładając model „jakości”, prowadzą do odpowiednich formuł oczekiwanych procentów wygranych, które są z grubsza tak dokładne jak pitagorejskie.] Założenie, że drużyny baseballowe wygrywają proporcjonalnie do ich jakość nie jest naturalna, ale jest wiarygodna. Nie jest to naturalne, ponieważ stopień, w jakim sportowcy wygrywają proporcjonalnie do ich jakości, zależy od roli, jaką w sporcie odgrywa przypadek. Jeśli przypadek odgrywa bardzo dużą rolę, to nawet drużyna o znacznie wyższej jakości niż jej przeciwnicy będzie wygrywać tylko trochę częściej niż przegrywać. Jeśli przypadek odgrywa bardzo małą rolę, to drużyna, która ma tylko trochę wyższą jakość niż jej przeciwnicy, będzie wygrywać znacznie częściej niż przegrywać. To drugie zjawisko występuje częściej w koszykówce, z różnych powodów, między innymi dlatego, że zdobywa się o wiele więcej punktów niż w baseballu (dając zespołowi o wyższej jakości więcej okazji do zademonstrowania tej jakości, z odpowiednio mniejszymi szansami na przypadek lub szczęście, które pozwolą drużynie o niższej zespół wysokiej jakości, aby wygrać.)
Baseball ma odpowiednią ilość szans, aby umożliwić zespołom zwycięstwo w przybliżeniu proporcjonalne do ich jakości, tj. uzyskanie wyniku z grubsza pitagorejskiego z wykładnikiem drugim. Wyższy wykładnik koszykówki wynoszący około 14 (patrz poniżej) wynika z mniejszej roli, jaką przypadek odgrywa w koszykówce. Fakt, że najdokładniejszy (stały) wykładnik pitagorejski dla baseballu wynosi około 1,83, nieco mniej niż 2, można wytłumaczyć faktem, że w baseballu istnieje (najwyraźniej) nieco większa szansa niż pozwalałaby drużynom na wygraną dokładnie proporcjonalnie do ich jakość. Bill James zdał sobie z tego sprawę dawno temu, kiedy zauważył, że poprawę dokładności jego oryginalnej formuły pitagorejskiej z wykładnikiem drugim można uzyskać po prostu dodając pewną stałą liczbę do licznika i dwukrotność stałej do mianownika. To przesuwa wynik nieco bliżej 0,500, co miałoby nieco większą rolę dla przypadku, i co również daje użycie wykładnika 1,83 (lub dowolnego dodatniego wykładnika mniejszego niż dwa). Można wypróbować różnych kandydatów na tę stałą, aby zobaczyć, co daje „najlepsze dopasowanie” do rzeczywistych danych.
Fakt, że najdokładniejszym wykładnikiem formuł Pitagorasa w baseballu jest zmienna zależna od całkowitej liczby obiegów na mecz, można również wyjaśnić rolą przypadku, ponieważ im więcej zdobytych obiegów, tym mniejsze prawdopodobieństwo, że wynik będzie należny przypadek, a nie wyższa jakość zwycięskiej drużyny, która przejawiała się w sytuacjach strzeleckich. Im większy wykładnik, tym dalej od procentu wygranych 0,500 jest wynikiem odpowiedniej formuły pitagorejskiej, co jest tym samym efektem, który tworzy zmniejszona rola przypadku. Fakt, że dokładne wzory na zmienne wykładniki dają większe wykładniki wraz ze wzrostem całkowitej liczby przebiegów na mecz, jest zatem zgodny ze zrozumieniem roli, jaką przypadek odgrywa w sporcie.
W swoim Baseball Abstract z 1981 roku James wyraźnie opracował inny ze swoich formuł, zwany formułą log5 (która od tego czasu okazała się empirycznie dokładna), używając pojęcia 2 drużyn mających procent wygranych twarzą w twarz przeciwko sobie proporcjonalnie do środek „jakościowy”. Jego miarą jakości była połowa „współczynnika zwycięstw” zespołu (lub „szans na wygraną”). Współczynnik zwycięstw lub szanse na wygraną to stosunek zwycięstw zespołu z ligą do porażek z ligą. [James nie wydawał się wtedy świadomy, że jego miara jakości była wyrażona w kategoriach współczynnika wygranych. Ponieważ w modelu jakości każdy stały czynnik w mierniku jakości ostatecznie się anuluje, miernik jakości jest dziś lepiej przyjmowany jako sam współczynnik wygranych, a nie jego połowa.] Następnie stwierdził, że formuła Pitagorasa, którą wcześniej opracował empirycznie , do przewidywania procentu wygranych na podstawie przebiegów, było „tym samym” co formuła log5, choć bez przekonującej demonstracji ani dowodu. Jego rzekome wykazanie, że są one takie same, sprowadzało się do wykazania, że dwie różne formuły upraszczają się do tego samego wyrażenia w szczególnym przypadku, który sam jest traktowany niejasno i nie uznaje się, że przypadek szczególny nie jest przypadkiem ogólnym. Nie ogłosił też później opinii publicznej żadnego wyraźnego, opartego na jakości modelu formuły Pitagorasa. Od 2013 r. W społeczności sabermetrycznej wciąż jest niewielka świadomość społeczna, że prosty model „zespoły wygrywają proporcjonalnie do jakości”, wykorzystujący współczynnik przebiegów jako miarę jakości, prowadzi bezpośrednio do oryginalnej pitagorejskiej formuły Jamesa.
W streszczeniu z 1981 roku James mówi również, że najpierw próbował stworzyć formułę „log5”, po prostu używając procentów zwycięstw drużyn zamiast przebiegów w formule pitagorejskiej, ale nie dało to prawidłowych wyników. Powodem, nieznanym wówczas Jamesowi, jest to, że jego próba sformułowania sugeruje, że względna jakość drużyn jest określona przez stosunek ich procentowych wygranych. Jednak nie może to być prawdą, jeśli drużyny wygrywają proporcjonalnie do ich jakości, ponieważ drużyna 0,900 wygrywa ze swoimi przeciwnikami, których ogólny procent wygranych wynosi około 0,500, w stosunku 9 do 1, a nie 9 do 5 ich . Od 900 do 0,500 procent wygranej. Empiryczne niepowodzenie jego próby doprowadziło do jego ostatecznego, bardziej okrężnego (i pomysłowego) i udanego podejścia do log5, które nadal wykorzystywało względy jakości, choć bez pełnego docenienia ostatecznej prostoty modelu i jego bardziej ogólnego zastosowania oraz prawdziwej strukturalnej podobieństwo do jego formuły pitagorejskiej.
Użyj w koszykówce
Amerykański dyrektor sportowy Daryl Morey był pierwszym, który zaadaptował pitagorejskie oczekiwania Jamesa do profesjonalnej koszykówki, podczas gdy badacz w STATS, Inc. Odkrył, że użycie wykładników o wartości 13,91 zapewnia akceptowalny model przewidywania procentów wygranych i przegranych:
„Zmodyfikowane twierdzenie Pitagorasa” Daryla zostało po raz pierwszy opublikowane w STATS Basketball Scoreboard, 1993–94 .
Znany analityk koszykówki, Dean Oliver, również zastosował pitagorejską teorię Jamesa do profesjonalnej koszykówki. Wynik był podobny.
Inny znany statystyk koszykówki , John Hollinger , używa podobnego wzoru pitagorejskiego, z wyjątkiem tego, że wykładnikiem jest 16,5.
Użyj w National Football League
Formuła została również wykorzystana w National Football League przez witrynę statystyk piłkarskich i wydawcę Football Outsiders , gdzie jest znana jako projekcja pitagorejska .
Formuła jest używana z wykładnikiem 2,37 i daje przewidywany procent wygranej. Ten procent wygranych jest następnie mnożony przez 17 (dla liczby meczów rozegranych w sezonie NFL od 2021 r.), aby uzyskać przewidywaną liczbę zwycięstw. Ta przewidywana liczba określona przez równanie jest określana jako zwycięstwa pitagorejskie.
W wydaniu Football Outsiders Almanac z 2011 r. czytamy: „Od 1988 do 2004 r. 11 z 16 Super Bowl wygrała drużyna, która prowadziła NFL w pitagorejskich zwycięstwach, podczas gdy tylko siedem wygrała drużyna z największą liczbą rzeczywistych zwycięstw. Mistrzowie Super Bowl które prowadziły ligę pod względem zwycięstw pitagorejczyków, ale nie rzeczywistych zwycięstw, obejmują Patriotów z 2004 r. , Ravens z 2000 r ., Rams z 1999 r . i Broncos z 1997 r .”.
Chociaż Football Outsiders Almanac przyznaje, że formuła była mniej skuteczna w wybieraniu uczestników Super Bowl w latach 2005–2008, potwierdziła się w latach 2009 i 2010. Ponadto „projekcja pitagorejska jest nadal cennym predyktorem roku do Poprawa w ciągu roku. Drużyny, które wygrywają co najmniej o jeden pełny mecz więcej niż wynika to z pitagorejskiej prognozy, mają tendencję do cofania się w kolejnym roku; na poziomie lub powyżej 0,500 pomimo ich słabych wyników.
Na przykład New Orleans Saints z 2008 roku osiągnęli wynik 8-8 pomimo 9,5 zwycięstw pitagorejczyków, co wskazuje na poprawę, która nastąpiła wraz z kolejnym sezonem mistrzowskim .
Użyj w hokeju na lodzie
W 2013 roku statystyk Kevin Dayaratna i matematyk Steven J. Miller przedstawili teoretyczne uzasadnienie zastosowania pitagorejskiego oczekiwania do hokeja na lodzie. W szczególności odkryli, że przy tych samych założeniach, które Miller poczynił w swoim badaniu na temat baseballu z 2007 roku, a konkretnie, że strzelone i zdobyte bramki podlegają statystycznie niezależnym rozkładom Weibulla , pitagorejskie oczekiwanie działa równie dobrze w hokeju na lodzie, jak w baseballu . Badanie Dayaratna i Miller zweryfikowało zasadność statystyczną przyjęcia tych założeń i oszacowało wykładnik pitagorejski dla hokeja na lodzie wynosi nieco powyżej 2.
Zobacz też
Notatki
Linki zewnętrzne
- Millera (2007) [2005]. „Wyprowadzenie pitagorejskiego wzoru wygranych i przegranych w baseballu”. Magazyn Szansa . 20 (1): 40–48. arXiv : math.ST/0509698 . Bibcode : 2005math......9698M . doi : 10.1080/09332480.2007.10722831 . S2CID 8103486 .
- Obecne pitagorejskie oczekiwania Major League Baseball.
- Dostosowanie twierdzenia Pitagorasa w piłce nożnej