Zawody Makridakisa
Konkursy Makridakisa (znane również jako konkursy M lub konkursy M ) to seria otwartych konkursów mających na celu ocenę i porównanie dokładności różnych metod prognozowania szeregów czasowych . Są one organizowane przez zespoły kierowane przez badacza prognoz Spyrosa Makridakisa i po raz pierwszy odbyły się w 1982 roku.
Zawody
Streszczenie
NIE. | Nieformalna nazwa zawodów | Rok publikacji wyników | Liczba użytych szeregów czasowych | Liczba przetestowanych metod | Inne funkcje |
---|---|---|---|---|---|
1 | Konkurencja M lub Konkurencja M | 1982 | 1001 (użyto podpróby 111 dla metod, w których uruchomienie wszystkich 1001 było zbyt trudne) | 15 (plus 9 odmian) | Nie w czasie rzeczywistym |
2 | Zawody M-2 lub Zawody M2 | 1993 | 29 (23 od firm współpracujących, 6 od wskaźników makroekonomicznych) | 16 (w tym 5 ludzkich prognostów i 11 automatycznych metod opartych na trendach) plus 2 połączone prognozy i 1 ogólna średnia | W czasie rzeczywistym, wiele współpracujących organizacji, konkurs ogłaszany z wyprzedzeniem |
3 | Zawody M-3 lub Zawody M3 | 2000 | 3003 | 24 | |
4 | Zawody M-4 lub Zawody M4 | 2020 | 100 000 | Wszystkie główne metody ML i metody statystyczne zostały przetestowane | Pierwszy zwycięzca Sławek Smyl, Uber Technologies |
5 | Zawody M-5 lub Zawody M5 | Wstępne wyniki 2021, Finał 2022 | Około 42 000 hierarchicznych szeregów czasowych dostarczonych przez Walmart | Testowane będą wszystkie główne metody prognozowania, w tym uczenie maszynowe i głębokie oraz statystyczne | Pierwszy zwycięzca wyzwania dokładności: YeonJun In. Pierwsi zwycięzcy niepewność Wyzwanie: Russ Wolfinger i David Lander |
6 | Zawody M-6 lub Zawody M6 | Wstępne wyniki 2022, końcowe 2024 | Konkurs prognoz finansowych w czasie rzeczywistym składający się z 50 amerykańskich akcji S&P500 i 50 międzynarodowych funduszy ETF | Testowane będą wszystkie główne metody prognozowania, w tym uczenie maszynowe i głębokie oraz statystyczne |
Pierwszy konkurs w 1982 roku
Pierwszy Konkurs Makridakisa, który odbył się w 1982 roku i znany jest w literaturze prognostycznej jako Konkurs M , wykorzystał 1001 szeregów czasowych i 15 metod prognozowania (z uwzględnieniem kolejnych dziewięciu odmian tych metod). Według późniejszego artykułu autorów, główne wnioski z M-Competition były następujące:
- Statystycznie wyrafinowane lub złożone metody niekoniecznie zapewniają dokładniejsze prognozy niż prostsze.
- Względny ranking wydajności różnych metod różni się w zależności od zastosowanej miary dokładności.
- Dokładność, gdy łączone są różne metody, przewyższa przeciętnie skuteczność łączenia poszczególnych metod i wypada bardzo dobrze w porównaniu z innymi metodami.
- Dokładność różnych metod zależy od długości horyzontu prognozowania.
Wyniki badania zostały zweryfikowane i powtórzone przy użyciu nowych metod przez innych badaczy.
Według Roba J. Hyndmana „... każdy mógłby przesłać prognozy, co czyni to pierwszym prawdziwym konkursem prognostycznym, o ile mi wiadomo.
Newbold (1983) krytycznie odnosił się do konkursu M i sprzeciwiał się ogólnemu pomysłowi wykorzystania pojedynczego konkursu do próby rozwiązania złożonego problemu.
Przed pierwszym konkursem badanie Makridakisa-Hibona
Przed pierwszym M-Competition Makridakis i Hibon opublikowali w Journal of the Royal Statistical Society (JRSS) artykuł pokazujący, że proste metody sprawdzają się lepiej w porównaniu z bardziej złożonymi i wyrafinowanymi statystycznie. Statystycy w tym czasie krytykowali wyniki, twierdząc, że nie są one możliwe. Ich krytyka motywowała kolejne konkursy M, M2 i M3, które ponad wszelką wątpliwość udowadniają wyniki badań Makridakis i Hibon.
Drugi konkurs, opublikowany w 1993 r
Drugi konkurs, zwany Konkursem M-2 lub M2-Konkurs, prowadzony był na większą skalę. Zaproszenie do udziału zostało opublikowane w International Journal of Forecasting , ogłoszono na Międzynarodowym Sympozjum Prognozowania i wysłano pisemne zaproszenie do wszystkich znanych ekspertów w zakresie różnych metod szeregów czasowych. Konkurs M2 został zorganizowany we współpracy z czterema firmami i obejmował sześć serii makroekonomicznych oraz był prowadzony w czasie rzeczywistym. Dane pochodziły ze Stanów Zjednoczonych. Wyniki konkursu zostały opublikowane w artykule z 1993 roku. Twierdzono, że wyniki są statystycznie identyczne z wynikami M-Competition.
Konkurencja M2 wykorzystywała znacznie mniej szeregów czasowych niż oryginalna konkurencja M. Podczas gdy w pierwotnym konkursie M wykorzystano 1001 szeregów czasowych, w konkursie M2 wykorzystano tylko 29, w tym 23 z czterech współpracujących firm i 6 szeregów makroekonomicznych. Dane od firm zostały zaciemnione poprzez zastosowanie stałego mnożnika w celu zachowania prywatności własności. Celem M2-Competition było lepsze symulowanie rzeczywistych prognoz pod następującymi względami:
- Pozwól prognostom połączyć metodę prognozowania opartą na trendach z osobistą oceną.
- Pozwól prognostom zadawać dodatkowe pytania, prosząc o dane od zaangażowanych firm, aby uzyskać lepsze prognozy.
- Pozwól prognostom uczyć się z jednego ćwiczenia prognostycznego i korygować swoje prognozy dla następnego ćwiczenia prognostycznego na podstawie informacji zwrotnych.
Konkurs został zorganizowany w następujący sposób:
- Pierwsza partia danych została wysłana do uczestniczących prognostów latem 1987 roku.
- Prognozy miały możliwość skontaktowania się z zaangażowanymi firmami za pośrednictwem pośrednika w celu zebrania dodatkowych informacji, które uznali za istotne dla sporządzania prognoz.
- W październiku 1987 roku prognostom przesłano zaktualizowane dane.
- Synoptycy musieli przesłać swoje prognozy do końca listopada 1987 r.
- Rok później prognostom przesłano analizę ich prognoz i poproszono o przedstawienie kolejnej prognozy w listopadzie 1988 r.
- Ostateczną analizę i ocenę prognoz prowadzono od kwietnia 1991 r., kiedy współpracującym firmom znane były rzeczywiste, ostateczne wartości danych obejmujące grudzień 1990 r.
Oprócz opublikowanych wyników, wielu uczestników napisało krótkie artykuły opisujące swoje wrażenia z udziału w konkursie oraz refleksje na temat tego, co pokazał konkurs. Chris Chatfield pochwalił projekt konkursu, ale powiedział, że pomimo najlepszych starań organizatorów uważa, że prognostycy nadal nie mają wystarczającego dostępu do firm od wewnątrz, tak jak uważał, że ludzie mieliby w prognozowaniu w świecie rzeczywistym. Fildes i Makridakis (1995) argumentują, że pomimo dowodów dostarczonych przez te zawody, implikacje te były nadal ignorowane przez statystyków teoretycznych.
Trzeci konkurs, opublikowany w 2000 roku
Trzeci konkurs, zwany Konkursem M-3 lub Konkursem M3, miał na celu zarówno powtórzenie , jak i rozszerzenie cech konkursu M i Konkursu M2, poprzez włączenie większej liczby metod i badaczy (zwłaszcza naukowców zajmujących się sieci ) i więcej szeregów czasowych . W sumie wykorzystano 3003 szeregi czasowe. Artykuł dokumentujący wyniki konkursu został opublikowany w International Journal of Forecasting w 2000 r., a surowe dane zostały również udostępnione w International Institute of Forecasters strona internetowa. Zdaniem autorów wnioski z konkursu M3 były podobne do tych z poprzednich konkursów.
Szeregi czasowe obejmowały szeregi roczne, kwartalne, miesięczne, dzienne i inne. Aby zapewnić wystarczającą ilość danych do opracowania dokładnego modelu prognostycznego, ustalono minimalne progi liczby obserwacji: 14 dla szeregów rocznych, 16 dla szeregów kwartalnych, 48 dla szeregów miesięcznych i 60 dla pozostałych szeregów.
Szeregi czasowe były w następujących domenach: mikro, przemysł, makro, finanse, demografia i inne. Poniżej znajduje się liczba szeregów czasowych w oparciu o przedział czasu i dziedzinę:
Odstęp czasu między kolejnymi obserwacjami | Mikro | Przemysł | Makro | Finanse | Demograficzny | Inny | Całkowity |
---|---|---|---|---|---|---|---|
Rocznie | 146 | 102 | 83 | 58 | 245 | 11 | 645 |
Kwartalny | 204 | 83 | 336 | 76 | 57 | 0 | 756 |
Miesięczny | 474 | 334 | 312 | 145 | 111 | 52 | 1428 |
Inny | 4 | 0 | 0 | 29 | 0 | 141 | 174 |
Całkowity | 828 | 519 | 731 | 308 | 413 | 204 | 3003 |
Pięć miar użytych do oceny dokładności różnych prognoz to: symetryczny średni bezwzględny błąd procentowy (znany również jako symetryczny MAPE), średni ranking, mediana symetrycznego bezwzględnego błędu procentowego (znany również jako mediana symetrycznego błędu APE), procent lepszy i mediana RAE.
Opublikowano szereg innych artykułów z różnymi analizami zestawu danych z M3-Competition. Według Roba J. Hyndmana , redaktora naczelnego International Journal of Forecasting (IJF), „Dane M3 są nadal wykorzystywane od 2000 r. do testowania nowych metod prognozowania szeregów czasowych. W rzeczywistości, o ile proponowana metoda prognozowania nie jest konkurencyjne w stosunku do oryginalnych metod uczestniczących w M3, trudno jest zostać opublikowanym w IJF”.
Czwarty konkurs, rozpoczęty 1 stycznia 2018 r., zakończony 31 maja 2018 r.
Czwarty konkurs, M4, został ogłoszony w listopadzie 2017 r. Konkurs rozpoczął się 1 stycznia 2018 r., a zakończył 31 maja 2018 r. Wstępne wyniki zostały opublikowane w International Journal of Forecasting 21 czerwca 2018 r .
M4 rozszerzył i powtórzył wyniki poprzednich trzech konkursów, wykorzystując rozszerzony i zróżnicowany zestaw szeregów czasowych w celu określenia najdokładniejszych metod prognozowania dla różnych typów prognoz. Jego celem było uzyskanie odpowiedzi na pytanie, jak poprawić dokładność prognozowania i zidentyfikowanie najodpowiedniejszych metod dla każdego przypadku. Aby uzyskać precyzyjne i przekonujące odpowiedzi, konkurs M4 wykorzystał 100 000 rzeczywistych serii i obejmuje wszystkie główne metody prognozowania, w tym oparte na sztucznej inteligencji (uczenie maszynowe, ML), a także tradycyjne metody statystyczne.
Na swoim blogu Rob J. Hyndman napisał o M4: „Konkursy „M” organizowane przez Spyrosa Makridakisa wywarły ogromny wpływ na dziedzinę prognozowania. Skupiały się raczej na tym, jakie modele dają dobre prognozy, niż na matematycznych właściwościach te modele. Za to Spyros zasługuje na gratulacje za zmianę krajobrazu badań prognostycznych poprzez tę serię konkursów”.
Poniżej znajduje się liczba szeregów czasowych w oparciu o przedział czasu i dziedzinę:
Odstęp czasu między kolejnymi obserwacjami | Mikro | Przemysł | Makro | Finanse | Demograficzny | Inny | Całkowity |
---|---|---|---|---|---|---|---|
Rocznie | 6538 | 3716 | 3903 | 6519 | 1088 | 1236 | 23000 |
Kwartalny | 6020 | 4637 | 5315 | 5305 | 1858 | 865 | 24000 |
Miesięczny | 10975 | 10017 | 10016 | 10987 | 5728 | 277 | 48000 |
Co tydzień | 112 | 6 | 41 | 164 | 24 | 12 | 359 |
Codziennie | 1476 | 422 | 127 | 1559 | 10 | 633 | 4227 |
Cogodzinny | 0 | 0 | 0 | 0 | 0 | 414 | 414 |
Całkowity | 25121 | 18798 | 19402 | 24534 | 8708 | 3437 | 100000 |
Aby zapewnić wystarczającą ilość danych do opracowania dokładnego modelu prognostycznego, ustalono minimalne progi liczby obserwacji: 13 dla serii rocznych, 16 dla serii kwartalnych, 42 dla serii miesięcznych, 80 dla serii tygodniowych, 93 dla serii dziennych i 700 dla serii godzinowych .
Jednym z jego głównych celów było porównanie dokładności metod ML z dokładnością metod statystycznych oraz empiryczna weryfikacja twierdzeń o wyższej wydajności metod ML.
Poniżej znajduje się krótki opis Konkursu M4 oraz jego najważniejsze ustalenia i wnioski:
Konkurs M4 zakończył się 31 maja 2018 r. i oprócz prognoz punktowych obejmował również określenie przedziałów prognoz (PI). M4 był Otwarty, a jego najważniejszym celem (podobnym jak w poprzednich trzech Konkursach M): „nauczyć się poprawiać trafność prognoz i jak najbardziej rozwijać dziedzinę”.
Pięć głównych ustaleń i wnioski z M4:
Poniżej przedstawiamy w zarysie to, co uważamy za pięć głównych ustaleń konkursu M4 i wysuwamy logiczne wnioski z tych ustaleń.
- Połączenie metod było królem M4. Spośród 17 najdokładniejszych metod 12 było „kombinacjami” głównie podejść statystycznych.
- Największą niespodzianką było jednak podejście „hybrydowe”, wykorzystujące zarówno funkcje statystyczne, jak i ML. Ta metoda dała najdokładniejsze prognozy, a także najdokładniejsze PI i została przedstawiona przez Sławka Smyla, Data Scientist w Uber Technologies. Według sMAPE był on prawie o 10% (ogromna poprawa) dokładniejszy niż test porównawczy Combination (Comb) konkursu (patrz poniżej). Należy zauważyć, że w konkursie M3 (Makridakis i Hibon, 2000) najlepsza metoda była o 4% dokładniejsza niż ta sama kombinacja.
- Drugą najdokładniejszą metodą było połączenie siedmiu metod statystycznych i jednej ML, przy czym wagi uśredniania były obliczane przez algorytm ML, wyszkolony w celu zminimalizowania błędu prognozowania poprzez testy wstrzymania. Metoda ta została wspólnie przedstawiona przez hiszpański Uniwersytet A Coruña i australijski Uniwersytet Monash.
- Pierwsza i druga najdokładniejsza metoda również odniosły niesamowity sukces w prawidłowym określaniu 95% PI. Są to pierwsze znane nam metody, które to zrobiły i znacznie nie lekceważą niepewności.
- Sześć czystych metod ML przedstawionych w M4 wypadło słabo, żadna z nich nie była dokładniejsza niż Comb, a tylko jedna była dokładniejsza niż Naïve2. Wyniki te są zgodne z wynikami niedawnego badania, które opublikowaliśmy w PLOS ONE (Makridakis i in., 2018).
Wniosek z powyższych ustaleń jest taki, że dokładność poszczególnych metod statystycznych lub uczenia maszynowego jest niska, a podejście hybrydowe i łączenie metod jest drogą naprzód w celu poprawy dokładności prognozowania i uczynienia prognoz bardziej wartościowymi.
Konkurs piąty, rozpoczęty 3 marca 2020 r., zakończony 1 lipca 2020 r.
M5 rozpoczęło się 3 marca, a wyniki ogłoszono 1 lipca 2020 r. Wykorzystano rzeczywiste dane z Walmart i przeprowadzono na platformie Kaggle. Zaoferował zwycięzcom znaczne nagrody o łącznej wartości 100 000 USD. Dane zostały dostarczone przez Walmart i składały się z około 42 000 hierarchicznych dziennych szeregów czasowych, zaczynając od poziomu SKU, a kończąc na całkowitym popycie jakiegoś dużego obszaru geograficznego. Oprócz danych sprzedażowych pojawiły się również informacje o cenach, aktywności reklamowej/promocyjnej i stanach magazynowych oraz dniu tygodnia, którego dane dotyczą.
Było kilka głównych nagród dla pierwszych, drugich i trzecich zwycięzców w kategoriach
- Najdokładniejsze prognozy dla danych Walmart
- Najdokładniejsze oszacowanie niepewności dla danych Walmart
Były też nagrody studenckie i firmowe. Nie było ograniczeń co do liczby nagród, które może wygrać pojedynczy uczestnik lub zespół.
M5 skupiało się głównie na praktykach, a nie na naukowcach. Zawody M5 zgromadziły blisko 6000 uczestników i zespołów, ciesząc się dużym zainteresowaniem.
odrosty
NN3-Konkurs
Chociaż organizatorzy M3-Competition skontaktowali się z naukowcami zajmującymi się sztucznymi sieciami neuronowymi w celu ubiegania się o udział w konkursie, zgłosił się tylko jeden naukowiec i jego prognozy wypadły słabo. Niechęć większości badaczy SSN do udziału w tamtym czasie wynikała z intensywnego obliczeniowo charakteru prognozowania opartego na SSN i ogromnych szeregów czasowych wykorzystywanych w konkursie. W 2005 roku Crone, Nikolopoulos i Hibon zorganizowali konkurs NN-3, wykorzystując 111 szeregów czasowych z konkursu M3 (nie te same dane, ponieważ zostały przesunięte w czasie, ale te same źródła). Konkurs NN-3 wykazał, że najlepsze prognozy oparte na SSN działały porównywalnie z najlepszymi znanymi metodami prognozowania, ale były znacznie bardziej wymagające obliczeniowo. Zauważono również, że wiele technik opartych na SSN wypadło znacznie gorzej niż proste metody prognozowania, pomimo lepszych wyników teoretyczny potencjał dobrych wyników.
Przyjęcie
W książkach dla masowego odbiorcy
Nassim Nicholas Taleb w swojej książce The Black Swan odnosi się do zawodów Makridakisa w następujący sposób: „Najciekawszy test tego, jak metody akademickie radzą sobie w prawdziwym świecie, został przedstawiony przez Spyrosa Makridakisa, który spędził część swojej kariery zarządzając konkursami między prognostami, którzy praktykują „metoda naukowa" zwana ekonometrią — podejście, które łączy teorię ekonomii z pomiarami statystycznymi. Mówiąc najprościej, zmuszał ludzi do prognozowania w prawdziwym życiu , a następnie oceniał ich trafność. Doprowadziło to do serii „M-Konkursów", które prowadził, z pomoc Michele Hibon, z których M3 była trzecią i najnowszą, ukończono w 1999 r. Makridakis i Hibon doszli do smutnego wniosku, że „statystycznie wyrafinowane i złożone metody niekoniecznie zapewniają dokładniejsze prognozy niż prostsze”.
W książce Everything is Obvious Duncan Watts cytuje prace Makridakisa i Hibona jako pokazujące, że „proste modele są mniej więcej tak dobre, jak modele złożone w prognozowaniu ekonomicznych szeregów czasowych”.
- Makridakis, Spyros; Hibon, Michele; Moser, Mikołaj (1979). „Dokładność prognozowania: badanie empiryczne”. Dziennik Królewskiego Towarzystwa Statystycznego . Seria A (ogólna) . 142 (2): 97. doi : 10.2307/2345077 . JSTOR 2345077 . S2CID 173769248 .
- Makridakis, Spyros; Spiliotis, Evangelos; Assimakopoulos, Vassilios; Hernandez Montoya, Alejandro Raul (27 marca 2018). „Metody prognozowania statystyczne i uczenia maszynowego: obawy i możliwości na przyszłość” . PLOS JEDEN . 13 (3): e0194889. Bibcode : 2018PLoSO..1394889M . doi : 10.1371/journal.pone.0194889 . PMC 5870978 . PMID 29584784 .
- Makridakis, Spyros; Spiliotis, Evangelos; Assimakopoulos, Vassilios (październik 2018). „Konkurs M4: wyniki, ustalenia, wnioski i dalsze działania” . Międzynarodowy Dziennik Prognoz . 34 (4): 802–808. doi : 10.1016/j.ijforecast.2018.06.001 . S2CID 158696437 .
Linki zewnętrzne
- Zawody Makridakisa Informacje na stronie Otwartego Centrum Prognoz M
- https://github.com/Mcompetitions/ Repozytoria GitHub konkursów M4, M5 i M6