Statystyka obliczeniowa
Statystyka obliczeniowa lub obliczenia statystyczne to łącznik między statystyką a informatyką . Oznacza to metody statystyczne, które są możliwe dzięki zastosowaniu metod obliczeniowych. Jest to dziedzina nauk obliczeniowych (lub obliczeń naukowych) specyficzna dla matematycznej nauki statystyki . Ten obszar również szybko się rozwija, co prowadzi do wezwań do nauczania szerszego pojęcia informatyki w ramach ogólnej edukacji statystycznej .
Podobnie jak w tradycyjnej statystyce , celem jest przekształcenie surowych danych w wiedzę , ale główny nacisk kładzie się na komputerowe metody statystyczne , takie jak przypadki z bardzo dużą próbą i niejednorodnymi zbiorami danych .
Terminy „statystyka obliczeniowa” i „obliczenia statystyczne” są często używane zamiennie, chociaż Carlo Lauro (były prezes Międzynarodowego Stowarzyszenia Informatyki Statystycznej ) zaproponował rozróżnienie, definiując „obliczenia statystyczne” jako „zastosowanie informatyki do statystyki ”, a „statystyka obliczeniowa” jako „mająca na celu zaprojektowanie algorytmu implementacji metod statystycznych na komputerach, w tym nie do pomyślenia przed erą komputerów (np. bootstrap , symulacja ), a także radzenia sobie z trudnymi analitycznie problemami” [ sic ] .
Termin „statystyka obliczeniowa” może być również używany w odniesieniu do metod statystycznych wymagających dużej mocy obliczeniowej, w tym metod ponownego próbkowania , metod łańcucha Markowa Monte Carlo , regresji lokalnej , szacowania gęstości jądra , sztucznych sieci neuronowych i uogólnionych modeli addytywnych .
Historia
Chociaż statystyka obliczeniowa jest obecnie szeroko stosowana, w rzeczywistości ma stosunkowo krótką historię akceptacji w społeczności statystycznej . W większości założyciele dziedziny statystyki opierali się na matematyce i asymptotycznych przybliżeniach w rozwoju obliczeniowej metodologii statystycznej.
W dziedzinie statystyki pierwsze użycie terminu „komputer” pojawia się w artykule w archiwach Journal of the American Statistical Association autorstwa Roberta P. Portera z 1891 r. W artykule omówiono użycie maszyny Hermanna Holleritha w 11. Spisie Ludności Stanów Zjednoczonych. Maszyna Hermanna Holleritha, zwana także maszyną tabulacyjną , była maszyną elektromechaniczną zaprojektowaną do pomocy w podsumowywaniu informacji zapisanych na kartach perforowanych . Wynalazł ją Herman Hollerith (29 lutego 1860 – 17 listopada 1929), amerykański biznesmen, wynalazca i statystyk. Jego wynalazek maszyny do tworzenia zestawień kart perforowanych został opatentowany w 1884 r., A później został wykorzystany w spisie powszechnym Stanów Zjednoczonych z 1890 r . Zalety tej technologii były natychmiast widoczne. spis powszechny z 1880 r., obejmujący około 50 milionów ludzi, a zestawienie zajęło ponad 7 lat. W spisie powszechnym z 1890 r., obejmującym ponad 62 miliony ludzi, zajęło to mniej niż rok. Oznacza to początek ery zmechanizowanej statystyki obliczeniowej i półautomatycznych przetwarzania danych .
W 1908 roku William Sealy Gosset przeprowadził swoją znaną już symulację metodą Monte Carlo , która doprowadziła do odkrycia rozkładu t-Studenta . Za pomocą metod obliczeniowych ma również wykresy rozkładów empirycznych nałożonych na odpowiednie rozkłady teoretyczne. Komputer zrewolucjonizował symulację i sprawił, że replikacja eksperymentu Gosseta stała się czymś więcej niż tylko ćwiczeniem.
Później naukowcy zaproponowali obliczeniowe sposoby generowania odchyleń pseudolosowych , wykonali metody przekształcania odchyleń jednolitych w inne formy dystrybucji przy użyciu odwrotnej skumulowanej funkcji dystrybucji lub metod akceptacji-odrzucenia oraz opracowali metodologię przestrzeni stanów dla łańcucha Markowa Monte Carlo . Jedna z pierwszych prób generowania losowych cyfr w sposób w pełni zautomatyzowany została podjęta przez RAND Corporation w 1947 roku. tablice zostały opublikowane w 1955 roku jako książka , a także jako seria kart perforowanych.
Do połowy lat pięćdziesiątych zaproponowano kilka artykułów i patentów na urządzenia do generatorów liczb losowych . Rozwój tych urządzeń był motywowany potrzebą użycia losowych cyfr do przeprowadzania symulacji i innych podstawowych elementów analizy statystycznej. Jednym z najbardziej znanych takich urządzeń jest ERNIE, które generuje losowe liczby, które określają zwycięzców Premium Bond , loteryjnej obligacji emitowanej w Wielkiej Brytanii. W 1958 roku opracowano scyzoryk Johna Tukeya . Jest to metoda zmniejszania błędu oszacowań parametrów w próbkach w niestandardowych warunkach. Wymaga to komputerów do praktycznych wdrożeń. Do tego momentu komputery umożliwiły wykonanie wielu żmudnych badań statystycznych.
Metody
Oszacowanie maksymalnego prawdopodobieństwa
Oszacowanie największej wiarygodności służy do oszacowania parametrów założonego rozkładu prawdopodobieństwa , biorąc pod uwagę niektóre zaobserwowane dane. Osiąga się to poprzez maksymalizację funkcji wiarygodności tak, aby obserwowane dane były jak najbardziej prawdopodobne w ramach przyjętego modelu statystycznego .
Metoda Monte Carlo
Monte Carlo metoda statystyczna polega na powtarzanym losowym pobieraniu próbek w celu uzyskania wyników liczbowych. Koncepcja polega na wykorzystaniu losowości do rozwiązywania problemów, które z zasady mogą być deterministyczne . Są często używane w problemach fizycznych i matematycznych i są najbardziej przydatne, gdy trudno jest zastosować inne podejścia. Metody Monte Carlo są stosowane głównie w trzech klasach problemów: optymalizacja , całkowanie numeryczne i generowanie losowań z rozkładu prawdopodobieństwa .
Łańcuch Markowa Monte Carlo
Metoda Monte Carlo łańcucha Markowa tworzy próbki z ciągłej zmiennej losowej o gęstości prawdopodobieństwa proporcjonalnej do znanej funkcji. Próbki te mogą być użyte do oszacowania całki po tej zmiennej, jako jej wartości oczekiwanej lub wariancji . Im więcej uwzględnionych jest kroków, tym bardziej rozkład próbki pasuje do rzeczywistego pożądanego rozkładu.
Aplikacje
- Biologia obliczeniowa
- Lingwistyka komputerowa
- Fizyka obliczeniowa
- Matematyka obliczeniowa
- Obliczeniowa nauka o materiałach
Czasopisma statystyki obliczeniowej
- Komunikacja w statystyce - symulacja i obliczenia
- Statystyka obliczeniowa
- Statystyka obliczeniowa i analiza danych
- Journal of Computational and Graphical Statistics
- Dziennik obliczeń statystycznych i symulacji
- Dziennik oprogramowania statystycznego
- Dziennik R
- Dziennik Statystyczny
- Statystyka i informatyka
- Statystyki obliczeniowe recenzji interdyscyplinarnych Wiley
Wspomnienia
Zobacz też
- Algorytmy klasyfikacji statystycznej
- Nauka o danych
- Metody statystyczne w sztucznej inteligencji
- Darmowe oprogramowanie statystyczne
- Lista algorytmów statystycznych
- Lista pakietów statystycznych
- Nauczanie maszynowe
- ^ Nolan, D. i Temple Lang, D. (2010). „Obliczenia w programach statystycznych”, The American Statistician 64 (2), s. 97-107.
- ^ a b Wegman, Edward J. „ Statystyka obliczeniowa: nowy program teorii i praktyki statystycznej. „ Journal of the Washington Academy of Sciences” , t. 78, nr. 4, 1988, s. 310–322. JSTOR
- Bibliografia Linki _ _ _ _ _ _ zewnętrzne
- ^ Watnik, Mitchell (2011). „Wczesne statystyki obliczeniowe” . Journal of Computational and Graphical Statistics . 20 (4): 811–817. doi : 10.1198/jcgs.2011.204b . ISSN 1061-8600 . S2CID 120111510 .
- Bibliografia _ Oddział, KB (1975-10-27). „Modele atomowe szkieletów polipeptydowych miohemerytryny i hemerytryny” . Komunikaty dotyczące badań biochemicznych i biofizycznych . 66 (4): 1349-1356. doi : 10.1016/0006-291x(75)90508-2 . ISSN 1090-2104 . PMID 5 .
-
^
„Nauka z Los Alamos, numer 14” . 1986-01-01. doi : 10.2172/6935980 .
{{ cite journal }}
: Cite journal wymaga|journal=
( pomoc ) -
^
Trahan, Travis John (2019-10-03). „Najnowsze postępy w metodach Monte Carlo w Los Alamos National Laboratory” . doi : 10.2172/1569710 . OSTI 1569710 .
{{ cite journal }}
: Cite journal wymaga|journal=
( pomoc ) - ^ Metropolis, Mikołaj; Ulam, S. (1949). „Metoda Monte Carlo” . Dziennik Amerykańskiego Towarzystwa Statystycznego . 44 (247): 335–341. doi : 10.1080/01621459.1949.10483310 . ISSN 0162-1459 . PMID 18139350 .
- ^ Robert, chrześcijanin; Casella, George (2011-02-01). „Krótka historia łańcucha Markowa Monte Carlo: subiektywne wspomnienia z niepełnych danych” . Nauka statystyczna . 26 (1). doi : 10.1214/10-sts351 . ISSN 0883-4237 . S2CID 2806098 .
- Bibliografia _
- ^ QUENOUILLE, MH (1956). „Uwagi na temat odchylenia w oszacowaniu” . Biometria . 43 (3–4): 353–360. doi : 10.1093/biomet/43.3-4.353 . ISSN 0006-3444 .
- ^ Teichroew, Daniel (1965). „Historia pobierania próbek dystrybucji przed erą komputera i jej znaczenie dla symulacji” . Dziennik Amerykańskiego Towarzystwa Statystycznego . 60 (309): 27–49. doi : 10.1080/01621459.1965.10480773 . ISSN 0162-1459 .
Dalsza lektura
Artykuły
- Albert, JH; Delikatny, JE (2004), Albert, James H; Delikatny, James E (red.), „Sekcja specjalna: nauczanie statystyki obliczeniowej”, The American Statistician , 58 : 1, doi : 10.1198/0003130042872 , S2CID 219596225
- Wilkinson, Leland (2008), „Przyszłość obliczeń statystycznych (z dyskusją)”, Technometrics , 50 (4): 418–435, doi : 10.1198/004017008000000460 , S2CID 3521989
Książki
- Drew, John H.; Evans, Diane L .; Glen, Andrew G.; Lemis, Lawrence M. (2007), Prawdopodobieństwo obliczeniowe: algorytmy i zastosowania w naukach matematycznych , Springer International Series in Operations Research & Management Science, Springer, ISBN 978-0-387-74675-3
- Delikatny, James E. (2002), Elementy statystyki obliczeniowej , Springer, ISBN 0-387-95489-9
- Delikatny, James E.; Hardle, Wolfgang; Mori, Yuichi, wyd. (2004), Podręcznik statystyki obliczeniowej: koncepcje i metody , Springer, ISBN 3-540-40464-3
- Givens, Geof H.; Hoeting, Jennifer A. (2005), Statystyka obliczeniowa , Seria Wileya w prawdopodobieństwie i statystyce, Wiley-Interscience, ISBN 978-0-471-46124-1
- Klemens, Ben (2008), Modelowanie z danymi: narzędzia i techniki obliczeń statystycznych , Princeton University Press, ISBN 978-0-691-13314-0
- Monahan, John (2001), Numeryczne metody statystyki , Cambridge University Press, ISBN 978-0-521-79168-7
- Róża, Colin; Smith, Murray D. (2002), Statystyka matematyczna z Mathematica , Springer Texts in Statistics, Springer, ISBN 0-387-95234-9
- Thisted, Ronald Aaron (1988), Elementy obliczeń statystycznych: obliczenia numeryczne , CRC Press, ISBN 0-412-01371-1
- Gharieb, Reda. R. (2017), Nauka o danych: obliczenia naukowe i statystyczne , Noor Publishing, ISBN 978-3-330-97256-8
Linki zewnętrzne
Wspomnienia
- Międzynarodowe Stowarzyszenie Obliczeń Statystycznych
- Sekcja Informatyki Statystycznej Amerykańskiego Towarzystwa Statystycznego