Zagreguj dane
Dane zagregowane to dane wysokiego poziomu , które uzyskuje się poprzez połączenie danych na poziomie indywidualnym. Na przykład produkcja przemysłowa jest sumą poszczególnych produkcji firm w ramach tej branży. Dane zagregowane znajdują zastosowanie w statystyce, hurtowniach danych oraz w ekonomii.
Istnieje rozróżnienie między danymi zagregowanymi a danymi indywidualnymi. Dane zbiorcze odnoszą się do indywidualnych danych, które są uśredniane według obszaru geograficznego, roku, agencji usługowej lub w inny sposób. Dane indywidualne są zdezagregowanymi wynikami indywidualnymi i służą do przeprowadzania analiz w celu oszacowania różnic w podgrupach.
Dane zagregowane są wykorzystywane głównie przez badaczy i analityków, decydentów, banki i administratorów z wielu powodów. Służą do oceny polityk, rozpoznawania trendów i wzorców procesów, uzyskiwania odpowiednich spostrzeżeń i oceny bieżących środków planowania strategicznego. Zbiorcze dane zebrane z różnych źródeł są wykorzystywane w różnych obszarach badań, takich jak porównawcza analiza polityczna i analiza naukowa APD do dalszych analiz. Dane zbiorcze są również wykorzystywane do celów medycznych i edukacyjnych. Dane zagregowane są szeroko stosowane, ale mają również pewne ograniczenia, w tym wyciąganie niedokładnych wniosków i fałszywych wniosków, co jest również określane jako „ błąd ekologiczny ”. „Błąd ekologiczny” oznacza, że użytkownicy nie mogą wyciągać wniosków na temat relacji ekologicznych między dwiema zmiennymi ilościowymi na poziomie indywidualnym.
Aplikacje
W statystyce dane zagregowane to dane połączone z kilku pomiarów. Gdy dane są agregowane, grupy obserwacji są zastępowane statystykami podsumowującymi opartymi na tych obserwacjach.
W hurtowni danych użycie danych zagregowanych radykalnie skraca czas wykonywania zapytań dotyczących dużych zestawów danych. Deweloperzy wstępnie podsumowują zapytania, które są regularnie używane, takie jak Tygodniowa sprzedaż, w kilku wymiarach , na przykład według hierarchii pozycji lub hierarchii geograficznej.
W ekonomii dane zagregowane lub agregaty danych to dane wysokiego poziomu, które składają się z wielu lub kombinacji innych, bardziej indywidualnych danych, takich jak:
- w makroekonomii dane takie jak ogólny poziom cen lub ogólna stopa inflacji ; I
- w mikroekonomii dane całego sektora gospodarki składającego się z wielu firm lub wszystkich gospodarstw domowych w mieście lub regionie.
Główni użytkownicy
Badacze i analitycy
Badacze wykorzystują dane zagregowane, aby zrozumieć dominujący etos , ocenić istotę rzeczywistości społecznej i organizacji społecznej, określić podstawowe problemy badawcze i przedstawić projekcje w odniesieniu do natury problemów społecznych. Dane zagregowane są przydatne dla badaczy, którzy są zainteresowani badaniem relacji między dwiema odrębnymi zmiennymi na poziomie zagregowanym oraz powiązań między zmienną zagregowaną a cechą na poziomie indywidualnym. Badacze podjęli również wysiłek krytycznej oceny polityk, praktyk i nakazów systemów za pomocą danych zbiorczych, aby zbadać odpowiednią przydatność i skuteczność .
Decydenci
Dane zagregowane są wykorzystywane przez rządy do opracowywania skuteczniejszej polityki, ponieważ służą jako miara tego, w jakim stopniu rząd jest świadomy żądań i potrzeb swoich obywateli oraz miara sposobu, w jaki rząd skutecznie utrzymuje porządek społeczny. Na przykład rządy na całym świecie wykorzystują zbiorcze dane o lokalizacji mobilnej do analiz w odpowiedzi na Covid-19. Zagregowane dane o lokalizacji mobilnej mogą dostarczyć wglądu w skuteczność dystansowania społecznego wprowadzonych przez rządy. Rządy wykorzystują również dane zbiorcze do identyfikowania potencjalnych „gorących punktów” i potencjału transmisji.
Oprócz prognozowania skuteczności polityki rządu, analizy danych zagregowanych służą również do oceny charakteru, oceny zasięgu, rozpoznania trendu i zbadania schematu określonego zjawiska lub procesu w celu opracowania strategii, przygotowania krótko- lub długoterminowych polityki długoterminowej oraz podjąć skuteczne i odpowiednie procedury kontroli lub zapobiegania. Decydenci wykorzystują również dane agregatów finansowych do oceny działalności gospodarczej i finansowej przedsiębiorstw oraz gospodarstw domowych, ponieważ dane te pomagają zidentyfikować zagrożenia związane ze stabilnością finansową . Decydenci polityczni mogą wykorzystywać dane zbiorcze, aby lepiej zrozumieć rozwój sytuacji gospodarczej i finansowej danego kraju.
Banki
Banki zbierają zagregowane dane od znacznej liczby klientów, a następnie anonimizują je poprzez eliminację danych osobowych. Głównym powodem, dla którego banki wykorzystują dane zagregowane, jest oszacowanie trendów ekonomicznych i uzyskanie wglądu w klastry klientów. Bankom nie wolno udostępniać danych osobowych klientów, ale dane zagregowane mogą być udostępniane klientom biznesowym banków i dostęp do nich mają inni partnerzy, którzy również korzystają z tej samej platformy w celu pozyskiwania informacji o danych zagregowanych.
W Australii Commonwealth Bank udostępnia swoim klientom biznesowym zanonimizowane dane dotyczące ich klientów, które pochodzą z transakcji kartowych. ANZ zapewnia również swoim klientom biznesowym anonimowe dane, które są gromadzone z milionów transakcji terminalowych handlowców i transakcji kartą ANZ.
W Wielkiej Brytanii, Integrated Urgent Care Aggregate Data Collection (IUC ADC) dostarcza wyczerpujących informacji na temat działalności IUC, jej wyników oraz zapotrzebowania na usługi. Jej dane pochodzą od wiodących dostawców danych odpowiedzialnych za oferowanie zintegrowanych usług pilnej opieki w Anglii. Narodowa Służba Zdrowia (NHS) podlegająca Departamentowi Zdrowia i Opieki Społecznej (DHSC) w Anglii stwierdziła, że ten zbiór zbiorczych danych zastąpi minimalny zestaw danych NHS 111. Będzie również używany jako formalne źródło statystyk IUC, a także do nadzorowania kluczowych wskaźników wydajności (KPI) IUC ADC.
Administratorzy
Krajowy lub regionalny poziom dostępnych danych empirycznych jest wykorzystywany przez administratorów i intelektualistów, a także osoby zainteresowane dobrem regionu lub społeczeństwa jako źródła odniesienia. W szczególności administratorzy wykorzystują dane zagregowane do oceny aktualnej atmosfery politycznej, religijnej, społecznej lub innej narodu, aby śledzić luki w reakcjach społecznych związanych z czasem i przestrzenią oraz dyktować priorytety działań. Oceny te pomagają administratorom w ocenie bieżących środków, które są przydatne w przyszłym planowaniu strategicznym i dostarczają wskaźników dotyczących skutecznych środków naprawczych.
Źródła i metody zbierania
Dane zbiorcze mogą być kompozycją różnego rodzaju pism i zapisów, w tym biografii , autobiografii , relacji opisowych i korespondencji. Na przykład badacz zbiera, zestawia lub kompiluje dane zbiorcze, wykorzystując wiele mechanizmów badań społecznych , w tym inwentaryzację , wywiad , opinię oraz kwestionariusz lub harmonogram . Oficjalne lub nieoficjalne agencje również na bieżąco gromadzą i kompilują dane zbiorcze, wykorzystując infrastrukturę dostępną w ramach departamentu na poziomie terenowym.
Źródła danych zagregowanych można również traktować jako narzędzia do odkrywania danych. W USA część danych z USA prezentowana jest w formie tabelarycznej. Przykłady źródeł tych zagregowanych danych ze Stanów Zjednoczonych obejmują Biuro Spisu Ludności Stanów Zjednoczonych , Statistical Abstract of the United States i Social Explorer. Dane Międzynarodowego Funduszu Walutowego , World DataBank i Penn World Table to przykłady transakcyjnych i międzynarodowych zbiorczych źródeł danych.
Wykorzystanie danych zagregowanych
Polityczna analiza porównawcza
Dane zagregowane są wykorzystywane w porównawczej analizie politycznej, ponieważ analitycy nie skupiają się tylko na zachowaniu jednostek. Koncentrują się również na zachowaniu jednostek terenowych, w tym okręgów wyborczych i narodów. W analizach działalności politycznej istotne dane, takie jak te dotyczące uprzemysłowienia , urbanizacji czy sieci komunikacji masowej, nie są łatwo wyrażane na poszczególnych poziomach. Wyraża się je w na mieszkańca , aby kontrolować różnice w wielkości populacji jednostek obszarowych . Dane zbiorcze są powszechnie dostępne, ponieważ dane demograficzne, społeczno-ekonomiczne i polityczne są gromadzone i publikowane przez narody. Ułatwia to badaczom i analitykom przeprowadzanie dłuższych badań trendów i umożliwia im głębsze skupienie się na zmianach i rozwiązaniach.
Metaanalizy naukowe APD
Czynniki, w tym potrzeba czasu, znacznych zasobów i szeroka współpraca międzynarodowa , utrudniały wykorzystanie metaanalizy danych poszczególnych pacjentów (IPD) , co doprowadziło do tego, że większość opublikowanych metaanaliz opierała się na zagregowanych danych pacjentów (APD). Aby uzyskać dane we wszystkich badaniach na wszystkich pacjentach, zbierane są zbiorcze dane pacjentów z zakończonych badań, prezentowane na spotkaniach specjalistów, publikowane w literaturze medycznej lub dostarczane bezpośrednio przez poszczególnych badaczy. Zagregowane dane pacjentów są wykorzystywane przez użytkowników, w tym Cochrane Collaboration, United States Preventive Services Task Force i wiele stowarzyszeń zawodowych, w celu zapewnienia wsparcia dla wytycznych dotyczących praktyki klinicznej. Zagregowane dane pacjentów są również wykorzystywane w badaniach metaanaliz dotyczących czasu do wystąpienia zdarzenia, ponieważ wyniki mogą informować inwestorów o tym, czy warto przystąpić do przeprowadzania większej liczby metaanaliz opartych na danych indywidualnych pacjentów wymagających dużych zasobów.
Inne zastosowania
Opieka zdrowotna
W systemie informacji zdrowotnej dane zagregowane to integracja danych dotyczących wielu pacjentów. Nie można śledzić konkretnego pacjenta na podstawie danych zbiorczych. Te zagregowane dane to tylko liczby, w tym gruźlica , malaria i inne choroby. Placówki ochrony zdrowia wykorzystują tego typu zagregowane statystyki do generowania raportów i wskaźników oraz do planowania strategicznego w swoich systemach opieki zdrowotnej. W porównaniu z danymi zagregowanymi dane pacjenta to indywidualne dane dotyczące pojedynczego pacjenta, w tym jego imię i nazwisko, wiek, diagnoza i historia medyczna. Dane dotyczące pacjentów są wykorzystywane głównie do śledzenia postępów pacjenta, takich jak reakcja pacjenta na określone leczenie w czasie.
Archiwum danych COVID-19, zwane także COVID-ARC, gromadzi dane z badań na całym świecie . Naukowcy mają dostęp do odkryć międzynarodowych kolegów i nawiązują współpracę w celu ułatwienia procesów związanych z walką z chorobą. W szczególności wykorzystanie zagregowanych danych dotyczących opieki zdrowotnej umożliwia podmiotom świadczącym opiekę zdrowotną odblokowywanie praktycznych spostrzeżeń klinicznych, gdy na przykład możliwe staje się dokładne przeglądanie danych klinicznych lub ciągłe rejestrowanie pacjentów.
Edukacja
Zagregowane dane, takie jak zagregowane dane demograficzne na poziomie szkoły i zagregowane dane dotyczące osiągnięć na poziomie szkoły, są wykorzystywane w analizie eksperymentalnej do oceny związków między osiągnięciami uczniów a interwencjami na poziomie szkoły. Dane zagregowane można również wykorzystać w analizach nieeksperymentalnych, takich jak regresji i analiza przerwanych szeregów czasowych. Dane na poziomie indywidualnym nie są wymagane w tych analizach nieeksperymentalnych. Na przykład analiza przerywanych szeregów czasowych pozwala oszacować wpływ programu na poziomie szkoły poprzez porównanie osiągnięć szkoły przed i po uruchomieniu programu, gdzie dane na poziomie indywidualnym nie są potrzebne.
Ograniczenia
Podczas procesu uśredniania jednostek w obrębie jakiegoś klastra lub w obrębie kraju dochodzi do utraty informacji, co zwiększa prawdopodobieństwo wyciągnięcia błędnych wniosków. Utrata informacji występuje, ponieważ agregacja danych ignoruje indywidualne zróżnicowanie, tak jakby był to tylko rodzaj statystycznego szumu lub błędu pomiaru. Wnioskowanie również różni się w zależności od przypadku, gdy do analizy wykorzystywane są dane poszczególnych firm lub dane zagregowane. Na przykład obliczenie średnich krajowych nie uwzględnia zmiennych specyficznych dla firmy, takich jak wielkość firmy, wiek firmy lub koncentracja własności firmy, ale obliczenie średnich indywidualnych już tak. Istnieją różnice między wynikami uzyskanymi z danych zagregowanych i danych indywidualnych.
Istnieje również problem „błędu ekologicznego”. Koncepcja została wprowadzona przez Robinsona (1950). Znaczenie tego terminu jest takie, że zmienność wokół średnich na poziomie indywidualnym znacznie różni się od zmienności obejmującej średnie zagregowane. Za pomocą koncepcji zagregowanej wyrażane są rzeczy inne niż indywidualne odpowiedniki danych zagregowanych, co oznacza, że nie można wyciągnąć wniosków na poziomie indywidualnym. Chociaż dane zagregowane mają szersze zastosowanie niż dane na poziomie indywidualnym, naukowcom trudniej jest poradzić sobie z analizą podgrup , gdy wykorzystywane są dane zagregowane. Ostatecznie mogą być również wymagane indywidualne informacje. Modelowanie wzrostu i podłużne na podstawie danych zagregowanych jest również trudne, ponieważ zmienne mogą zmieniać się w czasie.
Inne rodzaje danych zagregowanych
Dane agregatów finansowych
Dane agregatów finansowych to rodzaj zagregowanych danych o kredytach i podaży pieniądza w Australii, które są wykorzystywane przez decydentów do oceny zarówno gospodarstw domowych, jak i działalności gospodarczej i finansowej przedsiębiorstw.
Agregaty kredytowe
Agregaty kredytowe to pomiary pożyczek gospodarstw domowych i przedsiębiorstw od pośredników finansowych. Kwoty środków pożyczonych przez przedsiębiorstwa na cele, w tym inwestycje projektowe, zakup aktywów lub zarządzanie przepływami pieniężnymi, są również mierzone za pomocą agregatów kredytowych.
Agregaty pieniężne
Agregaty pieniężne to miary pieniądza lub instrumentów „pieniężnych” systemu bankowego, które są należne przedsiębiorstwom i gospodarstwom domowym. Przykładem instrumentu „pieniężnego” są depozyty na rachunku bankowym .
Zagregowane dane ze spisu powszechnego
W Wielkiej Brytanii zagregowane dane spisowe to dane generowane jako dane wyjściowe ze spisów powszechnych w Wielkiej Brytanii. Dostarczają informacji o społeczno-ekonomicznej i demograficznej charakterystyce ludności danego kraju. Stanowią one zestawienie zagregowanych lub zbiorczych obliczeń liczby osób, mieszkańców gospodarstw domowych lub rodzin na określonych obszarach geograficznych o określonych cechach lub złożeniu cech, wziętych z podmiotów i miejsc, populacji, rodzin, zdrowia, etniczność i religię, mieszkalnictwo i pracę.
Dane zagregowane są wykorzystywane jako składniki wyników spisów powszechnych w Wielkiej Brytanii. Pozyskuje się je z analizy informacji podanych w deklaracjach spisowych. Zagregowane dane ze spisu powszechnego są wykorzystywane do porównywania i opisywania cech populacji w różnych lokalizacjach w Wielkiej Brytanii, ponieważ są w stanie dostarczyć porównywalnych informacji na różnych poziomach geograficznych w całej Wielkiej Brytanii. Zagregowane dane spisowe są również wykorzystywane w sektorze akademickim do celów dydaktycznych i badawczych, a także do lokalizacji i marketingu w sektorze prywatnym.