Projekt GDELT
Projekt GDELT , czyli globalna baza danych zdarzeń, języka i tonu , stworzony przez Kalev Leetaru z Yahoo! i Georgetown University , wraz z Philipem Schrodtem i innymi, opisuje siebie jako „inicjatywę mającą na celu zbudowanie katalogu ludzkich zachowań i przekonań na skalę społeczną we wszystkich krajach świata, łączącego każdą osobę, organizację, lokalizację, liczbę, temat, źródło wiadomości i wydarzenie na całej planecie w jedną ogromną sieć, która każdego dnia rejestruje to, co dzieje się na całym świecie, jaki jest kontekst i kto jest w to zaangażowany oraz jak świat się z tym czuje”. Wczesne badania prowadzące do powstania GDELT zostały opisane przez współtwórcę Philipa Schrodta w artykule konferencyjnym w styczniu 2011 r. Zbiór danych jest dostępny na Platforma Google Cloud .
Dane
GDELT zawiera dane od 1979 do chwili obecnej. Dane są dostępne w postaci plików ZIP w formacie wartości rozdzielanych tabulatorami przy użyciu rozszerzenia CSV w celu łatwego importu do programu Microsoft Excel lub podobnego arkusza kalkulacyjnego. Dane z lat 1979-2005 dostępne są w postaci jednego pliku ZIP rocznie, przy czym rozmiar pliku stopniowo wzrastał z 14,3 MB w 1979 r. nagranie. Pliki danych od stycznia 2006 r. do marca 2013 r. są dostępne z dokładnością miesięczną, przy czym rozmiar spakowanego pliku wzrósł z 11 MB w styczniu 2006 r. do 103,2 MB w marcu 2013 r. Pliki danych od 1 kwietnia 2013 r. są dostępne z szczegółowością dzienną. Plik danych dla każdego dnia jest udostępniany do godziny 6:00 Wschodniego czasu standardowego następnego dnia. Od czerwca 2014 rozmiar dziennego spakowanego pliku wynosi około 5-12 MB. Pliki danych używają Conflict and Mediation Event Observations (CAMEO) do rejestrowania zdarzeń.
W poście na blogu dla Foreign Policy współtwórca Kalev Leetaru próbował wykorzystać dane GDELT, aby odpowiedzieć na pytanie, czy Arabska Wiosna wywołała protesty na całym świecie, używając ilorazu liczby wydarzeń związanych z protestami do całkowitej liczby wydarzeń zarejestrowanych jako miara intensywności protestu , dla której następnie badano trend czasowy. Politolog i ekspert w dziedzinie analizy danych/prognozowania, Jay Ulfelder skrytykował post na swoim osobistym blogu, mówiąc, że metoda normalizacji Leetaru mogła nie uwzględniać odpowiednio zmiany w charakterze i składzie relacji w mediach.
Zbiór danych jest również dostępny w Google Cloud Platform i można uzyskać do niego dostęp za pomocą Google BigQuery .
Przyjęcie
Recepcja akademicka
GDELT był cytowany i używany w wielu badaniach akademickich, takich jak badanie wizualnej i predykcyjnej analizy wiadomości z Singapuru (wraz z Wikipedią i Straits Times Index ) oraz badanie konfliktu politycznego.
Problem wyzwania na Międzynarodowej Konferencji Social Computing, Behavioural Modeling and Prediction 2014 (SBP) poprosił uczestników o zbadanie GDELT i zastosowanie go do analizy sieci społecznościowych , zachowania i przewidywania.
Recepcja na blogach iw mediach
GDELT został omówiony na stronie internetowej Centrum Innowacji Danych oraz GIS Lounge. Był również omawiany i krytykowany na blogach dotyczących przemocy politycznej i przewidywania kryzysów. Zbiór danych był wielokrotnie cytowany i krytykowany w „Foreign Policy” , w tym w dyskusjach na temat wydarzeń politycznych w Syrii , arabskiej wiośnie i Nigerii . Cytowano go również w New Scientist , na stronie internetowej FiveThirtyEight i na blogu Andrew Sullivana .
Blog Predictive Heuristics i inne blogi porównały GDELT ze zintegrowanym systemem wczesnego ostrzegania o konfliktach (ICEWS). Alex Hanna napisała na blogu o swoim eksperymencie oceniającym GDELT za pomocą ręcznie zakodowanych danych, porównując je ze zbiorem danych Dynamics of Collective Action.
W maju 2014 r. blog Google Cloud Platform ogłosił, że cały zbiór danych GDELT będzie dostępny jako publiczny zbiór danych w Google BigQuery .