dplyr
Oryginalni autorzy | Hadleya Wickhama |
---|---|
Pierwsze wydanie | 7 stycznia 2014 |
Wersja stabilna | 1.1.0 / 29 stycznia 2023 r
|
Napisane w | R |
Licencja | Licencja MIT |
Strona internetowa |
Jeden z podstawowych pakietów tidyverse w języku programowania R , dplyr to przede wszystkim zestaw funkcji zaprojektowanych w celu umożliwienia manipulacji ramkami danych w intuicyjny, przyjazny dla użytkownika sposób. Analitycy danych zazwyczaj używają dplyr w celu przekształcenia istniejących zestawów danych w format lepiej dopasowany do określonego typu analizy lub wizualizacji danych.
Na przykład ktoś, kto chce przeanalizować ogromny zbiór danych, może chcieć wyświetlić tylko mniejszy podzbiór danych. Alternatywnie użytkownik może chcieć zmienić kolejność danych, aby zobaczyć wiersze uszeregowane według pewnej wartości liczbowej lub nawet w oparciu o kombinację wartości z oryginalnego zestawu danych.
, którego autorem jest głównie Hadley Wickham , został uruchomiony w 2014 roku. Na stronie internetowej dplyr pakiet jest opisany jako „gramatyka manipulacji danymi, zapewniająca spójny zestaw czasowników, które pomagają rozwiązywać najczęstsze wyzwania związane z manipulacją danymi”.
Pięć podstawowych czasowników
Podczas gdy dplyr faktycznie zawiera kilkadziesiąt funkcji, które umożliwiają różne formy manipulacji danymi, pakiet zawiera pięć podstawowych czasowników:
filter() , który służy do wyodrębniania wierszy z ramki danych na podstawie warunków określonych przez użytkownika;
select() , która służy do podzbioru ramki danych według jej kolumn;
Arrange() , która służy do sortowania wierszy w ramce danych na podstawie atrybutów posiadanych przez poszczególne kolumny;
mutate() , która służy do tworzenia nowych zmiennych poprzez zmianę i/lub łączenie wartości z istniejących kolumn; I
summarise() , pisane również summarise() , które służy do zwijania wartości z ramki danych w pojedyncze podsumowanie.
Dodatkowe funkcje
Oprócz pięciu głównych czasowników, dplyr zawiera również kilka innych funkcji, które umożliwiają eksplorację i manipulację ramkami danych. Wśród nich są:
count() , która służy do sumowania liczby unikalnych obserwacji, które zawierają określoną wartość lub atrybut kategoryczny;
rename() , która umożliwia użytkownikowi zmianę nazw kolumn dla zmiennych, często w celu poprawy łatwości użytkowania i intuicyjnego zrozumienia zestawu danych;
slice_max() , która zwraca podzbiór danych zawierający wiersze z największą liczbą wartości dla określonej zmiennej;
slice_min() , która zwraca podzbiór danych zawierający wiersze z najmniejszą liczbą wartości dla określonej zmiennej.
Wbudowane zestawy danych
Pakiet dplyr zawiera pięć zestawów danych. Są to: band_instruments, band_instruments2, band_members, starwars, storms.
Prawa autorskie i licencja
Prawa autorskie do dplyr należą do Posit PBC , dawniej RStudio PBC. Dplyr został pierwotnie wydany na licencji GPL [ potrzebne źródło ] , ale w 2022 roku Posit zmienił warunki licencji pakietu na „bardziej liberalną” licencję MIT . Główna różnica między tymi dwoma rodzajami licencji polega na tym, że licencja MIT umożliwia późniejsze ponowne wykorzystanie kodu w oprogramowaniu własnościowym, podczas gdy licencja GPL nie.