Statystyczna kontrola ujawnień
Statystyczna kontrola ujawniania informacji ( SDC ), znana również jako ograniczenie ujawniania danych statystycznych ( SDL ) lub unikanie ujawniania informacji , jest techniką stosowaną w badaniach opartych na danych, aby upewnić się, że żadna osoba ani organizacja nie jest możliwa do zidentyfikowania na podstawie wyników analizy ankiet lub danych administracyjnych, lub w udostępnianiu mikrodanych . Celem SDC jest ochrona poufności respondentów i podmiotów badań.
SDC zwykle odnosi się do „wyjściowego SDC”; zapewnienie, że np. opublikowana tabela lub wykres nie ujawniają poufnych informacji o respondentach. SDC może również opisywać metody ochrony stosowane do danych: na przykład usuwanie nazwisk i adresów, ograniczanie wartości ekstremalnych lub zamianę problematycznych obserwacji. Jest to czasami określane jako „wejście SDC”, ale częściej jest nazywane anonimizacją , deidentyfikacją lub ochroną mikrodanych.
Podręczniki (np. ) zazwyczaj obejmują wejściowe SDC i ochronę danych tabelarycznych (ale nie inne części wyjściowego SDC). Wynika to z faktu, że te dwa problemy bezpośrednio interesują agencje statystyczne, które wspierały rozwój tej dziedziny. W środowiskach analitycznych na ogół stosowano reguły wyjściowe opracowane dla agencji statystycznych, dopóki menedżerowie danych nie zaczęli argumentować za określonym wyjściowym SDC dla badań.
Konieczność
Wiele rodzajów badań społecznych , ekonomicznych i zdrowotnych wykorzystuje potencjalnie wrażliwe dane jako podstawę swoich badań, takie jak dane z ankiet lub spisów powszechnych , rejestry podatkowe, rejestry zdrowotne, informacje edukacyjne itp. Takie informacje są zwykle podawane jako poufne, a w w przypadku danych administracyjnych , nie zawsze w celach badawczych.
Badacze zazwyczaj nie są zainteresowani informacjami o pojedynczej osobie lub firmie; szukają trendów wśród większych grup ludzi. Jednak dane, z których korzystają, są przede wszystkim powiązane z poszczególnymi osobami i firmami, a SDC zapewnia, że nie można ich zidentyfikować na podstawie opublikowanych danych, bez względu na to, jak szczegółowe lub szerokie.
Możliwe, że na koniec analizy danych badacz w jakiś sposób wyodrębni jedną osobę lub firmę poprzez swoje badania. Na przykład badacz może zidentyfikować wyjątkowo dobrą lub złą obsługę na oddziale geriatrycznym w szpitalu na odludziu, gdzie tylko jeden szpital zapewnia taką opiekę. W takim przypadku analiza danych „ujawnia” tożsamość szpitala, nawet jeśli zbiór danych wykorzystany do analizy został odpowiednio zanonimizowany lub pozbawiony elementów umożliwiających identyfikację.
Statystyczna kontrola ujawnień pozwoli zidentyfikować to ryzyko ujawnienia i zapewnić, że wyniki analizy zostaną zmienione w celu ochrony poufności. Wymaga to równowagi między ochroną poufności a zapewnieniem, że wyniki analizy danych są nadal przydatne w badaniach statystycznych .
Wyjście SDC
Istnieją dwa główne podejścia do wyjściowego SDC: oparte na zasadach i oparte na zasadach. W systemach opartych na zasadach kontrola ujawniania ma na celu przestrzeganie określonego zestawu podstawowych zasad - na przykład „żadna osoba nie powinna być możliwa do zidentyfikowania w opublikowanych mikrodanych”. Z kolei systemy oparte na regułach opierają się na określonym zbiorze zasad, których przestrzega osoba przeprowadzająca kontrolę ujawnień, po których zakłada się, że dane można bezpiecznie udostępnić. Ogólnie rzecz biorąc, oficjalne statystyki opierają się na zasadach; środowiska badawcze są bardziej oparte na zasadach.
W środowiskach badawczych wybór systemu sprawdzania wyników może mieć istotne implikacje operacyjne.
SDC oparte na regułach
W SDC opartym na regułach stosuje się sztywny zestaw reguł w celu określenia, czy wyniki analizy danych mogą zostać ujawnione. Reguły są konsekwentnie stosowane, dzięki czemu wiadomo, jakie rodzaje wyników są dopuszczalne. Systemy oparte na regułach dobrze zapewniają spójność w czasie, między źródłami danych i między zespołami produkcyjnymi, co czyni je atrakcyjnymi dla agencji statystycznych. Systemy oparte na regułach sprawdzają się również w przypadku zdalnych usług pracy, takich jak microdata.no czy Lissy .
Ponieważ jednak zasady są nieelastyczne, albo ujawnione informacje mogą nadal się przedostać, albo zasady są zbyt restrykcyjne i mogą zezwalać tylko na wyniki, które są zbyt ogólne, aby można je było opublikować w przydatnej analizie. W praktyce środowiska badawcze obsługujące systemy oparte na regułach mogą być zmuszone do zapewnienia elastyczności w systemach „ad hoc”.
Agencja Statystyki i Badań Irlandii Północnej stosuje podejście oparte na zasadach do publikowania statystyk i wyników badań.
SDC oparte na zasadach
W SDC opartym na zasadach zarówno badacz, jak i weryfikator wyników są szkoleni w zakresie SDC. Otrzymują zestaw zasad, które są raczej praktycznymi zasadami niż twardymi zasadami, jak w SDC opartym na zasadach. Oznacza to, że w zasadzie każde wyjście może zostać zatwierdzone lub odrzucone. Zasady praktyczne są punktem wyjścia dla badacza. Badacz może zażądać wyników, które naruszają „praktyczne zasady”, o ile (1) są one nieujawniające (2) są ważne i (3) jest to prośba wyjątkowa. Do badacza należy udowodnienie, że wszelkie „niebezpieczne” wyniki są nieujawniające, ale weryfikator ma ostatnie słowo. Ponieważ nie ma sztywnych zasad, wymaga to wiedzy na temat zagrożeń związanych z ujawnianiem informacji oraz osądu zarówno od badacza, jak i weryfikatora. Wymaga przeszkolenia i zrozumienia statystyk i analizy danych, chociaż argumentowano, że można to wykorzystać do zwiększenia wydajności procesu niż model oparty na regułach.
Brytyjska usługa danych stosuje oparte na zasadach podejście do kontroli ujawniania danych statystycznych w ramach usługi Secure Data Service.
Krytyka
Wykazano, że wiele współczesnych technik kontroli ujawnień statystycznych, takich jak uogólnianie i pomijanie komórek, jest podatnych na atak hipotetycznego intruza danych. Na przykład Cox wykazał w 2009 r., że tłumienie komórek komplementarnych zazwyczaj prowadzi do rozwiązań „nadmiernie chronionych” ze względu na konieczność tłumienia zarówno komórek pierwotnych, jak i komplementarnych, a nawet wtedy może prowadzić do naruszenia wrażliwych danych, gdy podawane są dokładne odstępy czasu.
Bardziej merytoryczna krytyka dotyczy tego, że modele teoretyczne stosowane do badania środków kontroli nie nadają się do wytycznych dotyczących działań praktycznych. Hafner i wsp. podają praktyczny przykład tego, jak zmiana perspektywy może generować zasadniczo odmienne wyniki.
Narzędzia
mu-Argus i sdcMicro to narzędzia typu open source do wprowadzania SDC.
tau-Argus i sdcTable to narzędzia typu open source do ochrony danych tabelarycznych.