Ponowna identyfikacja danych

Ponowna identyfikacja lub deanonimizacja danych to praktyka polegająca na dopasowywaniu danych anonimowych (znanych również jako dane pozbawione elementów umożliwiających identyfikację) z publicznie dostępnymi informacjami lub danymi pomocniczymi w celu odkrycia osoby , do której należą dane. Jest to niepokojące, ponieważ firmy posiadające politykę prywatności , podmioty świadczące opiekę zdrowotną i instytucje finansowe mogą udostępniać gromadzone dane po przejściu przez proces usuwania elementów umożliwiających identyfikację.

Proces pozbawiania elementów umożliwiających identyfikację obejmuje maskowanie, uogólnianie lub usuwanie zarówno bezpośrednich, jak i pośrednich identyfikatorów ; definicja tego procesu nie jest uniwersalna. Informacje znajdujące się w domenie publicznej , nawet pozornie zanonimizowane, mogą zatem zostać ponownie zidentyfikowane w połączeniu z innymi dostępnymi danymi i podstawowymi technikami informatycznymi. The Protection of Human Subjects („Common Rule#Signatories”), zbiór wielu agencji i departamentów federalnych Stanów Zjednoczonych, w tym Departamentu Zdrowia i Opieki Społecznej Stanów Zjednoczonych , spekuluje, że ponowna identyfikacja staje się stopniowo łatwiejsza dzięki „ dużym zbiorom danych ” — obfitość i stałe gromadzenie i analiza informacji wraz z ewolucją technologii i postępem algorytmów. Jednak inni twierdzili, że usunięcie danych identyfikacyjnych jest bezpiecznym i skutecznym narzędziem do uwalniania danych i nie postrzegają ponownej identyfikacji jako problemu.

Coraz więcej danych jest publicznie dostępnych w Internecie. Dane te są udostępniane po zastosowaniu pewnych technik anonimizacji, takich jak usunięcie danych osobowych (PII), takich jak nazwiska, adresy i numery ubezpieczenia społecznego, w celu zapewnienia prywatności źródeł. To zapewnienie prywatności umożliwia rządowi legalne udostępnianie ograniczonych zbiorów danych stronom trzecim bez konieczności uzyskania pisemnej zgody. Takie dane okazały się bardzo cenne dla badaczy, zwłaszcza w ochronie zdrowia.

Ryzyko ponownej identyfikacji jest znacznie zmniejszone dzięki pseudonimizacji zgodnej z RODO , która wymaga, aby danych nie można było przypisać konkretnej osobie, której dane dotyczą, bez użycia oddzielnie przechowywanych „dodatkowych informacji”. Spseudonimizowane dane zgodne z RODO są ucieleśnieniem najnowocześniejszej ochrony danych w fazie projektowania i domyślnie, ponieważ wymagają ochrony zarówno identyfikatorów bezpośrednich, jak i pośrednich (nie tylko bezpośrednich). Zasady RODO dotyczące ochrony danych w fazie projektowania i domyślnie, zawarte w pseudonimizacji, wymagają ochrony zarówno bezpośrednich, jak i pośrednich identyfikatorów, tak aby dane osobowe nie były odsyłane (lub ponownie identyfikowalne) za pośrednictwem efektu mozaiki bez dostępu do „dodatkowych informacji”, które są przechowywane oddzielnie przez sterownik. Ponieważ dostęp do oddzielnie przechowywanych „dodatkowych informacji” jest wymagany do ponownej identyfikacji, administrator może ograniczyć przypisywanie danych konkretnej osobie, której dane dotyczą, wyłącznie do celów zgodnych z prawem.

Prawne zabezpieczenia danych w Stanach Zjednoczonych

Istniejące przepisy dotyczące prywatności zazwyczaj chronią informacje, które zostały zmodyfikowane, tak że dane są uznawane za anonimowe lub pozbawione elementów umożliwiających identyfikację. Jeśli chodzi o informacje finansowe, Federalna Komisja Handlu zezwala na ich obieg, jeśli są pozbawione elementów umożliwiających identyfikację i zagregowane. Ustawa Gramm Leach Bliley (GLBA), która upoważnia instytucje finansowe do umożliwienia konsumentom rezygnacji z udostępniania ich informacji stronom trzecim, nie obejmuje danych pozbawionych elementów umożliwiających identyfikację, jeżeli informacje te są zbiorcze i nie zawierają identyfikatorów osobistych, ponieważ dane nie są traktowane jako dane osobowe .

Zapisy edukacyjne

Jeśli chodzi o dokumentację uniwersytecką, władze zarówno na szczeblu stanowym, jak i federalnym wykazały się świadomością kwestii prywatności w edukacji i niechęcią do ujawniania informacji przez instytucje. Departament Edukacji Stanów Zjednoczonych wydał wytyczne dotyczące dyskursu i identyfikacji danych, instruując instytucje edukacyjne, aby były wyczulone na ryzyko ponownej identyfikacji anonimowych danych poprzez odsyłacze z danymi pomocniczymi, aby zminimalizować ilość danych w domenie publicznej poprzez zmniejszenie publikowanie informacji katalogowych o studentach i pracownikach uczelni oraz zachowanie spójności w procesach deidentyfikacji.

Dokumentacja medyczna

Informacje medyczne pacjentów stają się coraz bardziej dostępne w Internecie, na bezpłatnych i ogólnodostępnych platformach, takich jak HealthData.gov i EmployersLikeMe , do czego zachęcają rządowe polityki otwartych danych i inicjatywy udostępniania danych prowadzone przez sektor prywatny. Chociaż ten poziom dostępności przynosi wiele korzyści, pojawiły się obawy dotyczące dyskryminacji i prywatności. Zabezpieczenia dokumentacji medycznej i danych konsumentów z aptek są silniejsze w porównaniu z innymi rodzajami danych konsumentów. Ustawa o przenośności i odpowiedzialności w ubezpieczeniach zdrowotnych (HIPAA) chroni prywatność identyfikowalnych danych dotyczących zdrowia, ale zezwala na udostępnianie informacji stronom trzecim, jeśli zostaną pozbawione elementów umożliwiających identyfikację. Ponadto nakazuje, aby pacjenci otrzymywali powiadomienia o naruszeniu, jeśli istnieje więcej niż niskie prawdopodobieństwo, że informacje pacjenta zostały niewłaściwie ujawnione lub wykorzystane bez wystarczającego złagodzenia szkody dla niego. Prawdopodobieństwo ponownej identyfikacji jest czynnikiem określającym prawdopodobieństwo, że informacje o pacjencie zostały naruszone. Zwykle apteki sprzedają zanonimizowane informacje zajmującym się eksploracją danych , które z kolei sprzedają je firmom farmaceutycznym.

Wprowadzono przepisy stanowe zakazujące eksploracji danych medycznych, ale zostały one obalone przez sądy federalne w Maine i New Hampshire na podstawie Pierwszej Poprawki. Inny sąd federalny w innej sprawie użył słowa „iluzoryczne”, aby opisać obawy dotyczące prywatności pacjentów i nie uznał ryzyka związanego z ponowną identyfikacją.

Próbka biologiczna

Zawiadomienie o proponowanym tworzeniu reguł, opublikowane przez agencje ds. wspólnych zasad we wrześniu 2015 r., rozszerzyło ogólne pojęcie „podmiotu ludzkiego” w badaniach o biopróbki lub materiały pobrane z ludzkiego ciała – krew, mocz, tkanki itp. Nakazuje to: badacze wykorzystujący biopróbki muszą przestrzegać surowszych wymagań dotyczących prowadzenia badań na ludziach. Powodem tego jest zwiększone ryzyko ponownej identyfikacji materiału biologicznego. Ostateczne poprawki potwierdziły to rozporządzenie.

Wysiłki ponownej identyfikacji

Odnotowano znaczną liczbę udanych prób ponownej identyfikacji w różnych dziedzinach. Nawet jeśli laikowi nie jest łatwo przełamać anonimowość, po ujawnieniu i nauczeniu się odpowiednich kroków, aby uzyskać dostęp do informacji w bazie danych, nie ma potrzeby posiadania wiedzy wyższego poziomu . Czasami wiedza techniczna nie jest nawet potrzebna, jeśli populacja ma unikalną kombinację identyfikatorów.

Książeczki zdrowia

W połowie lat 90. agencja rządowa w Massachusetts o nazwie Group Insurance Commission (GIC), która wykupiła ubezpieczenie zdrowotne dla pracowników stanu, zdecydowała się udostępnić rejestry wizyt w szpitalach każdemu badaczowi, który zażądał danych, bez żadnych kosztów. GIC zapewnił, że prywatność pacjenta nie stanowi problemu, ponieważ usunął identyfikatory, takie jak imię i nazwisko, adresy, numery ubezpieczenia społecznego. Jednak informacje takie jak kody pocztowe, data urodzenia i płeć pozostały nietknięte. Zapewnienie GIC zostało wzmocnione przez ówczesnego gubernatora Massachusetts, Williama Welda. Latanya Sweeney , ówczesna absolwentka, postanowiła wybrać zapisy gubernatora w danych GIC. Łącząc dane GIC z bazą danych wyborców miasta Cambridge, którą kupiła za 20 dolarów, z łatwością odkryto rekord gubernatora Welda.

W 1997 roku badaczowi udało się zdeanonimizować dokumentację medyczną, korzystając z baz danych wyborców.

W 2001 roku profesor Latanya Sweeney ponownie wykorzystał anonimowe zapisy wizyt szpitalnych i zapisy głosowań w stanie Waszyngton iz powodzeniem dopasował poszczególne osoby w 43% przypadków.

Istnieją algorytmy używane do ponownej identyfikacji pacjenta z informacjami o lekach na receptę.

Nawyki i praktyki konsumenckie

Dwóch naukowców z University of Texas , Arvind Narayanan i profesor Vitaly Shmatikov, było w stanie ponownie zidentyfikować część anonimowych danych rankingowych filmów Netflix z indywidualnymi konsumentami na stronie streamingowej. Dane zostały opublikowane przez Netflix 2006 po usunięciu elementów umożliwiających identyfikację, które polegało na zastąpieniu poszczególnych nazwisk losowymi numerami i przesunięciu danych osobowych. Dwaj badacze zdeanonimizowali niektóre dane, porównując je z ocenami filmów nieanonimowych użytkowników IMDb (Internet Movie Database). Stwierdzono, że bardzo niewiele informacji z bazy danych było potrzebnych do zidentyfikowania abonenta. W powstałym artykule badawczym pojawiły się zaskakujące rewelacje o tym, jak łatwo jest ponownie zidentyfikować użytkowników Netflix. Na przykład sama znajomość danych tylko o dwóch filmach, które użytkownik zrecenzował, w tym dokładnej oceny i daty oceny z dokładnością do trzech dni, pozwala na 68% ponownej identyfikacji.

W 2006 roku, po tym, jak AOL opublikował zapytania swoich użytkowników, dane, które zostały zanonimizowane przed publicznym udostępnieniem, reporterzy The New York Times z powodzeniem przeprowadzili ponowną identyfikację osób, biorąc pod uwagę grupy wyszukiwań przeprowadzonych przez anonimowych użytkowników. AOL próbował ukryć informacje identyfikujące, w tym nazwy użytkowników i adresy IP, ale zastąpił je unikalnymi numerami identyfikacyjnymi, aby zachować użyteczność tych danych dla badaczy. Po opublikowaniu blogerzy przeglądali dane, próbując zidentyfikować konkretnych użytkowników za pomocą tych treści lub wskazać zabawne, przygnębiające lub szokujące zapytania, na przykład „jak zabić żonę”, „depresja i leczenie wyjdź”, „zdjęcia z wypadku samochodowego”. Dwóm reporterom, Michaelowi Barbaro i Tomowi Zellerowi, udało się wytropić 62-letnią wdowę o imieniu Thelma Arnold, rozpoznając wskazówki dotyczące tożsamości użytkownika 417729 w historii wyszukiwania. Arnold przyznała, że ​​była autorką przeszukań, potwierdzając, że ponowna identyfikacja jest możliwa.

Dane lokalizacji

Dane dotyczące lokalizacji — serie pozycji geograficznych w czasie, które opisują miejsce pobytu i przemieszczanie się danej osoby — to klasa danych osobowych, którą szczególnie trudno zachować w anonimowości. Lokalizacja pokazuje powtarzające się wizyty w często odwiedzanych miejscach codziennego życia, takich jak dom, miejsce pracy, zakupy, opieka zdrowotna lub określone wzorce spędzania wolnego czasu. Samo usunięcie tożsamości osoby z danych lokalizacji nie spowoduje usunięcia możliwych do zidentyfikowania wzorców, takich jak rytmy dojazdów do pracy, miejsca do spania czy miejsca pracy. Dzięki mapowaniu współrzędnych na adresy dane o lokalizacji można łatwo ponownie zidentyfikować lub skorelować z kontekstem życia prywatnego danej osoby. Strumienie informacji o lokalizacji odgrywają ważną rolę w rekonstrukcji osobistych identyfikatorów na podstawie danych ze smartfonów, do których dostęp mają aplikacje.

Decyzje sądowe

W 2019 r. profesor Kerstin Noëlle Vokinger i dr Urs Jakob Mühlematter, dwaj naukowcy z Uniwersytetu w Zurychu , przeanalizowali sprawy Federalnego Sądu Najwyższego Szwajcarii , aby ocenić, które firmy farmaceutyczne i które leki były zaangażowane w działania prawne przeciwko Federalnemu Urzędowi ds. Zdrowia Publicznego (FOPH) w zakresie decyzji cenowych leków. Ogólnie rzecz biorąc, zaangażowane strony prywatne (takie jak firmy farmaceutyczne) oraz informacje, które mogłyby ujawnić stronę prywatną (na przykład nazwy leków), są anonimizowane w szwajcarskich wyrokach. Naukowcy byli w stanie ponownie zidentyfikować 84% odpowiednich anonimowych spraw Federalnego Sądu Najwyższego Szwajcarii, łącząc informacje z publicznie dostępnych baz danych. Osiągnięcie to zostało nagłośnione przez media i zapoczątkowało debatę, czy i jak należy anonimizować sprawy sądowe.

Obawy i konsekwencje

W 1997 roku Latanya Sweeney odkrył na podstawie badania spisów powszechnych, że do 87 procent populacji Stanów Zjednoczonych można zidentyfikować za pomocą kombinacji 5-cyfrowego kodu pocztowego , płci i daty urodzenia. Inni nie uważają, że ponowna identyfikacja jest poważnym zagrożeniem; twierdzą, że ponieważ kombinacja kodu pocztowego, daty urodzenia i płci jest rzadka lub częściowo kompletna, na przykład tylko rok i miesiąc urodzenia bez daty lub nazwa powiatu zamiast konkretnego kodu pocztowego, ryzyko takiego ponownego w wielu przypadkach identyfikacja jest ograniczona. [ potrzebne źródło ]

Nieuprawniona ponowna identyfikacja na podstawie takich kombinacji nie wymaga dostępu do oddzielnie przechowywanych „dodatkowych informacji”, które znajdują się pod kontrolą administratora danych, co jest obecnie wymagane w przypadku pseudonimizacji zgodnej z RODO.

Osoby, których dane są ponownie identyfikowane, są również narażone na ryzyko sprzedaży ich danych wraz z tożsamością organizacjom, które nie chcą, aby posiadały prywatne informacje o ich finansach, zdrowiu lub preferencjach. Ujawnienie tych danych może wywołać niepokój, wstyd lub zażenowanie. Po naruszeniu prywatności danej osoby w wyniku ponownej identyfikacji przyszłe naruszenia stają się znacznie łatwiejsze: po ustaleniu powiązania między jednym fragmentem danych a prawdziwą tożsamością danej osoby wszelkie powiązania między danymi a anonimową tożsamością naruszają anonimowość osoba.

Ponowna identyfikacja może narazić firmy, które zobowiązały się do zachowania anonimowości, na zwiększoną odpowiedzialność kontraktową lub deliktową i spowodować naruszenie ich polityki prywatności poprzez udostępnienie stronom trzecim informacji, które mogą zidentyfikować użytkowników po ponownej identyfikacji. Nie tylko będą naruszać zasady wewnętrzne, instytucje mogą również naruszać przepisy stanowe i federalne, takie jak przepisy dotyczące poufności finansowej lub prywatności medycznej .

Środki zaradcze

Aby zaradzić zagrożeniom związanym z ponowną identyfikacją, zaproponowano kilka propozycji:

  • Wyższe standardy i jednolita definicja usunięcia elementów umożliwiających identyfikację przy jednoczesnym zachowaniu użyteczności danych: definicja usunięcia elementów umożliwiających identyfikację powinna równoważyć ochronę prywatności w celu ograniczenia ryzyka ponownej identyfikacji z odmową usunięcia danych przez firmy
  • Zwiększona ochrona prywatności anonimowych informacji
  • Większe bezpieczeństwo baz danych przechowujących anonimowe informacje
  • Silny zakaz złośliwej ponownej identyfikacji, uchwalenie szerszej legislacji antydyskryminacyjnej i prywatności zapewniającej ochronę prywatności oraz zachęcającej do udziału w projektach i przedsięwzięciach udostępniania danych, a także ustanowienie jednolitych standardów ochrony danych w środowiskach akademickich, takich jak np. społeczności naukowej, w celu zminimalizowania naruszeń prywatności
  • Tworzenie zasad udostępniania danych: zapewnienie poprawności retoryki deidentyfikacyjnej, sporządzanie umów zakazujących prób ponownej identyfikacji i rozpowszechniania informacji wrażliwych, tworzenie enklaw danych oraz wykorzystywanie strategii opartych na danych w celu dopasowania wymaganych standardów ochrony do poziomu ryzyko.
  • Implementacja różnicowej prywatności na żądanych zestawach danych
  • Generowanie danych syntetycznych , które wykazują właściwości statystyczne surowych danych, bez możliwości identyfikacji prawdziwych osób

Chociaż nalegano na całkowity zakaz ponownej identyfikacji, egzekwowanie byłoby trudne. Istnieją jednak sposoby, w jakie ustawodawcy mogą zwalczać i karać wysiłki związane z ponowną identyfikacją, jeśli i kiedy zostaną one ujawnione: połącz zakaz z surowszymi karami i silniejszym egzekwowaniem przez Federalną Komisję Handlu i Federalne Biuro Śledcze ; przyznać ofiarom ponownej identyfikacji prawo do działania przeciwko tym, którzy dokonali ponownej identyfikacji; i nakazać ścieżki audytu oprogramowania dla osób, które wykorzystują i analizują zanonimizowane dane. Zakaz ponownej identyfikacji na niewielką skalę może również zostać nałożony na zaufanych odbiorców określonych baz danych, takich jak rządowi eksploratorzy danych lub badacze. Zakaz ten byłby znacznie łatwiejszy do wyegzekwowania i może zniechęcać do ponownej identyfikacji.

Przykłady deanonimizacji

  • „Naukowcy z MIT i Université catholique de Louvain w Belgii przeanalizowali dane 1,5 miliona użytkowników telefonów komórkowych w małym kraju europejskim na przestrzeni 15 miesięcy i odkryli, że tylko cztery punkty odniesienia, z dość niską rozdzielczością przestrzenną i czasową, zostały wystarczy, aby jednoznacznie zidentyfikować 95 procent z nich. Innymi słowy, aby wyodrębnić pełne informacje o lokalizacji pojedynczej osoby z „anonimowego” zbioru danych obejmującego ponad milion osób, wystarczy umieścić ją w kilkaset metrów nadajnika telefonu komórkowego, czasem w ciągu godziny, cztery razy w ciągu roku. Kilka postów na Twitterze prawdopodobnie dostarczyłoby wszystkich potrzebnych informacji, gdyby zawierały konkretne informacje o miejscu pobytu danej osoby.
  • „Tutaj donosimy, że nazwiska można odzyskać z osobistych genomów poprzez profilowanie krótkich powtórzeń tandemowych na chromosomie Y (Y-STR) i przeszukiwanie baz danych genetycznej genealogii rekreacyjnej. Pokazujemy, że połączenie nazwiska z innymi typami metadanych, takimi jak wiek i stan, mogą być użyte do triangulacji tożsamości celu”.

Zobacz też