Profilowanie (informatyka)

W informatyce profilowanie odnosi się do procesu konstruowania i stosowania profili użytkowników generowanych w wyniku komputerowej analizy danych .

Jest to wykorzystanie algorytmów lub innych technik matematycznych, które pozwalają na odkrycie wzorców lub korelacji w dużych ilościach danych, zagregowanych w bazach danych . Kiedy te wzorce lub korelacje są wykorzystywane do identyfikacji lub reprezentowania ludzi, można je nazwać profilami . Poza omówieniem technologii profilowania czy profilowania populacji , pojęcie profilowania w tym sensie nie dotyczy tylko konstruowania profili, ale dotyczy także zastosowania profile grupowe na indywidualne, np. g. w przypadkach scoringu kredytowego , dyskryminacji cenowej czy identyfikacji zagrożeń bezpieczeństwa ( Hildebrandt i Gutwirth 2008 ) ( Elmer 2004 ).

Profilowanie jest wykorzystywane w zapobieganiu oszustwom , analizie otoczenia i analityce konsumenckiej . Statystyczne metody profilowania obejmują odkrywanie wiedzy w bazach danych (KDD).

Proces profilowania

Techniczny proces profilowania można podzielić na kilka etapów:

  • Wstępne podstawy: Proces profilowania rozpoczyna się od określenia odpowiedniej domeny problemowej i identyfikacji celów analizy.
  • Zbieranie danych : Docelowy zbiór danych lub baza danych do analizy jest tworzona poprzez wybór odpowiednich danych w świetle istniejącej wiedzy dziedzinowej i zrozumienia danych.
  • Przygotowanie danych : Dane są wstępnie przetwarzane w celu usunięcia szumów i zmniejszenia złożoności poprzez wyeliminowanie atrybutów.
  • Eksploracja danych : dane są analizowane za pomocą algorytmu lub heurystyki opracowanej w celu dopasowania do danych, modelu i celów.
  • Interpretacja: Wydobyte wzorce są oceniane pod kątem ich przydatności i ważności przez specjalistów i/lub specjalistów w dziedzinie zastosowania (np. z wyłączeniem fałszywych korelacji).
  • Zastosowanie: Skonstruowane profile stosowane są np. do kategorii osób w celu testowania i dostrajania algorytmów.
  • Decyzja instytucjonalna: Instytucja decyduje, jakie działania lub zasady zastosować wobec grup lub osób, których dane pasują do odpowiedniego profilu.

Gromadzenie, przygotowanie i eksploracja danych należą do fazy, w której profil jest w trakcie tworzenia. Jednakże profilowanie odnosi się również do stosowania profili, czyli wykorzystywania profili do identyfikacji lub kategoryzacji grup lub pojedynczych osób. Jak widać w kroku szóstym (aplikacja), proces ten ma charakter kołowy. Istnieje pętla sprzężenia zwrotnego pomiędzy konstrukcją a zastosowaniem profili. Interpretacja profili może prowadzić do powtarzalnego – możliwie w czasie rzeczywistym – dostrajania konkretnych poprzednich etapów procesu profilowania. Zastosowanie profili do osób, których dane nie zostały wykorzystane do skonstruowania profilu, opiera się na dopasowywaniu danych, które dostarcza nowych danych, które pozwalają na dalsze dostosowania. Proces profilowania ma charakter zarówno dynamiczny, jak i adaptacyjny. Dobrą ilustracją dynamicznego i adaptacyjnego charakteru profilowania jest międzybranżowy standardowy proces eksploracji danych ( CRISP-DM ).

Rodzaje praktyk profilowania

Aby wyjaśnić naturę technologii profilowania, należy dokonać pewnych zasadniczych rozróżnień pomiędzy różnymi rodzajami praktyk profilowania, poza rozróżnieniem pomiędzy konstrukcją a zastosowaniem profili. Główne różnice dotyczą profilowania oddolnego i odgórnego (lub uczenia się pod nadzorem i bez nadzoru) oraz profili indywidualnych i grupowych.

Uczenie się pod nadzorem i bez nadzoru

Profile można klasyfikować według sposobu, w jaki zostały wygenerowane ( Fayyad, Piatetsky-Shapiro i Smyth 1996 ) ( Zarsky i 2002-3 ) . Z jednej strony profile można generować poprzez testowanie hipotetycznej korelacji. Nazywa się to profilowaniem odgórnym lub uczeniem nadzorowanym . Jest to podobne do metodologii tradycyjnych badań naukowych, ponieważ rozpoczyna się od hipotezy i polega na sprawdzeniu jej trafności. Efektem tego rodzaju profilowania jest weryfikacja lub obalenie postawionej hipotezy. Można mówić także o profilowaniu dedukcyjnym. Z drugiej strony profile można generować poprzez eksplorację bazy danych za pomocą eksploracji danych mający na celu wykrycie wzorców w bazie danych, które nie były wcześniej zakładane. W pewnym sensie jest to kwestia generowania hipotez: znajdowania korelacji, których się nie spodziewaliśmy lub o których nawet nie myśleliśmy. Po wydobyciu wzorców wejdą one do opisanej powyżej pętli i zostaną przetestowane z wykorzystaniem nowych danych. Nazywa się to uczeniem bez nadzoru .

W odniesieniu do tego rozróżnienia ważne są dwie rzeczy. Po pierwsze, algorytmy uczenia się bez nadzoru wydają się umożliwiać konstruowanie nowego rodzaju wiedzy, nie w oparciu o hipotezę wysuniętą przez badacza i nie w oparciu o relacje przyczynowo-motywacyjne, ale wyłącznie w oparciu o korelacje stochastyczne. Po drugie, wydaje się zatem, że algorytmy uczenia się bez nadzoru pozwalają na indukcyjny typ konstrukcji wiedzy, który nie wymaga uzasadnienia teoretycznego ani wyjaśnienia przyczynowego ( Custers 2004 ).

Niektórzy autorzy twierdzą, że jeśli zastosowanie profili opartych na skomputeryzowanym rozpoznawaniu wzorców stochastycznych „działa”, czyli pozwala na wiarygodne przewidywanie przyszłych zachowań, to teoretyczne czy przyczynowe wyjaśnienie tych wzorców nie ma już znaczenia ( Anderson 2008 ) . Jednakże pogląd, że „ślepe” algorytmy dostarczają wiarygodnych informacji, nie oznacza, że ​​są one neutralne. W procesie gromadzenia i agregowania danych do bazy danych (pierwsze trzy etapy procesu konstruowania profilu) dokonywane jest tłumaczenie rzeczywistych wydarzeń na dane do odczytu maszynowego . Dane te są następnie przygotowywane i oczyszczane, aby umożliwić wstępne obliczenia. Potencjalne błędy systematyczne będą musiały być zlokalizowane w tych punktach, a także w wyborze opracowywanych algorytmów. Nie jest możliwe przeszukanie bazy danych pod kątem wszystkich możliwych korelacji liniowych i nieliniowych, co oznacza, że ​​techniki matematyczne opracowane w celu wyszukiwania wzorców będą determinować wzorce, które można znaleźć. W przypadku profilowania maszynowego potencjalna stronniczość nie wynika ze zdroworozsądkowych uprzedzeń lub tego, co psychologowie nazywają stereotypami, ale z technik komputerowych stosowanych na początkowych etapach procesu. Techniki te są w większości niewidoczne dla osób, wobec których stosuje się profile (ponieważ ich dane odpowiadają odpowiednim profilom grupowym).

Profile indywidualne i grupowe

Profile należy także klasyfikować ze względu na rodzaj tematyki, której dotyczą. Podmiotem tym może być osoba lub grupa osób. Konstruowanie profilu z danych jednej osoby nazywa się profilowaniem indywidualnym ( Jaquet-Chiffelle 2008). ). Ten rodzaj profilowania ma na celu poznanie szczególnych cech danej osoby, umożliwienie jej jednoznacznej identyfikacji lub świadczenie spersonalizowanych usług. Jednak obsługa spersonalizowana najczęściej opiera się także na profilowaniu grupowym, które pozwala na kategoryzację danej osoby jako określonego typu, w oparciu o fakt, że jej profil jest zgodny z profilem, który został zbudowany na podstawie ogromnej ilości danych o ogromnej liczby innych ludzi. Profil grupowy może odnosić się do wyników eksploracji danych w zbiorach danych, które odnoszą się do istniejącej społeczności, która uważa się za taką, jak grupa religijna, klub tenisowy, uniwersytet, partia polityczna itp. W takim przypadku może opisywać wcześniej nieznane wzorce zachowań lub inne cechy takiej grupy (społeczności). Profil grupowy może również odnosić się do kategorii osób, które nie tworzą społeczności, ale mają wspólne nieznane wcześniej wzorce zachowań lub inne cechy ( Custersa 2004 ). W takim przypadku profil grupowy opisuje specyficzne zachowania lub inne cechy kategorii osób, na przykład kobiet o niebieskich oczach i rudych włosach lub dorosłych o stosunkowo krótkich rękach i nogach. Można stwierdzić, że kategorie te są powiązane z ryzykiem dla zdrowia, zdolnością do zarobkowania, współczynnikiem umieralności, ryzykiem kredytowym itp.

Jeżeli indywidualny profil zostanie zastosowany wobec osoby, od której został wydobyty, mamy do czynienia z bezpośrednim profilowaniem indywidualnym. Jeżeli profil grupowy zostanie zastosowany wobec osoby, której dane są zgodne z profilem, wówczas mamy do czynienia z pośrednim profilowaniem indywidualnym, gdyż profil został wygenerowany na podstawie danych innych osób. Podobnie, jeśli profil grupowy zostanie zastosowany do grupy, z której został wydobyty, będzie to bezpośrednie profilowanie grupowe ( Jaquet-Chiffelle 2008 ). Jednakże w zakresie, w jakim zastosowanie profilu grupowego do grupy oznacza zastosowanie profilu grupowego do poszczególnych członków grupy, sensowne jest mówienie o pośrednim profilowaniu grupowym, zwłaszcza jeśli profil grupowy nie ma charakteru dystrybucyjnego.

Profilowanie dystrybucyjne i niedystrybucyjne

Profile grupowe można podzielić także ze względu na ich dystrybucyjny charakter ( Vedder 1999 ). Profil grupowy ma charakter dystrybutywny, gdy jego właściwości dotyczą w równym stopniu wszystkich członków jego grupy: wszyscy kawalerowie są stanu wolnego lub wszystkie osoby z określonym genem mają 80% szans na zarażenie się określoną chorobą. Profil ma charakter niedystrybucyjny, gdy nie koniecznie dotyczy wszystkich członków grupy: grupa osób o określonym kodzie pocztowym ma średnią zdolność zarobkową XX lub kategoria osób o niebieskich oczach ma średnie szanse 37% na zarażenie się określoną chorobą. Należy pamiętać, że w tym przypadku szansa posiadania przez daną osobę określonej zdolności zarobkowej lub zarażenia się określoną chorobą będzie zależeć od innych czynników, np. płci, wieku, pochodzenia rodziców, poprzedniego stanu zdrowia, wykształcenia. Powinno być oczywiste, że poza profilami tautologicznymi, takimi jak kawalerowie, większość profili grupowych generowanych za pomocą technik komputerowych ma charakter niedystrybucyjny. Ma to daleko idące konsekwencje dla dokładności pośredniego profilowania indywidualnego w oparciu o dopasowywanie danych do niedystrybucyjnych profili grupowych. Pomijając fakt, że stosowanie dokładnych profili może być nieuczciwe lub powodować nadmierną stygmatyzację, większość profili grupowych nie będzie dokładna.

Aplikacje

W sektorze finansowym instytucje wykorzystują technologie profilowania w celu zapobiegania oszustwom i scoringu kredytowego . Banki chcą minimalizować ryzyko przy udzielaniu kredytów swoim klientom. Na podstawie rozbudowanej grupy, profilowaniu klientów przypisuje się określoną wartość scoringową, która wskazuje na ich zdolność kredytową. Instytucje finansowe, takie jak banki i firmy ubezpieczeniowe, również korzystają z profilowania grupowego w celu wykrywania oszustw lub prania pieniędzy . Bazy zawierające transakcje przeszukiwane są za pomocą algorytmów w celu znalezienia zachowań odbiegających od standardów, wskazujących potencjalnie podejrzane transakcje.

W kontekście zatrudnienia profile mogą być przydatne do śledzenia pracowników poprzez monitorowanie ich zachowania w Internecie , do wykrywania przez nich oszustw oraz do rozmieszczania zasobów ludzkich poprzez łączenie i ocenianie ich umiejętności. ( Leopold i Meints 2008 )

Profilowanie można wykorzystać także do wspierania ludzi w pracy, ale także do nauki, poprzez ingerencję w projektowanie adaptacyjnych systemów hipermedialnych personalizujących interakcję. Może to być na przykład przydatne we wspomaganiu zarządzania uwagą ( Nabeth 2008 ).

W kryminalistyce istnieje możliwość łączenia różnych baz danych dotyczących spraw i podejrzanych oraz wydobywania ich pod kątem wspólnych wzorców. Można to wykorzystać do rozwiązania istniejących spraw lub do ustalenia profili ryzyka potencjalnych podejrzanych ( Geradts i Sommer 2008 ) ( Harcourt 2006 ).

Profilowanie konsumentów

Profilowanie konsumentów to forma analityki klientów , w której dane klientów są wykorzystywane do podejmowania decyzji dotyczących promocji produktów , ustalania cen produktów, a także personalizacji reklam . Gdy celem jest znalezienie najbardziej dochodowego segmentu klientów, analityka konsumencka opiera się na danych demograficznych , danych o zachowaniach konsumentów , danych o zakupionych produktach, metodach płatności i ankietach w celu ustalenia profili konsumentów. Utworzenie modeli predykcyjnych na podstawie istniejących baz danych , stosowana jest metoda statystyczna Knowledge Discovery in Databases (KDD). KDD grupuje podobne dane klientów, aby przewidzieć przyszłe zachowania konsumentów. Inne metody przewidywania zachowań konsumentów to korelacja i rozpoznawanie wzorców . Profile konsumentów opisują klientów na podstawie zestawu atrybutów i zazwyczaj konsumenci są grupowani według dochodów , standardu życia , wieku i lokalizacji. Profile konsumentów mogą również zawierać atrybuty behawioralne, które oceniają motywację klienta w proces podejmowania decyzji przez kupującego . Dobrze znanymi przykładami profili konsumentów są geodemograficzna klasyfikacja gospodarstw domowych Mosaic firmy Experian , Acorn firmy CACI i Personicx firmy Acxiom .

Inteligencja otoczenia

W środowisku zabudowanym wyposażonym w inteligencję otoczenia przedmioty codziennego użytku mają wbudowane czujniki i systemy wbudowane , które umożliwiają obiektom rozpoznawanie obecności i potrzeb jednostek oraz reagowanie na nie. Inteligencja otoczenia opiera się na zautomatyzowanym profilowaniu i interakcji człowiek-komputer . Czujniki monitorują działania i zachowania danej osoby, generując, gromadząc, analizując, przetwarzając i przechowując dane osobowe . Wczesne przykłady elektroniki użytkowej wyposażonej w inteligencję otoczenia obejmują aplikacje mobilne , rzeczywistość rozszerzona i usługi lokalizacyjne .

Zagrożenia i problemy

Technologie profilowania wzbudziły wiele kwestii etycznych, prawnych i innych, w tym prywatności , równości , należytych procesów , bezpieczeństwa i odpowiedzialności . Wielu autorów ostrzegało przed możliwością powstania nowej infrastruktury technologicznej, która mogłaby powstać w oparciu o technologie półautonomicznego profilowania ( Lessig 2006 ) ( Solove 2004 ) ( Schwartz 2000 ).

Prywatność jest jedną z głównych poruszanych kwestii. Technologie profilowania umożliwiają daleko idące monitorowanie zachowań i preferencji jednostki. Profile mogą ujawniać dane osobowe lub prywatne informacje o poszczególnych osobach, o których osoba ta może nawet nie być świadoma ( Hildebrandt i Gutwirth 2008 ).

Technologie profilowania są ze swej natury narzędziami dyskryminującymi. Umożliwiają niezrównane rodzaje i segmentacji społecznej , co może mieć nieuczciwe skutki. Osoby, które są profilowane, mogą być zmuszone do płacenia wyższych cen, mogą przegapić ważne oferty lub możliwości, a także mogą ponosić większe ryzyko, ponieważ zaspokajanie ich potrzeb jest mniej opłacalne ( Lyon 2003 ). W większości przypadków nie będą tego świadomi, ponieważ praktyki profilowania są w większości niewidoczne, a same profile często są chronione własnością intelektualną lub tajemnicą handlową. Stanowi to zagrożenie dla równości i solidarności obywateli. W szerszej skali może to spowodować segmentację społeczeństwa.

Jednym z problemów leżących u podstaw potencjalnych naruszeń prywatności i niedyskryminacji jest to, że proces profilowania jest najczęściej niewidoczny dla osób profilowanych. Stwarza to trudności w tym sensie, że kwestionowanie stosowania określonego profilu grupowego staje się trudne, jeśli nie niemożliwe. Narusza to zasady należytego procesu: jeżeli dana osoba nie ma dostępu do informacji, na podstawie których odmówiono jej świadczeń lub przypisano jej określone ryzyko, nie może kwestionować sposobu, w jaki jest traktowana ( Steinbock 2005 ) .

Profile mogą zostać wykorzystane przeciwko osobom, gdy trafią w ręce osób, które nie są uprawnione do dostępu do informacji lub korzystania z nich. Istotnym problemem związanym z tymi naruszeniami bezpieczeństwa jest kradzież tożsamości .

Jeżeli zastosowanie profili powoduje szkodę, należy ustalić, kto ponosi odpowiedzialność za tę szkodę. Czy programista, dostawca usług profilowania lub profilowany użytkownik powinien zostać pociągnięty do odpowiedzialności? Ta kwestia odpowiedzialności jest szczególnie złożona w przypadku, gdy aplikacje i decyzje dotyczące profili również zostały zautomatyzowane, jak w przypadku przetwarzania autonomicznego lub decyzji opartych na inteligencji otoczenia w przypadku zautomatyzowanych decyzji opartych na profilowaniu.

Zobacz też

  • Anderson, Chris (2008). „Koniec teorii: zalew danych sprawia, że ​​metoda naukowa staje się przestarzała” . Magazyn Wired . 16 (7).
  • Custersa, BHM (2004). „Potęga wiedzy”. Tilburg: Wydawnictwo Wolf Legal. {{ cite Journal }} : Cite Journal wymaga |journal= ( pomoc )
  • Elmer, G. (2004). „Maszyny profilujące. Mapowanie gospodarki danymi osobowymi”. MIT Press. {{ cite Journal }} : Cite Journal wymaga |journal= ( pomoc )
  • Fayyad, UM; Piatetsky-Shapiro, G.; Smyth, P. (1996). „Od eksploracji danych do odkrywania wiedzy w bazach danych” (PDF) . Magazyn AI . 17 (3): 37–54. Zarchiwizowane od oryginału (PDF) w dniu 2009-12-16 . Źródło : 2009-02-09 .
  • Geradts, Zenon; Sommer, Piotr (2008). „D6.7c: Profilowanie kryminalistyczne” (PDF) . Materiały FIDIS . 6 (7c).
  • Harcourt, BE (2006). „Wbrew przewidywaniom. Profilowanie, kontrola i karanie w epoce aktuarialnej”. University of Chicago Press, Chicago i Londyn. {{ cite Journal }} : Cite Journal wymaga |journal= ( pomoc )
  •   Hildebrandt, Mireille; Gutwirth, Serge (2008). Profilowanie obywatela europejskiego. Perspektywy krzyżowo-dyscyplinarne . Springer w Dordrechcie. doi : 10.1007/978-1-4020-6914-7 . ISBN 978-1-4020-6913-0 .
  • Jaquet-Chiffelle, David-Olivier (2008). „Odpowiedź: Profilowanie bezpośrednie i pośrednie w świetle osób wirtualnych. Do: Definicja profilowania: nowy rodzaj wiedzy?”. W Hildebrandt, Mireille; Gutwirth, Serge (red.). Profilowanie obywatela europejskiego . Springer z Holandii. s. 17–45. doi : 10.1007/978-1-4020-6914-7_2 .
  •   Kephart, JO; Szachy, DM (2003). „Wizja komputerów autonomicznych” (PDF) . Komputer . 36 (1 stycznia): 96–104. CiteSeerX 10.1.1.70.613 . doi : 10.1109/MC.2003.1160055 . Zarchiwizowane od oryginału (PDF) w dniu 2014-08-10.
  •   Leopold N.; Meints, M. (2008). „Profilowanie w sytuacjach zatrudnienia (oszustwo)”. W Hildebrandt, Mireille; Gutwirth, Serge (red.). Profilowanie obywatela europejskiego . Springer z Holandii. s. 217–237. doi : 10.1007/978-1-4020-6914-7_12 . ISBN 978-1-4020-6913-0 .
  • Lessig, L. (2006). „Kod 2.0”. Podstawowe książki, Nowy Jork. {{ cite Journal }} : Cite Journal wymaga |journal= ( pomoc )
  • Lyon, D. (2003). „Nadzór jako sortowanie społeczne: prywatność, ryzyko i dyskryminacja cyfrowa”. Routledge. {{ cite Journal }} : Cite Journal wymaga |journal= ( pomoc )
  •   Nabeth, Thierry (2008). „Profilowanie użytkowników w celu wsparcia uwagi w szkole i pracy” . W Hildebrandt, Mireille; Gutwirth, Serge (red.). Profilowanie obywatela europejskiego . Springer z Holandii. s. 185–200. doi : 10.1007/978-1-4020-6914-7_10 . ISBN 978-1-4020-6913-0 .
  • Schwartz, P. (2000). „Poza kodeksem Lessiga dotyczącym prywatności w Internecie: filtry cyberprzestrzeni, kontrola prywatności i uczciwe praktyki informacyjne”. Przegląd prawa stanu Wisconsin . 743 : 743–788.
  • Solove, DJ (2004). Osoba cyfrowa. Technologia i prywatność w erze informacji . Nowy Jork, New York University Press.
  • Steinbock, D. (2005). „Dopasowywanie danych, eksploracja danych i należyty proces”. Przegląd prawa Gruzji . 40 (1): 1–84.
  •   Vedder, A. (1999). „KDD: wyzwanie dla indywidualizmu”. Etyka i technologie informacyjne . 1 (4): 275–281. doi : 10.1023/A:1010016102284 . S2CID 10377988 .
  • Weiser, M. (1991). „Komputer XXI wieku”. Naukowy Amerykanin . 265 (3): 94–104. doi : 10.1038/scientificamerican0991-94 .
  • Zarski, T. (2002). „ „Prowadź własny biznes!”: przedstawianie argumentów na temat konsekwencji eksploracji danych lub danych osobowych na forum opinii publicznej” . Yale Journal of Law and Technology . 5 (4): 17–47.

Notatki i inne odniesienia