Analiza treści w Internecie
Analiza treści online lub analiza tekstu online odnosi się do zbioru technik badawczych używanych do opisywania i wyciągania wniosków na temat materiałów online poprzez systematyczne kodowanie i interpretację. Analiza treści online jest formą analizy treści do analizy komunikacji internetowej.
Historia i definicja
Analiza treści jako systematyczne badanie i interpretacja komunikacji sięga co najmniej XVII wieku. Jednak dopiero powstanie gazety na początku XX wieku spowodowało, że masowa produkcja materiałów drukowanych stworzyła zapotrzebowanie na ilościową analizę drukowanych słów.
Definicja Berelsona (1952) stanowi podstawę analizy tekstu jako „techniki badawczej służącej obiektywnemu, systematycznemu i ilościowemu opisowi oczywistej treści komunikacji”. Analiza treści polega na kategoryzowaniu jednostek tekstów (tj. zdań, quasi-zdań, akapitów, dokumentów, stron internetowych itp.) według ich cech merytorycznych w celu skonstruowania zbioru danych, który umożliwi analitykowi interpretację tekstów i wyciąganie wniosków. Chociaż analiza treści jest często ilościowa , badacze konceptualizują tę technikę jako metody z natury mieszane ponieważ kodowanie tekstowe wymaga wysokiego stopnia jakościowej interpretacji. Socjolodzy wykorzystali tę technikę do zbadania pytań badawczych dotyczących środków masowego przekazu , efektów mediów i ustalania porządku obrad .
Wraz z rozwojem komunikacji online techniki analizy treści zostały dostosowane i zastosowane do badań internetowych . Podobnie jak w przypadku gazet, rozprzestrzenianie się treści online zapewnia szersze możliwości badaczom zainteresowanym analizą treści. Chociaż korzystanie ze źródeł internetowych stwarza nowe problemy i możliwości badawcze, podstawowa procedura badawcza analizy treści online nakreślona przez McMillana (2000) jest praktycznie nie do odróżnienia od analizy treści przy użyciu źródeł offline:
- Sformułuj pytanie badawcze, koncentrując się na identyfikacji sprawdzalnych hipotez, które mogą prowadzić do postępu teoretycznego.
- Zdefiniuj ramkę próbkowania , z której zostanie pobrana próbka, i skonstruuj próbkę (często nazywaną „korpusem”) treści do analizy.
- Opracuj i zaimplementuj schemat kodowania, który można wykorzystać do kategoryzacji treści, aby odpowiedzieć na pytanie określone w kroku 1. Wymaga to określenia okresu, jednostki kontekstu, w której osadzona jest treść, oraz jednostki kodowania, która kategoryzuje treść.
- Przeszkol programistów, aby konsekwentnie wdrażali schemat kodowania i weryfikowali wiarygodność wśród programistów. Jest to kluczowy krok w zapewnieniu powtarzalności analizy.
- Analizuj i interpretuj dane. Przetestuj hipotezy wysunięte w kroku 1 i wyciągnij wnioski na temat treści reprezentowanych w zbiorze danych.
Analiza treści w badaniach internetowych
Od czasu powstania komunikacji online uczeni dyskutowali, jak dostosować techniki analizy tekstu do badania treści internetowych. Charakter źródeł internetowych wymaga szczególnej ostrożności na wielu etapach analizy treści w porównaniu ze źródłami offline.
Podczas gdy treści offline, takie jak tekst drukowany, po utworzeniu pozostają statyczne, treści online mogą się często zmieniać. Dynamiczny charakter materiałów online w połączeniu z dużą i rosnącą ilością treści online może utrudniać skonstruowanie operatu próbkowania, z którego można pobrać losową próbkę. Zawartość witryny może się również różnić w zależności od użytkownika, co wymaga starannego określenia operatu próbkowania. Niektórzy badacze używali wyszukiwarek do konstruowania ramek próbkowania. Ta technika ma wady, ponieważ wyniki wyszukiwania są niesystematyczne i nielosowe, co czyni je niewiarygodnymi w uzyskaniu bezstronnej próby. Kwestię operatu losowania można obejść, wykorzystując całą populację zainteresowania, taką jak tweety poszczególnych użytkowników Twittera lub zarchiwizowane treści online niektórych gazet jako operat losowania. Zmiany w materiałach online mogą sprawić, że kategoryzowanie treści (krok 3) będzie trudniejsze. Ponieważ treści online mogą się często zmieniać, szczególnie ważne jest zwrócenie uwagi na okres, w którym zbierana jest próbka. Przydatnym krokiem jest zarchiwizowanie przykładowej zawartości, aby zapobiec wprowadzaniu zmian.
Treści online są również nieliniowe. Tekst drukowany ma wyraźnie wytyczone granice, które można wykorzystać do identyfikacji jednostek kontekstu (np. artykuł w gazecie). Granice treści online, które mają być użyte w próbce, są trudniejsze do zdefiniowania. Pierwsi analitycy treści online często określali „witrynę internetową” jako jednostkę kontekstu, bez jasnej definicji, co mieli na myśli. Badacze zalecają jasne i konsekwentne zdefiniowanie, z czego składa się „strona internetowa”, lub ograniczenie rozmiaru jednostki kontekstowej do funkcji na stronie internetowej. Badacze wykorzystali również bardziej dyskretne jednostki komunikacji online, takie jak komentarze w sieci lub tweety.
King (2008) użył ontologii terminów przeszkolonych z wielu tysięcy wstępnie sklasyfikowanych dokumentów do analizy tematyki wielu wyszukiwarek.
Automatyczna analiza treści
Rozwój treści internetowych radykalnie zwiększył ilość tekstu cyfrowego, który można wykorzystać w badaniach. Ilość dostępnego tekstu zmotywowała do innowacji metodologicznych, aby nadać sens tekstowym zbiorom danych, które są zbyt duże, aby można je było praktycznie ręcznie zakodować, jak to miało miejsce w konwencjonalnej praktyce metodologicznej. Postępy w metodologii wraz z rosnącą wydajnością i malejącymi kosztami obliczeń pozwoliły naukowcom na wykorzystanie technik, które były wcześniej niedostępne do analizy dużych zbiorów treści tekstowych.
Automatyczna analiza treści stanowi niewielkie odejście od procedury analizy treści online McMillana, ponieważ osoby kodujące są uzupełniane metodą obliczeniową, a niektóre z tych metod nie wymagają zaawansowanego definiowania kategorii. Ilościowe modele analizy tekstu często wykorzystują metody „ zbioru słów ”, które usuwają kolejność słów, usuwają słowa bardzo powszechne i bardzo rzadkie oraz upraszczają słowa poprzez lematyzację lub który zmniejsza wymiarowość tekstu, redukując złożone słowa do ich rdzenia. Chociaż metody te są zasadniczo redukcjonistyczne w sposobie interpretacji tekstu, mogą być bardzo przydatne, jeśli są prawidłowo stosowane i sprawdzane.
Grimmer i Stewart (2013) identyfikują dwie główne kategorie automatycznej analizy tekstu: metody nadzorowane i nienadzorowane . Metody nadzorowane polegają na stworzeniu schematu kodowania i ręcznym zakodowaniu podpróbki dokumentów, które badacz chce przeanalizować. W idealnym przypadku podpróba, zwana „zbiorem uczącym”, jest reprezentatywna dla całej próby. Zakodowany zestaw uczący jest następnie wykorzystywany do „uczenia” algorytmu, w jaki sposób słowa w dokumentach odpowiadają każdej kategorii kodowania. Algorytm można zastosować do automatycznej analizy pozostałych dokumentów w korpusie.
- Metody słownikowe: badacz wstępnie wybiera zestaw słów kluczowych ( n-gram ) dla każdej kategorii. Następnie maszyna używa tych słów kluczowych do sklasyfikowania każdej jednostki tekstowej w kategorię.
- Metody indywidualne: badacz wstępnie etykietuje próbkę tekstów i trenuje algorytm uczenia maszynowego (tj. algorytm SVM ) przy użyciu tych etykiet. Maszyna oznacza pozostałe obserwacje poprzez ekstrapolację informacji ze zbioru uczącego.
- Metody zespołowe: zamiast używać tylko jednego algorytmu uczenia maszynowego, badacz trenuje ich zestaw i używa uzyskanych w ten sposób wielu etykiet do oznaczania pozostałych obserwacji (więcej szczegółów w Collingwood i Wiklerson 2011).
- Nadzorowane skalowanie ideologiczne (tj. wyniki słów) jest używane do umieszczania różnych jednostek tekstowych wzdłuż kontinuum ideologicznego. Badacz wybiera dwa zestawy tekstów reprezentujących każdą skrajność ideologiczną, których algorytm może użyć do zidentyfikowania słów należących do każdego skrajnego punktu. Pozostałe teksty w korpusie są skalowane w zależności od tego, ile zawierają słów każdego skrajnego odniesienia.
Metody nienadzorowane mogą być stosowane, gdy zestawu kategorii do kodowania nie można dobrze zdefiniować przed analizą. W przeciwieństwie do metod nadzorowanych, programiści nie muszą trenować algorytmu. Jednym z kluczowych wyborów dla badaczy przy stosowaniu metod nienadzorowanych jest wybór liczby kategorii do sortowania dokumentów, zamiast definiowania z góry, jakie to są kategorie.
- Modele z pojedynczym członkostwem: modele te automatycznie grupują teksty w różne, wzajemnie wykluczające się kategorie, a dokumenty są kodowane w jednej i tylko jednej kategorii. Jak zauważyli Grimmer i Stewart (16), „każdy algorytm składa się z trzech elementów: (1) definicji podobieństwa lub odległości dokumentu; (2) funkcji celu, która operacjonalizuje i tworzy idealne klastry; oraz (3) algorytmu optymalizacji”.
- Mieszane modele członkostwa: Według Grimmera i Stewarta (17), mieszane modele członkostwa „poprawiają wyniki modeli jednoczłonkowych poprzez włączenie dodatkowej i specyficznej dla problemu struktury”. Modele FAC z członkostwem mieszanym klasyfikują poszczególne słowa w każdym dokumencie na kategorie, dzięki czemu dokument jako całość może być jednocześnie częścią wielu kategorii. Modele tematyczne stanowią jeden przykład FAC o mieszanym członkostwie, który można wykorzystać do analizy zmian w centrum zainteresowania aktorów politycznych lub artykułów prasowych. Jedną z najczęściej używanych technik modelowania tematów jest LDA .
- Nienadzorowane skalowanie ideologiczne (tj. Wordsfish): algorytmy, które przydzielają jednostki tekstowe do kontinuum ideologicznego w zależności od wspólnej treści gramatycznej. W przeciwieństwie do nadzorowanych metod skalowania, takich jak wordcores, metody takie jak wordfish nie wymagają od badacza dostarczenia próbek skrajnie ideologicznych tekstów.
Walidacja
Wyniki metod nadzorowanych można zweryfikować, rysując odrębną podpróbę korpusu, zwaną „zbiorem walidacyjnym”. Dokumenty w zbiorze walidacyjnym można kodować ręcznie i porównywać z danymi wyjściowymi automatycznego kodowania, aby ocenić, jak dobrze algorytm odtworzył kod ludzki. To porównanie może przybrać formę ocen wiarygodności między koderami, takich jak te używane do sprawdzania spójności ludzkich koderów w tradycyjnej analizie tekstu.
Walidację metod nienadzorowanych można przeprowadzić na kilka sposobów.
- semantyczna (lub wewnętrzna ) reprezentuje, jak dobrze dokumenty w każdym zidentyfikowanym klastrze reprezentują odrębną, kategoryczną jednostkę. W modelu tematycznym byłby to zakres, w jakim dokumenty w każdym klastrze reprezentują ten sam temat. Można to przetestować, tworząc zestaw weryfikacyjny, którego programiści używają do ręcznego sprawdzania poprawności wyboru tematu lub pokrewieństwa dokumentów wewnątrz klastra w porównaniu z dokumentami z różnych klastrów.
- predykcyjna (lub zewnętrzna ) to stopień, w jakim zmiany w częstotliwości każdego skupienia można wytłumaczyć zdarzeniami zewnętrznymi. Jeśli klastry tematów są prawidłowe, tematy, które są najbardziej widoczne, powinny reagować w czasie w przewidywalny sposób w wyniku występujących zdarzeń zewnętrznych.
Wyzwania w analizie tekstu online
Pomimo ciągłej ewolucji analizy tekstu w naukach społecznych, wciąż istnieją pewne nierozwiązane problemy metodologiczne. To jest (niewyłączna) lista zawierająca niektóre z tych obaw:
- Kiedy badacze powinni zdefiniować swoje kategorie? Ex-ante , w obie strony czy ad-hoc ? Niektórzy badacze społeczni twierdzą, że badacze powinni budować swoją teorię, oczekiwania i metody (w tym przypadku określone kategorie, których będą używać do klasyfikowania różnych jednostek tekstowych), zanim zaczną zbierać i badać dane, podczas gdy inni twierdzą, że zdefiniowanie zestawu kategorii jest krokiem wstecz. -i-następny proces.
- Walidacja. Chociaż większość badaczy podaje pomiary walidacyjne dla swoich metod (tj. niezawodność między koderami, szacunki precyzji i przypominania, macierze zamieszania itp.), niektórzy inni tego nie robią. W szczególności większa liczba naukowców jest zaniepokojona tym, że trudno jest zweryfikować niektóre techniki modelowania tematów.
- Losowe próbki. Z jednej strony niezwykle trudno jest określić, ile jednostek jednego rodzaju tekstów (np. blogpostów) znajduje się w Internecie w określonym czasie. Tak więc, ponieważ przez większość czasu wszechświat jest nieznany, w jaki sposób badacz może wybrać losową próbkę? Jeśli w niektórych przypadkach uzyskanie losowej próbki jest prawie niemożliwe, czy badacze powinni pracować z próbkami, czy też powinni starać się zebrać wszystkie jednostki tekstu, które zaobserwowali? Z drugiej strony, czasami badacze muszą pracować z próbkami, które są im dostarczane przez niektóre wyszukiwarki (np. Google) i firmy internetowe (np. Twitter), ale badacze nie mają dostępu do tego, w jaki sposób te próbki zostały wygenerowane i czy są losowe lub nie. Czy badania powinny wykorzystywać takie próbki?