Uczenie maszynowe w naukach o ziemi

Zastosowania uczenia maszynowego w naukach o Ziemi obejmują tworzenie map geologicznych , wykrywanie wycieków gazu i identyfikację cech geologicznych. Uczenie maszynowe (ML) to rodzaj sztucznej inteligencji (AI), która umożliwia systemom komputerowym klasyfikowanie, grupowanie, identyfikację i analizę rozległych i złożonych zestawów danych, eliminując potrzebę stosowania wyraźnych instrukcji i programowania. Nauka o Ziemi to nauka o pochodzeniu, ewolucji i przyszłości planety Ziemia . System Ziemi można podzielić na cztery główne komponenty, w tym ziemia stała , atmosfera , hydrosfera i biosfera .

nauk o Ziemi można zastosować różnorodne algorytmy . Niektóre algorytmy mogą działać znacznie lepiej niż inne dla określonych celów. Na przykład konwolucyjne sieci neuronowe (CNN) są dobre w interpretacji obrazów, sztuczne sieci neuronowe (ANN) dobrze sprawdzają się w klasyfikacji gleby, ale są bardziej kosztowne obliczeniowo w szkoleniu niż uczenie maszynowe wektorów nośnych (SVM). Zastosowanie uczenia maszynowego jest popularna w ostatnich dziesięcioleciach, ponieważ rozwój innych technologii, takich jak bezzałogowe statki powietrzne (UAV), technologia teledetekcji ultrawysokiej rozdzielczości i wysokowydajne jednostki obliczeniowe, prowadzi do dostępności dużych zbiorów danych wysokiej jakości i bardziej zaawansowanych algorytmów .

Znaczenie

Złożoność nauk o Ziemi

Problemy w naukach o Ziemi są często złożone. Trudno zastosować dobrze znane i opisane modele matematyczne do środowiska naturalnego, dlatego uczenie maszynowe jest zwykle lepszą alternatywą dla takich nieliniowych problemów. Dane ekologiczne są zwykle nieliniowe i składają się z interakcji wyższego rzędu, a wraz z brakującymi danymi tradycyjna statystyka może osiągać gorsze wyniki, ponieważ w modelu stosowane są nierealistyczne założenia, takie jak liniowość. Wielu badaczy odkryło, że uczenie maszynowe przewyższa tradycyjne modele statystyczne w naukach o Ziemi, takie jak charakteryzacja lasów baldachimu , przewidywanie przesunięć zasięgu spowodowanych klimatem i wyznaczanie facji geologicznych. Charakterystyka struktury okapu lasów umożliwia naukowcom badanie reakcji roślinności na zmiany klimatyczne. Przewidywanie przesunięć zasięgu spowodowanych klimatem umożliwia decydentom przyjęcie odpowiedniej metody konwersacji w celu przezwyciężenia konsekwencji zmian klimatu. Nakreślenie facji geologicznej pomaga geologom zrozumieć geologię obszaru, co ma zasadnicze znaczenie dla rozwoju obszaru i zarządzania nim.

Niedostępne dane

W naukach o Ziemi niektóre dane są często trudno dostępne lub gromadzone, dlatego pożądane jest wnioskowanie o danych z łatwo dostępnych danych metodą uczenia maszynowego. Na przykład mapowanie geologiczne tropikalnych lasów deszczowych jest trudne, ponieważ gęsta pokrywa roślinna i wychodnie skalne są słabo odsłonięte. Zastosowanie teledetekcji z metodami uczenia maszynowego zapewnia alternatywny sposób szybkiego mapowania bez konieczności ręcznego mapowania niedostępnych obszarów.

Zmniejsz koszty czasu

Uczenie maszynowe może również zmniejszyć wysiłki ekspertów, ponieważ ręczne zadania klasyfikacji i adnotacji itp. stanowią wąskie gardła w przepływie pracy w badaniach nauk o Ziemi. Mapowanie geologiczne, zwłaszcza na rozległym, odległym obszarze, przy użyciu tradycyjnych metod jest pracochłonne, kosztowne i czasochłonne. Włączenie metod teledetekcji i uczenia maszynowego może stanowić alternatywne rozwiązanie eliminujące niektóre potrzeby związane z mapowaniem pól.

Konsekwentnie i bez uprzedzeń

Spójność i brak uprzedzeń to także zaleta uczenia maszynowego w porównaniu z pracą ręczną wykonywaną przez ludzi. W badaniach porównujących wydajność uczenia się ludzi i maszyn w identyfikacji bruzdnic stwierdzono, że uczenie maszynowe nie jest tak podatne na systematyczny błąd jak ludzie. Efekt świeżości, który występuje u ludzi, polega na tym, że klasyfikacja często skłania się ku ostatnio przywoływanym klasom. W zadaniu badawczym oznaczania, jeśli jeden rodzaj bruzdnic występuje rzadko w próbkach, to eksperci ekolodzy często nie sklasyfikowają go poprawnie. Systematyczne nastawienie silnie pogarsza dokładność klasyfikacji ludzi.

Optymalny algorytm uczenia maszynowego

Szerokie zastosowanie uczenia maszynowego w różnych dziedzinach doprowadziło do zastosowania szerokiego wachlarza algorytmów metod uczenia. Algorytm uczenia maszynowego zastosowany w rozwiązywaniu problemów nauk o Ziemi wzbudził duże zainteresowanie badaczy. Wybór optymalnego algorytmu do określonego celu może prowadzić do znacznego zwiększenia dokładności. Na przykład mapowanie litologiczne złotonośnych skał granitowo-zielonych w Hutti w Indiach za pomocą danych hiperspektralnych AVIRIS-NG pokazuje ponad 10% różnicę w ogólnej dokładności między użyciem maszyny wektorów nośnych (SVM) a losowym lasem . Niektóre algorytmy mogą również ujawnić pewne ważne informacje. „Modele białoskrzynkowe” to przejrzyste modele, w których wyniki i metodologie można łatwo wyjaśnić, podczas gdy modele „czarnoskrzynkowe” są odwrotne. Na przykład, chociaż maszyna wektorów nośnych (SVM) dała najlepszy wynik w ocenie podatności na osunięcie się ziemi, wyniku nie można przepisać w postaci reguł eksperckich, które wyjaśniają, w jaki sposób i dlaczego obszar został sklasyfikowany jako ta konkretna klasa. Natomiast drzewo decyzyjne ma przejrzysty model, który można łatwo zrozumieć, a użytkownik może obserwować i korygować odchylenia, jeśli występują w modelu. Jeśli problemem jest moc obliczeniowa, bardziej wymagająca obliczeniowo metoda uczenia, taka jak sztuczna sieć neuronowa, jest mniej preferowana, mimo że sztuczna sieć neuronowa może nieznacznie przewyższać inne algorytmy, takie jak klasyfikacja gleby.

Poniżej znajdują się najważniejsze informacje o niektórych powszechnie stosowanych algorytmach.

Maszyna wektorów nośnych (SVM) W maszynie wektorów nośnych (SVM) granica decyzyjna została określona podczas procesu uczenia przez uczący zestaw danych reprezentowany przez zielone i czerwone kropki. Dane koloru fioletowego mieszczą się poniżej granicy decyzyjnej, dlatego należą do klasy czerwonej.
K najbliższy sąsiad K najbliższy sąsiad klasyfikuje dane na podstawie ich podobieństwa. k jest parametrem reprezentującym liczbę sąsiadów, którzy będą brani pod uwagę w procesie głosowania. Na przykład na rysunku k = 4, dlatego rozważa się 4 najbliższych sąsiadów. W 4 najbliższych sąsiadach 3 należą do klasy czerwonej, a 1 do klasy zielonej. Fioletowe dane są klasyfikowane jako czerwona klasa.
Drzewo decyzyjne Drzewo decyzyjne pokazuje możliwe wyniki powiązanych wyborów. Drzewo decyzyjne można dalej podzielić na drzewo klasyfikacyjne i drzewo regresji. Powyższy rysunek przedstawia drzewo klasyfikacji, ponieważ wyjścia są klasami dyskretnymi. W przypadku drzewa regresji wynikiem jest liczba. Jest to model białoskrzynkowy, który jest przezroczysty, a użytkownik jest w stanie wykryć odchylenie, jeśli takie pojawi się w modelu.
Las losowy W lesie losowym wiele drzew decyzyjnych jest używanych razem w metodzie zespołowej. Podczas uczenia modelu tworzonych jest wiele drzew decyzyjnych. Różne drzewa decyzyjne mogą dawać różne wyniki. Głosowanie większościowe / proces uśredniania daje ostateczny wynik. Ta metoda daje większą dokładność przy użyciu tylko jednego drzewa decyzyjnego.
Sieci neuronowe Sieci neuronowe naśladują neurony w biologicznym mózgu. Składa się z wielu warstw, gdzie warstwy pomiędzy nimi są warstwami ukrytymi. Wagi połączeń są dostosowywane w trakcie treningu. Ponieważ logika pomiędzy nimi jest niejasna, nazywa się to „operacją czarnej skrzynki”. Konwolucyjne sieci neuronowe (CNN) to podklasa sieci neuronowych, która jest powszechnie używana do przetwarzania obrazów.

Stosowanie

Mapowanie

Mapowanie geologiczne lub litologiczne oraz mapowanie perspektywiczne minerałów

Mapowanie geologiczne lub litologiczne tworzy mapy przedstawiające cechy geologiczne i jednostki geologiczne. Mapowanie perspektywiczne minerałów wykorzystuje różnorodne zestawy danych, takie jak mapy geologiczne, obrazy aeromagnetyczne itp., Do tworzenia map wyspecjalizowanych w eksploracji minerałów. Mapowanie geologiczne/litologiczne i mapowanie perspektywiczne minerałów można przeprowadzić poprzez przetwarzanie danych za pomocą technik uczenia maszynowego z wykorzystaniem obrazów widmowych uzyskanych z teledetekcji i danych geofizycznych . Widmowe obrazy to obrazowanie wybranych pasm długości fal elektromagnetycznych w widmie elektromagnetycznym, podczas gdy konwencjonalne obrazowanie rejestruje trzy pasma długości fal (czerwony, zielony, niebieski) w widmie elektromagnetycznym. Las losowy i maszyna wektorów nośnych (SVM) itp. to powszechne algorytmy używane z danymi geofizycznymi pochodzącymi z teledetekcji, podczas gdy proste liniowe iteracyjne klastrowanie-konwolucyjne sieci neuronowe (SLIC-CNN) i konwolucyjne sieci neuronowe (CNN) itp. są powszechnie stosowane w przypadku zdjęć i obrazów lotniczych. Mapowanie na dużą skalę można przeprowadzić za pomocą danych geofizycznych z danych geofizycznych pochodzących z teledetekcji lotniczej i satelitarnej, a mapowanie na mniejszą skalę można przeprowadzić za pomocą obrazów z bezzałogowego statku powietrznego (UAV) w celu uzyskania wyższej rozdzielczości.

Pokrywa roślinna jest jedną z głównych przeszkód w mapowaniu geologicznym za pomocą teledetekcji, jak donoszą różne badania, zarówno w mapowaniu na dużą, jak i na małą skalę. Roślinność wpływa na jakość obrazu spektralnego lub zaciemnia informacje o skałach na zdjęciach lotniczych.

Przykłady zastosowań w *mapowaniu geologicznym/litologicznym i mapowaniu perspektywicznym minerałów*
Cel	Wprowadź zestaw danych	Lokalizacja	Algorytmy uczenia maszynowego (MLA)	Wydajność
Mapowanie litologiczne złotonośnych skał granitowo-zielonych	Dane hiperspektralne AVIRIS-NG	Hutti, Indie	Liniowa Analiza Dyskryminacyjna (LDA) , losowy las , Maszyna wektorów nośnych (SVM)	Maszyna wektorów pomocniczych (SVM) przewyższa inne algorytmy uczenia maszynowego (MLA)
Mapowanie litologiczne w tropikalnym lesie deszczowym	magnetyczna inwersja wektorów, Trójskładnikowa mapa RGB, Radarowa misja topograficzna wahadłowca (SRTM) , Fałszywy kolor (RGB) Landsata 8 łączącego pasma 4, 3 i 2	Cinzento Lineament, Brazylia	Losowy las	Wygenerowano dwie mapy predykcyjne: (1) Mapa wygenerowana na podstawie danych teledetekcyjnych ma jedynie 52,7% dokładności w porównaniu z mapą geologiczną, ale zidentyfikowano kilka nowych możliwych jednostek litologicznych (2) Mapa wygenerowana na podstawie danych teledetekcyjnych i ograniczeń przestrzennych ma dokładność 78,7%, ale nie zidentyfikowano żadnych nowych możliwych jednostek litologicznych
Mapowanie geologiczne do poszukiwań minerałów	Lotnicza Polarymetryczna Obserwacja Terenu z Progressive Scans SAR (TopSAR), dane geofizyczne	Zachodnia Tasmania	Losowy las	Niska niezawodność TopSAR do mapowania geologicznego, ale dokładna z danymi geofizycznymi.
Mapowanie geologiczne i mineralogiczne ^{[ potrzebne źródło ]}	Multispektralne i hiperspektralne dane satelitarne	Centralny Jebilet, Maroko	Maszyna wektorów nośnych (SVM)	Dokładność wykorzystania danych hiperspektralnych do klasyfikacji jest nieco wyższa niż w przypadku danych multispektralnych, uzyskując odpowiednio 93,05% i 89,24%, co pokazuje, że uczenie maszynowe jest niezawodnym narzędziem do eksploracji minerałów.
Integracja danych multigeofizycznych z mapą klastrów	magnetyczny w powietrzu, częstotliwościowe pomiary elektromagnetyczne, radiometryczne, pomiary grawitacji gruntu	Trøndelag, środkowa Norwegia	Losowy las	Utworzona mapa klastrów ma zadowalający związek z istniejącą mapą geologiczną, ale z niewielkimi błędami.
Mapowanie geologiczne w wysokiej rozdzielczości za pomocą bezzałogowego statku powietrznego (UAV)	Obrazy RGB w ultra rozdzielczości	nabrzeże Taili, Prowincja Liaoning, Chiny	Prosta liniowa iteracyjna klastrowanie-konwolucyjna sieć neuronowa (SLIC-CNN)	Wynik jest zadowalający w mapowaniu głównych jednostek geologicznych, ale wykazuje słabą wydajność w mapowaniu pegmatytów, drobnoziarnistych skał i grobli. UAV nie były w stanie zebrać informacji o skałach tam, gdzie skały nie były odsłonięte.
Mapowanie geologii powierzchniowej Zdalne mapowanie predykcyjne (RPM)	Zdjęcia lotnicze , Landsat , Cyfrowe dane wysokości w wysokiej rozdzielczości	Region geologiczny South Rae, Północno - zachodnie terytoria, Kanada	konwolucyjne sieci neuronowe (CNN), Losowy las	Wynikowa dokładność CNN wyniosła 76% na lokalnie szkolonym obszarze, a 68% na niezależnym obszarze testowym. CNN osiągnął nieco wyższą dokładność 4% niż Random Forest.

Metody podziału zbiorów danych na zbiór treningowy i testowy Ponieważ trening uczenia maszynowego do mapowania podatności na osuwiska wymaga zarówno zbioru uczącego, jak i testowego, dlatego wymagany jest podział zbioru danych. Na mapie geologicznej wschodniego przesmyku Cumberland Gap przedstawiono dwie metody podziału zbiorów danych. Metoda przedstawiona po lewej stronie, „Podział na dwa sąsiednie obszary”, jest bardziej użyteczna, ponieważ algorytm automatyzacji może przeprowadzić mapowanie nowego obszaru przy użyciu danych wejściowych przetworzonych przez ekspertów dotyczących sąsiedniego terenu. Piksele w kolorze cyjan przedstawiają treningowy zestaw danych, podczas gdy pozostałe pokazują testowe zestawy danych.

Mapowanie podatności na osuwiska i zagrożeń

Osuwisko podatność odnosi się do prawdopodobieństwa wystąpienia osuwiska danego miejsca, na które mają wpływ lokalne warunki terenowe. Mapowanie podatności na osuwiska może wskazać obszary podatne na ryzyko osuwisk, które są przydatne w planowaniu urbanistycznym i pracach związanych z zarządzaniem klęskami żywiołowymi. Zbiór danych wejściowych dla algorytmów uczenia maszynowego zwykle obejmuje informacje topograficzne, informacje litologiczne, zdjęcia satelitarne itp., a niektóre mogą obejmować użytkowanie gruntów, pokrycie terenu, informacje o odwadnianiu, pokrywie roślinnej zgodnie z ich potrzebami badawczymi. W przypadku uczenia maszynowego wymagane jest szkolenie w zakresie mapowania podatności na osuwiska, szkolenia i testowanie zestawów danych. Istnieją dwie metody przydzielania zbiorów danych do uczenia i testowania, jedna polega na losowym podziale obszaru badania na zbiory danych, druga polega na podziale całego badania na dwie sąsiadujące ze sobą części dla dwóch zbiorów danych. Aby przetestować modele klasyfikacyjne, powszechną praktyką jest losowe dzielenie badanego obszaru na dwa zestawy danych, jednak bardziej przydatne jest podzielenie badanego obszaru na dwie sąsiednie części, aby algorytm automatyzacji mógł wykonać mapowanie nowego obszaru z wejściem eksperckich przetworzonych danych o sąsiednich gruntach.

Przykłady zastosowania w *mapowaniu podatności na osuwisko/zagrożenia*
Cel	Wprowadź zestaw danych	Lokalizacja	Algorytmy uczenia maszynowego (MLA)	Wydajność
Ocena podatności na osuwisko	numeryczny model wysokości (DEM), Mapa Geologiczna, Zdjęcia z satelity Landsat 30m	Fruška Góra, Serbia	maszyna wektorów nośnych (SVM), Drzewa decyzyjne , Regresja logistyczna	Support Vector Machine (SVM) przewyższa inne
Mapowanie podatności na osuwiska	satelitarne dane geomorficzne ASTER, mapy geologiczne	Wyspa Honsiu, Japonia	Sztuczna sieć neuronowa (SSN)	Dokładność większa niż 90% do określania prawdopodobieństwa wystąpienia osuwiska.
Strefa podatności na osuwiska poprzez oceny	Warstwy danych przestrzennych z nachylenie, aspekt, względna ulga, litologia, cechy konstrukcyjne, zagospodarowanie terenu, pokrycie terenu, gęstość drenażu	Części dystryktów Chamoli i Rudraprayag w stanie Uttarakhand, Indie	Sztuczna sieć neuronowa (SSN)	AUC tego podejścia sięga 0,88. Takie podejście umożliwiło dokładną ocenę ryzyka osunięcia się ziemi.
Regionalna analiza zagrożenia osuwiskowego	Nachylenie topograficzne, aspekt topograficzny, krzywizna topograficzna, odległość od drenażu, litologia, odległość od lineamentu, pokrycie terenu ze zdjęć satelitarnych TM, Indeks roślinności (NDVI), dane o opadach	Wschodnia część stanu Selangor, Malezja	Sztuczna sieć neuronowa (SSN)	Podejście to osiągnęło 82,92% dokładność prognozy.

Identyfikacja i wykrywanie cech

Technika powiększania danych W ramach przygotowania zbioru danych do rozpoznawania spękań skał przeprowadzono augmentację danych. Ta technika jest często używana do zwiększania rozmiaru zestawu danych szkoleniowych. Chociaż losowo przycięte próbki i odwrócone próbki pochodzą z tego samego obrazu, przetworzone próbki są unikalne dla procesu uczenia się. Ta technika może zapobiec problemowi niedoboru danych i problemowi nadmiernego dopasowania modelu.

Analizy nieciągłości

Nieciągłości , takie jak płaszczyzna uskoku , płaszczyzna podłoża itp., mają ważne implikacje w inżynierii. Pęknięcia skał mogą być rozpoznawane automatycznie przez uczenie maszynowe poprzez fotogrametryczną , nawet w przypadku obecności przeszkadzających obiektów, na przykład foliowania, roślinności w kształcie pręta itp. W szkoleniu maszynowym do klasyfikowania obrazów powszechną praktyką jest powiększanie danych w celu uniknięcia nadmiernego dopasowania i zwiększyć zestaw danych szkoleniowych. Na przykład w badaniu rozpoznawania spękań skał przygotowano 68 obrazów do treningu i 23 obrazy do testowego zbioru danych przez losowy podział. Następnie przeprowadzono augmentację danych , a zestaw danych szkoleniowych zwiększono do 8704 obrazów przez odwrócenie i przypadkowe przycięcie. Podejście to w większości przypadków było w stanie dokładnie rozpoznać spękania skał. Wartość predykcji ujemnej (NPV) i specyficzność wyniosły ponad 0,99. Pokazało to solidność analiz nieciągłości z uczeniem maszynowym.

Przykłady zastosowania w *analizach nieciągłości*
Cel	Wprowadź zestaw danych	Lokalizacja	Algorytmy uczenia maszynowego (MLA)	Wydajność
Rozpoznawanie pęknięć skał	Zdjęcia skał zebrane podczas badań terenowych	Góry Gwanak i Góry Bukhan, Seul, Korea I Jeongseon-gun, Gangwon-do, Korea	Konwolucyjna sieć neuronowa (CNN)	Podejście to w większości przypadków było w stanie dokładnie rozpoznać pęknięcia skały. Negatywna wartość prognozy (NPV) i specyficzność przekraczają 0,99.

Wykrywanie wycieku dwutlenku węgla

Kwantyfikacja wycieku dwutlenku węgla z geologicznego miejsca sekwestracji zyskuje coraz większą uwagę, ponieważ opinia publiczna jest zainteresowana tym, czy dwutlenek węgla jest bezpiecznie i skutecznie składowany pod ziemią. Miejsce sekwestracji geologicznej ma na celu wychwytywanie gazów cieplarnianych i zakopywanie ich głęboko pod ziemią w formacjach geologicznych. Wyciek dwutlenku węgla z geologicznego miejsca sekwestracji można wykryć pośrednio poprzez reakcję planety na stres za pomocą teledetekcji i nienadzorowanego algorytmu grupowania (metoda iteracyjnej samoorganizującej się techniki analizy danych (ISODATA)). Wzrost zawartości CO _{2 w glebie} stężenie powoduje reakcję stresową roślin poprzez hamowanie oddychania roślin, gdy tlen jest wypierany przez dwutlenek węgla. Sygnał stresu ze strony roślinności można wykryć za pomocą indeksu czerwonej krawędzi (REI). Obrazy hiperspektralne są przetwarzane przez nienadzorowany algorytm grupujący piksele o podobnych reakcjach roślin. Informacje hiperspektralne w obszarach o znanym wycieku CO ₂ zostały wyodrębnione, aby obszary z wyciekiem CO ₂ mogły być dopasowane do skupionych pikseli z anomaliami widmowymi. Chociaż podejście może zidentyfikować CO ₂ skutecznego wycieku, istnieją pewne ograniczenia, które wymagają dalszych badań. Indeks czerwonej krawędzi (REI) może nie być dokładny z powodów, takich jak większa absorpcja chlorofilu, zmienność wegetacji i efekt cieniowania, dlatego niektóre zestresowane piksele zostały nieprawidłowo zidentyfikowane jako zdrowe piksele. Sezonowość , wysokość zwierciadła wód gruntowych może również wpływać na reakcję roślinności na stres związany z CO _{2 .}

Przykłady zastosowań w *wykrywaniu wycieków dwutlenku węgla*
Cel	Wprowadź zestaw danych	Lokalizacja	Algorytmy uczenia maszynowego (MLA)	Wydajność
Wykrywanie wycieku CO ₂ z geologicznego miejsca sekwestracji	Zdjęcia hiperspektralne z powietrza	Badania i Technologia Zero Emisji (ZERT), NAS	Metoda iteracyjnej samoorganizującej się techniki analizy danych (ISODATA).	Podejście to umożliwiło wykrycie obszarów, w których występuje wyciek CO ₂ , jednak inne czynniki, takie jak sezony wegetacyjne roślinności, również zakłócają wyniki.

Kwantyfikacja dopływu wody

The Rock Mass Rating (RMR) System przyjęty na całym świecie system klasyfikacji górotworu za pomocą środków geomechanicznych z wprowadzeniem sześciu parametrów. Wielkość dopływu wody jest jednym z wejść schematu klasyfikacyjnego, reprezentującym stan wód podziemnych. Kwantyfikacja dopływu wody w ścianach tunelu skalnego była tradycyjnie przeprowadzana poprzez obserwację wizualną w terenie, co ze względów bezpieczeństwa jest pracochłonne i czasochłonne. Uczenie maszynowe może określić dopływ wody, analizując zdjęcia wykonane na placu budowy. Klasyfikacja podejścia jest w większości zgodna z systemem RMR, ale połączenie stanu wilgotnego i mokrego jest trudne do rozróżnienia jedynie na podstawie oględzin. Obrazy podzielono na stan nieuszkodzony, mokry, kapiący, płynący i tryskający. Dokładność klasyfikacji obrazów wynosiła około 90%.

Przykłady zastosowania w *ilościowej ocenie dopływu wody*
Cel	Wprowadź zestaw danych	Lokalizacja	Algorytmy uczenia maszynowego (MLA)	Wydajność
Kwantyfikacja dopływu wody w ścianach tunelu skalnego	Obrazy dopływu wody	-	Konwolucyjna sieć neuronowa (CNN)	Podejście to osiągnęło średnią dokładność 93,01%.

Klasyfikacja

Klasyfikacja gleby

Najpopularniejszą i najbardziej opłacalną metodą badania gleby jest metoda Cone Penetration Testing (CPT). Badanie przeprowadza się przez wpychanie metalowego stożka przez glebę, a siłę potrzebną do pchania ze stałą szybkością rejestruje się jako quasi-ciągłą logarytm. Uczenie maszynowe może klasyfikować glebę na podstawie danych dziennika testu penetracji stożka. Podczas próby sklasyfikowania za pomocą uczenia maszynowego do analizy danych wymagane są dwie części zadań, którymi są części dotyczące segmentacji i klasyfikacji. Część segmentacji można przeprowadzić za pomocą algorytmu Constraint Clustering and Classification (CONCC) w celu podzielenia pojedynczej serii danych na segmenty. Część klasyfikacyjna może być przeprowadzona przez drzewa decyzyjne (DT), sztuczną sieć neuronową (ANN) lub maszynę wektorów nośnych (SVM). Porównując trzy algorytmy, wykazano, że sztuczna sieć neuronowa (SSN) najlepiej radziła sobie z klasyfikacją gliny humusowej i torfu, podczas gdy drzewa decyzyjne najlepiej radziły sobie z klasyfikacją torfu gliniastego. Klasyfikacja tą metodą jest w stanie osiągnąć bardzo dużą dokładność nawet dla najbardziej złożonego problemu, jej dokładność wyniosła 83%, a błędnie sklasyfikowaną klasą była klasa sąsiadująca geologicznie. Biorąc pod uwagę fakt, że taka dokładność jest wystarczająca dla większości ekspertów, trafność takiego podejścia można uznać za 100%.

Przykłady zastosowania w *klasyfikacji gleb*
Cel	Wprowadź zestaw danych	Lokalizacja	Algorytmy uczenia maszynowego (MLA)	Wydajność
Klasyfikacja gleby	Dzienniki testu penetracji stożka (CPT).	-	drzewa decyzyjne, sztuczna sieć neuronowa (SSN), Maszyna wektorów nośnych	Sztuczna sieć neuronowa (ANN) przewyższyła inne w klasyfikacji próchnicznej gliny i torfu, podczas gdy drzewa decyzyjne przewyższyły inne w klasyfikacji torfu gliniastego. Maszyna Wektorów Wsparcia dała najsłabszy wynik spośród całej trójki.

Klasyfikacja budowy geologicznej

Efekt obrazu kolorowego i obrazu w skali szarości Rysunek przedstawia obraz zagięcia. Lewy obraz przedstawia obraz kolorowy, a obraz po prawej obraz w skali szarości. Różnica w dokładności klasyfikacji budowy geologicznej między obrazami kolorowymi a obrazami w skali szarości jest niewielka.

Odsłonięte struktury geologiczne, takie jak antyklina , zmarszczki , ksenolity , rysy, fałdy pygmatyczne , uskoki, konkrecje, spękania błotne, gnejs, boudin , kolumny bazaltowe i groble mogą być identyfikowane automatycznie za pomocą modelu głębokiego uczenia . Badania wykazały, że trójwarstwowe konwolucyjne sieci neuronowe (CNN) i transfer learning mają dużą dokładność, odpowiednio około 80% i 90%, podczas gdy inne, takie jak K-najbliżsi sąsiedzi (KNN), Artificial Neural Network (ANN) i Extreme Gradient Boosting (XGBoost) mają niską dokładność, wahającą się od 10% do 30%. Zarówno obrazy w skali szarości, jak i obrazy kolorowe zostały przetestowane, a różnica w dokładności jest niewielka, co sugeruje, że kolor nie jest bardzo ważny w identyfikacji struktur geologicznych.

Przykłady zastosowań w *klasyfikacji budowy geologicznej*
Cel	Wprowadź zestaw danych	Lokalizacja	Algorytmy uczenia maszynowego (MLA)	Wydajność
Klasyfikacja struktur geologicznych	Obrazy struktur geologicznych	-	K najbliższych sąsiadów (KNN), sztuczna sieć neuronowa (SSN), Ekstremalne wzmocnienie gradientu (XGBoost), trójwarstwowa konwolucyjna sieć neuronowa (CNN), Transfer nauki	Trójwarstwowe Convolutional Neural Network (CNN) i Transfer Learning osiągnęły dokładność odpowiednio do około 80% i 90%, podczas gdy inne były stosunkowo niskie, wahały się od około 10% do 30%.

Prognoza i przewidywania

Systemy wczesnego ostrzegania i prognozowania trzęsień ziemi

Systemy wczesnego ostrzegania o trzęsieniach ziemi są często podatne na lokalny hałas impulsowy, dlatego wysyłają fałszywe alarmy. Fałszywe alarmy można wyeliminować, odróżniając przebiegi trzęsień ziemi od sygnałów szumowych za pomocą metod uczenia maszynowego. Metoda składa się z dwóch części, pierwsza część to nienadzorowane uczenie się z generatywną siecią przeciwstawną (GAN) do uczenia się i wyodrębniania cech fal P pierwszego przybycia oraz losowy las do rozróżniania fal P. Podejście to osiągnęło 99,2% rozpoznawania załamków P i pozwala uniknąć fałszywych wyzwalaczy przez sygnały szumowe z dokładnością 98,4%.

Trzęsienia ziemi w laboratorium są wytwarzane w warunkach laboratoryjnych, aby naśladować trzęsienia ziemi w świecie rzeczywistym. Za pomocą uczenia maszynowego wzorce sygnałów akustycznych jako prekursorów trzęsień ziemi można zidentyfikować bez konieczności ręcznego wyszukiwania. Przewidywanie czasu pozostałego do awarii zostało zademonstrowane w badaniu z ciągłymi akustycznymi szeregami czasowymi zarejestrowanymi z miejsca uszkodzenia. Zastosowany algorytm został przeszkolony w losowym lesie z około 10 zdarzeniami poślizgu i doskonale spisał się w przewidywaniu czasu pozostałego do awarii. Zidentyfikował sygnały akustyczne w celu przewidywania awarii, a jeden z nich był wcześniej niezidentyfikowany. Chociaż to laboratoryjne trzęsienie ziemi, które wywołało, nie jest tak złożone jak trzęsienie ziemi, stanowi to ważny postęp, który ukierunkowuje dalsze prace przewidywania trzęsień ziemi w przyszłości.

Przykłady zastosowania w *przewidywaniu trzęsień ziemi*
Cel	Wprowadź zestaw danych	Lokalizacja	Algorytmy uczenia maszynowego (MLA)	Wydajność
Rozróżniające przebiegi trzęsień ziemi	Zestaw danych o trzęsieniach ziemi	Południowa Kalifornia i Japonia	Generatywna Sieć Przeciwstawna (GAN), Losowy las	Podejście to może rozpoznać załamki P z dokładnością 99,2% i uniknąć fałszywych wyzwalaczy przez sygnały szumu z dokładnością 98,4%.
Przewidywanie czasu pozostałego do następnego trzęsienia ziemi	Ciągłe akustyczne szeregi czasowe	-	Losowy las	R2 prognozy osiągnęła 0,89, co świadczy o doskonałych wynikach ^.

Przewidywanie wyładowań Streamflow

o przepływie w czasie rzeczywistym są integralną częścią podejmowania decyzji, na przykład ewakuacji, regulacji poziomu wody w zbiorniku podczas zdarzenia powodziowego. Dane dotyczące strumienia można oszacować na podstawie informacji dostarczonych przez mierniki strumieni , które mierzą poziom wody w rzece. Jednak woda i gruz z powodzi mogą uszkodzić przepływomierze, a istotne dane w czasie rzeczywistym zostaną utracone. Zdolność uczenia maszynowego do wnioskowania o brakujących danych umożliwia przewidywanie przepływu strumienia zarówno na podstawie historycznych danych strumieniowych, jak i danych w czasie rzeczywistym. SHEM to model odnoszący się do Streamflow Hydrology Estimate przy użyciu uczenia maszynowego, który może służyć temu celowi. Aby zweryfikować jego dokładność, wynik prognozy porównano z faktycznie zarejestrowanymi danymi i stwierdzono, że dokładność mieści się w przedziale od 0,78 do 0,99.

Przykłady zastosowania w *Streamflow Discharge Prediction*
Cel	Wprowadź zestaw danych	Lokalizacja	Algorytmy uczenia maszynowego (MLA)	Wydajność
Streamflow Estimate z brakującymi danymi	Streamgage danych z NWIS-Web	Cztery różne działy wodne w Idaho i Waszyngtonie, NAS	Losowe lasy	Szacunki dobrze korelowały z danymi historycznymi dotyczącymi zrzutów. Dokładność wynosi od 0,78 do 0,99.

Wyzwanie

Nieodpowiednie dane treningowe

Do uczenia maszynowego wymagana jest odpowiednia ilość danych szkoleniowych i walidacyjnych. Jednak niektóre bardzo przydatne produkty, takie jak dane z teledetekcji satelitarnej, zawierają dane dopiero od lat 70. XX wieku. Jeśli kogoś interesują dane roczne, to dostępnych jest tylko mniej niż 50 próbek. Taka ilość danych może nie być wystarczająca. W badaniu automatycznej klasyfikacji struktur geologicznych słabością modelu jest mały zbiór danych szkoleniowych, mimo że przy pomocy augmentacji danych zwiększa się rozmiar zbioru danych. Inne badanie przewidywania przepływu strumieniowego wykazało, że dokładność zależy od dostępności wystarczających danych historycznych, dlatego też wystarczające dane szkoleniowe określają wydajność uczenia maszynowego. Nieodpowiednie dane treningowe mogą prowadzić do problemu zwanego nadmiernym dopasowaniem. Nadmierne dopasowanie powoduje niedokładności w uczeniu maszynowym, ponieważ model uczy się o szumie i niepożądanych szczegółach.

Ograniczone wprowadzaniem danych

Uczenie maszynowe nie jest w stanie wykonać niektórych zadań tak, jak robi to człowiek. Na przykład w kwantyfikacji dopływu wody do ścian tuneli skalnych za pomocą obrazów dla systemu Rock Mass Rating (RMR) stan wilgotny i mokry nie zostały sklasyfikowane przez uczenie maszynowe, ponieważ rozróżnienie tych dwóch tylko na podstawie kontroli wzrokowej nie jest możliwe. W niektórych zadaniach uczenie maszynowe może nie być w stanie w pełni zastąpić ręcznej pracy człowieka.

Operacja czarnej skrzynki

Działanie czarnej skrzynki niektórych algorytmów uczenia maszynowego W operacji czarnej skrzynki użytkownik wie tylko o danych wejściowych i wyjściowych, ale nie o procesie. Sztuczna sieć neuronowa (ANN) jest przykładem działania czarnej skrzynki. Użytkownik nie ma możliwości zrozumienia logiki ukrytych warstw.

W wielu algorytmach uczenia maszynowego, na przykład sztucznej sieci neuronowej (ANN), jest to podejście „ czarnej skrzynki ”, ponieważ nieznane są jasne relacje i opisy sposobu generowania wyników w warstwach ukrytych. Podejście „białej skrzynki”, takie jak drzewo decyzyjne, może ujawnić użytkownikom szczegóły algorytmu. Jeśli chce się badać zależności, takie podejście „czarnej skrzynki” nie jest odpowiednie. Jednak wyniki algorytmów „czarnej skrzynki” są zwykle lepsze.