Uczenie maszynowe w naukach o ziemi
Zastosowania uczenia maszynowego w naukach o Ziemi obejmują tworzenie map geologicznych , wykrywanie wycieków gazu i identyfikację cech geologicznych. Uczenie maszynowe (ML) to rodzaj sztucznej inteligencji (AI), która umożliwia systemom komputerowym klasyfikowanie, grupowanie, identyfikację i analizę rozległych i złożonych zestawów danych, eliminując potrzebę stosowania wyraźnych instrukcji i programowania. Nauka o Ziemi to nauka o pochodzeniu, ewolucji i przyszłości planety Ziemia . System Ziemi można podzielić na cztery główne komponenty, w tym ziemia stała , atmosfera , hydrosfera i biosfera .
nauk o Ziemi można zastosować różnorodne algorytmy . Niektóre algorytmy mogą działać znacznie lepiej niż inne dla określonych celów. Na przykład konwolucyjne sieci neuronowe (CNN) są dobre w interpretacji obrazów, sztuczne sieci neuronowe (ANN) dobrze sprawdzają się w klasyfikacji gleby, ale są bardziej kosztowne obliczeniowo w szkoleniu niż uczenie maszynowe wektorów nośnych (SVM). Zastosowanie uczenia maszynowego jest popularna w ostatnich dziesięcioleciach, ponieważ rozwój innych technologii, takich jak bezzałogowe statki powietrzne (UAV), technologia teledetekcji ultrawysokiej rozdzielczości i wysokowydajne jednostki obliczeniowe, prowadzi do dostępności dużych zbiorów danych wysokiej jakości i bardziej zaawansowanych algorytmów .
Znaczenie
Złożoność nauk o Ziemi
Problemy w naukach o Ziemi są często złożone. Trudno zastosować dobrze znane i opisane modele matematyczne do środowiska naturalnego, dlatego uczenie maszynowe jest zwykle lepszą alternatywą dla takich nieliniowych problemów. Dane ekologiczne są zwykle nieliniowe i składają się z interakcji wyższego rzędu, a wraz z brakującymi danymi tradycyjna statystyka może osiągać gorsze wyniki, ponieważ w modelu stosowane są nierealistyczne założenia, takie jak liniowość. Wielu badaczy odkryło, że uczenie maszynowe przewyższa tradycyjne modele statystyczne w naukach o Ziemi, takie jak charakteryzacja lasów baldachimu , przewidywanie przesunięć zasięgu spowodowanych klimatem i wyznaczanie facji geologicznych. Charakterystyka struktury okapu lasów umożliwia naukowcom badanie reakcji roślinności na zmiany klimatyczne. Przewidywanie przesunięć zasięgu spowodowanych klimatem umożliwia decydentom przyjęcie odpowiedniej metody konwersacji w celu przezwyciężenia konsekwencji zmian klimatu. Nakreślenie facji geologicznej pomaga geologom zrozumieć geologię obszaru, co ma zasadnicze znaczenie dla rozwoju obszaru i zarządzania nim.
Niedostępne dane
W naukach o Ziemi niektóre dane są często trudno dostępne lub gromadzone, dlatego pożądane jest wnioskowanie o danych z łatwo dostępnych danych metodą uczenia maszynowego. Na przykład mapowanie geologiczne tropikalnych lasów deszczowych jest trudne, ponieważ gęsta pokrywa roślinna i wychodnie skalne są słabo odsłonięte. Zastosowanie teledetekcji z metodami uczenia maszynowego zapewnia alternatywny sposób szybkiego mapowania bez konieczności ręcznego mapowania niedostępnych obszarów.
Zmniejsz koszty czasu
Uczenie maszynowe może również zmniejszyć wysiłki ekspertów, ponieważ ręczne zadania klasyfikacji i adnotacji itp. stanowią wąskie gardła w przepływie pracy w badaniach nauk o Ziemi. Mapowanie geologiczne, zwłaszcza na rozległym, odległym obszarze, przy użyciu tradycyjnych metod jest pracochłonne, kosztowne i czasochłonne. Włączenie metod teledetekcji i uczenia maszynowego może stanowić alternatywne rozwiązanie eliminujące niektóre potrzeby związane z mapowaniem pól.
Konsekwentnie i bez uprzedzeń
Spójność i brak uprzedzeń to także zaleta uczenia maszynowego w porównaniu z pracą ręczną wykonywaną przez ludzi. W badaniach porównujących wydajność uczenia się ludzi i maszyn w identyfikacji bruzdnic stwierdzono, że uczenie maszynowe nie jest tak podatne na systematyczny błąd jak ludzie. Efekt świeżości, który występuje u ludzi, polega na tym, że klasyfikacja często skłania się ku ostatnio przywoływanym klasom. W zadaniu badawczym oznaczania, jeśli jeden rodzaj bruzdnic występuje rzadko w próbkach, to eksperci ekolodzy często nie sklasyfikowają go poprawnie. Systematyczne nastawienie silnie pogarsza dokładność klasyfikacji ludzi.
Optymalny algorytm uczenia maszynowego
Szerokie zastosowanie uczenia maszynowego w różnych dziedzinach doprowadziło do zastosowania szerokiego wachlarza algorytmów metod uczenia. Algorytm uczenia maszynowego zastosowany w rozwiązywaniu problemów nauk o Ziemi wzbudził duże zainteresowanie badaczy. Wybór optymalnego algorytmu do określonego celu może prowadzić do znacznego zwiększenia dokładności. Na przykład mapowanie litologiczne złotonośnych skał granitowo-zielonych w Hutti w Indiach za pomocą danych hiperspektralnych AVIRIS-NG pokazuje ponad 10% różnicę w ogólnej dokładności między użyciem maszyny wektorów nośnych (SVM) a losowym lasem . Niektóre algorytmy mogą również ujawnić pewne ważne informacje. „Modele białoskrzynkowe” to przejrzyste modele, w których wyniki i metodologie można łatwo wyjaśnić, podczas gdy modele „czarnoskrzynkowe” są odwrotne. Na przykład, chociaż maszyna wektorów nośnych (SVM) dała najlepszy wynik w ocenie podatności na osunięcie się ziemi, wyniku nie można przepisać w postaci reguł eksperckich, które wyjaśniają, w jaki sposób i dlaczego obszar został sklasyfikowany jako ta konkretna klasa. Natomiast drzewo decyzyjne ma przejrzysty model, który można łatwo zrozumieć, a użytkownik może obserwować i korygować odchylenia, jeśli występują w modelu. Jeśli problemem jest moc obliczeniowa, bardziej wymagająca obliczeniowo metoda uczenia, taka jak sztuczna sieć neuronowa, jest mniej preferowana, mimo że sztuczna sieć neuronowa może nieznacznie przewyższać inne algorytmy, takie jak klasyfikacja gleby.
Poniżej znajdują się najważniejsze informacje o niektórych powszechnie stosowanych algorytmach.
K najbliższy sąsiad K najbliższy sąsiad klasyfikuje dane na podstawie ich podobieństwa. k jest parametrem reprezentującym liczbę sąsiadów, którzy będą brani pod uwagę w procesie głosowania. Na przykład na rysunku k = 4, dlatego rozważa się 4 najbliższych sąsiadów. W 4 najbliższych sąsiadach 3 należą do klasy czerwonej, a 1 do klasy zielonej. Fioletowe dane są klasyfikowane jako czerwona klasa.
Drzewo decyzyjne Drzewo decyzyjne pokazuje możliwe wyniki powiązanych wyborów. Drzewo decyzyjne można dalej podzielić na drzewo klasyfikacyjne i drzewo regresji. Powyższy rysunek przedstawia drzewo klasyfikacji, ponieważ wyjścia są klasami dyskretnymi. W przypadku drzewa regresji wynikiem jest liczba. Jest to model białoskrzynkowy, który jest przezroczysty, a użytkownik jest w stanie wykryć odchylenie, jeśli takie pojawi się w modelu.
Las losowy W lesie losowym wiele drzew decyzyjnych jest używanych razem w metodzie zespołowej. Podczas uczenia modelu tworzonych jest wiele drzew decyzyjnych. Różne drzewa decyzyjne mogą dawać różne wyniki. Głosowanie większościowe / proces uśredniania daje ostateczny wynik. Ta metoda daje większą dokładność przy użyciu tylko jednego drzewa decyzyjnego.
Sieci neuronowe Sieci neuronowe naśladują neurony w biologicznym mózgu. Składa się z wielu warstw, gdzie warstwy pomiędzy nimi są warstwami ukrytymi. Wagi połączeń są dostosowywane w trakcie treningu. Ponieważ logika pomiędzy nimi jest niejasna, nazywa się to „operacją czarnej skrzynki”. Konwolucyjne sieci neuronowe (CNN) to podklasa sieci neuronowych, która jest powszechnie używana do przetwarzania obrazów.
Stosowanie
Mapowanie
Mapowanie geologiczne lub litologiczne oraz mapowanie perspektywiczne minerałów
Mapowanie geologiczne lub litologiczne tworzy mapy przedstawiające cechy geologiczne i jednostki geologiczne. Mapowanie perspektywiczne minerałów wykorzystuje różnorodne zestawy danych, takie jak mapy geologiczne, obrazy aeromagnetyczne itp., Do tworzenia map wyspecjalizowanych w eksploracji minerałów. Mapowanie geologiczne/litologiczne i mapowanie perspektywiczne minerałów można przeprowadzić poprzez przetwarzanie danych za pomocą technik uczenia maszynowego z wykorzystaniem obrazów widmowych uzyskanych z teledetekcji i danych geofizycznych . Widmowe obrazy to obrazowanie wybranych pasm długości fal elektromagnetycznych w widmie elektromagnetycznym, podczas gdy konwencjonalne obrazowanie rejestruje trzy pasma długości fal (czerwony, zielony, niebieski) w widmie elektromagnetycznym. Las losowy i maszyna wektorów nośnych (SVM) itp. to powszechne algorytmy używane z danymi geofizycznymi pochodzącymi z teledetekcji, podczas gdy proste liniowe iteracyjne klastrowanie-konwolucyjne sieci neuronowe (SLIC-CNN) i konwolucyjne sieci neuronowe (CNN) itp. są powszechnie stosowane w przypadku zdjęć i obrazów lotniczych. Mapowanie na dużą skalę można przeprowadzić za pomocą danych geofizycznych z danych geofizycznych pochodzących z teledetekcji lotniczej i satelitarnej, a mapowanie na mniejszą skalę można przeprowadzić za pomocą obrazów z bezzałogowego statku powietrznego (UAV) w celu uzyskania wyższej rozdzielczości.
Pokrywa roślinna jest jedną z głównych przeszkód w mapowaniu geologicznym za pomocą teledetekcji, jak donoszą różne badania, zarówno w mapowaniu na dużą, jak i na małą skalę. Roślinność wpływa na jakość obrazu spektralnego lub zaciemnia informacje o skałach na zdjęciach lotniczych.
Cel | Wprowadź zestaw danych | Lokalizacja | Algorytmy uczenia maszynowego (MLA) | Wydajność |
---|---|---|---|---|
Mapowanie litologiczne złotonośnych skał granitowo-zielonych | Dane hiperspektralne AVIRIS-NG | Hutti, Indie | Liniowa Analiza Dyskryminacyjna (LDA) , | Maszyna wektorów pomocniczych (SVM) przewyższa inne algorytmy uczenia maszynowego (MLA) |
Mapowanie litologiczne w tropikalnym lesie deszczowym | magnetyczna inwersja wektorów, Trójskładnikowa mapa RGB, Radarowa misja topograficzna wahadłowca (SRTM) , Fałszywy kolor (RGB) Landsata 8 łączącego pasma 4, 3 i 2 |
Cinzento Lineament, Brazylia | Losowy las | Wygenerowano dwie mapy predykcyjne: (1) Mapa wygenerowana na podstawie danych teledetekcyjnych ma jedynie 52,7% dokładności w porównaniu z mapą geologiczną, ale zidentyfikowano kilka nowych możliwych jednostek litologicznych (2) Mapa wygenerowana na podstawie danych teledetekcyjnych i ograniczeń przestrzennych ma dokładność 78,7%, ale nie zidentyfikowano żadnych nowych możliwych jednostek litologicznych |
Mapowanie geologiczne do poszukiwań minerałów | Lotnicza Polarymetryczna Obserwacja Terenu z Progressive Scans SAR (TopSAR), dane geofizyczne |
Zachodnia Tasmania | Losowy las | Niska niezawodność TopSAR do mapowania geologicznego, ale dokładna z danymi geofizycznymi. |
Mapowanie geologiczne i mineralogiczne [ potrzebne źródło ] | Multispektralne i hiperspektralne dane satelitarne | Centralny Jebilet, Maroko |
Maszyna wektorów nośnych (SVM) | Dokładność wykorzystania danych hiperspektralnych do klasyfikacji jest nieco wyższa niż w przypadku danych multispektralnych, uzyskując odpowiednio 93,05% i 89,24%, co pokazuje, że uczenie maszynowe jest niezawodnym narzędziem do eksploracji minerałów. |
Integracja danych multigeofizycznych z mapą klastrów | magnetyczny w powietrzu, częstotliwościowe pomiary elektromagnetyczne, radiometryczne, pomiary grawitacji gruntu |
Trøndelag, środkowa Norwegia | Losowy las | Utworzona mapa klastrów ma zadowalający związek z istniejącą mapą geologiczną, ale z niewielkimi błędami. |
Mapowanie geologiczne w wysokiej rozdzielczości za pomocą bezzałogowego statku powietrznego (UAV) | Obrazy RGB w ultra rozdzielczości | nabrzeże Taili, Prowincja Liaoning, Chiny |
Prosta liniowa iteracyjna klastrowanie-konwolucyjna sieć neuronowa (SLIC-CNN) | Wynik jest zadowalający w mapowaniu głównych jednostek geologicznych, ale wykazuje słabą wydajność w mapowaniu pegmatytów, drobnoziarnistych skał i grobli. UAV nie były w stanie zebrać informacji o skałach tam, gdzie skały nie były odsłonięte. |
Mapowanie geologii powierzchniowej Zdalne mapowanie predykcyjne (RPM) |
Zdjęcia lotnicze , Landsat , Cyfrowe dane wysokości w wysokiej rozdzielczości |
Region geologiczny South Rae, Północno - zachodnie terytoria, Kanada |
konwolucyjne sieci neuronowe (CNN), Losowy las |
Wynikowa dokładność CNN wyniosła 76% na lokalnie szkolonym obszarze, a 68% na niezależnym obszarze testowym. CNN osiągnął nieco wyższą dokładność 4% niż Random Forest. |
Mapowanie podatności na osuwiska i zagrożeń
Osuwisko podatność odnosi się do prawdopodobieństwa wystąpienia osuwiska danego miejsca, na które mają wpływ lokalne warunki terenowe. Mapowanie podatności na osuwiska może wskazać obszary podatne na ryzyko osuwisk, które są przydatne w planowaniu urbanistycznym i pracach związanych z zarządzaniem klęskami żywiołowymi. Zbiór danych wejściowych dla algorytmów uczenia maszynowego zwykle obejmuje informacje topograficzne, informacje litologiczne, zdjęcia satelitarne itp., a niektóre mogą obejmować użytkowanie gruntów, pokrycie terenu, informacje o odwadnianiu, pokrywie roślinnej zgodnie z ich potrzebami badawczymi. W przypadku uczenia maszynowego wymagane jest szkolenie w zakresie mapowania podatności na osuwiska, szkolenia i testowanie zestawów danych. Istnieją dwie metody przydzielania zbiorów danych do uczenia i testowania, jedna polega na losowym podziale obszaru badania na zbiory danych, druga polega na podziale całego badania na dwie sąsiadujące ze sobą części dla dwóch zbiorów danych. Aby przetestować modele klasyfikacyjne, powszechną praktyką jest losowe dzielenie badanego obszaru na dwa zestawy danych, jednak bardziej przydatne jest podzielenie badanego obszaru na dwie sąsiednie części, aby algorytm automatyzacji mógł wykonać mapowanie nowego obszaru z wejściem eksperckich przetworzonych danych o sąsiednich gruntach.
Cel | Wprowadź zestaw danych | Lokalizacja | Algorytmy uczenia maszynowego (MLA) | Wydajność |
---|---|---|---|---|
Ocena podatności na osuwisko | numeryczny model wysokości (DEM), Mapa Geologiczna, Zdjęcia z satelity Landsat 30m |
Fruška Góra, Serbia |
maszyna wektorów nośnych (SVM), | Support Vector Machine (SVM) przewyższa inne |
Mapowanie podatności na osuwiska | satelitarne dane geomorficzne ASTER, mapy geologiczne |
Wyspa Honsiu, Japonia |
Sztuczna sieć neuronowa (SSN) | Dokładność większa niż 90% do określania prawdopodobieństwa wystąpienia osuwiska. |
Strefa podatności na osuwiska poprzez oceny | Warstwy danych przestrzennych z nachylenie, aspekt, względna ulga, litologia, cechy konstrukcyjne, zagospodarowanie terenu, pokrycie terenu, gęstość drenażu |
Części dystryktów Chamoli i Rudraprayag w stanie Uttarakhand, Indie |
Sztuczna sieć neuronowa (SSN) | AUC tego podejścia sięga 0,88. Takie podejście umożliwiło dokładną ocenę ryzyka osunięcia się ziemi. |
Regionalna analiza zagrożenia osuwiskowego | Nachylenie topograficzne, aspekt topograficzny, krzywizna topograficzna, odległość od drenażu, litologia, odległość od lineamentu, pokrycie terenu ze zdjęć satelitarnych TM, Indeks roślinności (NDVI), dane o opadach |
Wschodnia część stanu Selangor, Malezja |
Sztuczna sieć neuronowa (SSN) | Podejście to osiągnęło 82,92% dokładność prognozy. |
Identyfikacja i wykrywanie cech
Analizy nieciągłości
Nieciągłości , takie jak płaszczyzna uskoku , płaszczyzna podłoża itp., mają ważne implikacje w inżynierii. Pęknięcia skał mogą być rozpoznawane automatycznie przez uczenie maszynowe poprzez fotogrametryczną , nawet w przypadku obecności przeszkadzających obiektów, na przykład foliowania, roślinności w kształcie pręta itp. W szkoleniu maszynowym do klasyfikowania obrazów powszechną praktyką jest powiększanie danych w celu uniknięcia nadmiernego dopasowania i zwiększyć zestaw danych szkoleniowych. Na przykład w badaniu rozpoznawania spękań skał przygotowano 68 obrazów do treningu i 23 obrazy do testowego zbioru danych przez losowy podział. Następnie przeprowadzono augmentację danych , a zestaw danych szkoleniowych zwiększono do 8704 obrazów przez odwrócenie i przypadkowe przycięcie. Podejście to w większości przypadków było w stanie dokładnie rozpoznać spękania skał. Wartość predykcji ujemnej (NPV) i specyficzność wyniosły ponad 0,99. Pokazało to solidność analiz nieciągłości z uczeniem maszynowym.
Cel | Wprowadź zestaw danych | Lokalizacja | Algorytmy uczenia maszynowego (MLA) | Wydajność |
---|---|---|---|---|
Rozpoznawanie pęknięć skał | Zdjęcia skał zebrane podczas badań terenowych | Góry Gwanak i Góry Bukhan, Seul, Korea I Jeongseon-gun, Gangwon-do, Korea |
Konwolucyjna sieć neuronowa (CNN) | Podejście to w większości przypadków było w stanie dokładnie rozpoznać pęknięcia skały. Negatywna wartość prognozy (NPV) i specyficzność przekraczają 0,99. |
Wykrywanie wycieku dwutlenku węgla
Kwantyfikacja wycieku dwutlenku węgla z geologicznego miejsca sekwestracji zyskuje coraz większą uwagę, ponieważ opinia publiczna jest zainteresowana tym, czy dwutlenek węgla jest bezpiecznie i skutecznie składowany pod ziemią. Miejsce sekwestracji geologicznej ma na celu wychwytywanie gazów cieplarnianych i zakopywanie ich głęboko pod ziemią w formacjach geologicznych. Wyciek dwutlenku węgla z geologicznego miejsca sekwestracji można wykryć pośrednio poprzez reakcję planety na stres za pomocą teledetekcji i nienadzorowanego algorytmu grupowania (metoda iteracyjnej samoorganizującej się techniki analizy danych (ISODATA)). Wzrost zawartości CO 2 w glebie stężenie powoduje reakcję stresową roślin poprzez hamowanie oddychania roślin, gdy tlen jest wypierany przez dwutlenek węgla. Sygnał stresu ze strony roślinności można wykryć za pomocą indeksu czerwonej krawędzi (REI). Obrazy hiperspektralne są przetwarzane przez nienadzorowany algorytm grupujący piksele o podobnych reakcjach roślin. Informacje hiperspektralne w obszarach o znanym wycieku CO 2 zostały wyodrębnione, aby obszary z wyciekiem CO 2 mogły być dopasowane do skupionych pikseli z anomaliami widmowymi. Chociaż podejście może zidentyfikować CO 2 skutecznego wycieku, istnieją pewne ograniczenia, które wymagają dalszych badań. Indeks czerwonej krawędzi (REI) może nie być dokładny z powodów, takich jak większa absorpcja chlorofilu, zmienność wegetacji i efekt cieniowania, dlatego niektóre zestresowane piksele zostały nieprawidłowo zidentyfikowane jako zdrowe piksele. Sezonowość , wysokość zwierciadła wód gruntowych może również wpływać na reakcję roślinności na stres związany z CO 2 .
Cel | Wprowadź zestaw danych | Lokalizacja | Algorytmy uczenia maszynowego (MLA) | Wydajność |
---|---|---|---|---|
Wykrywanie wycieku CO 2 z geologicznego miejsca sekwestracji | Zdjęcia hiperspektralne z powietrza | Badania i Technologia Zero Emisji (ZERT), NAS |
Metoda iteracyjnej samoorganizującej się techniki analizy danych (ISODATA). | Podejście to umożliwiło wykrycie obszarów, w których występuje wyciek CO 2 , jednak inne czynniki, takie jak sezony wegetacyjne roślinności, również zakłócają wyniki. |
Kwantyfikacja dopływu wody
The Rock Mass Rating (RMR) System przyjęty na całym świecie system klasyfikacji górotworu za pomocą środków geomechanicznych z wprowadzeniem sześciu parametrów. Wielkość dopływu wody jest jednym z wejść schematu klasyfikacyjnego, reprezentującym stan wód podziemnych. Kwantyfikacja dopływu wody w ścianach tunelu skalnego była tradycyjnie przeprowadzana poprzez obserwację wizualną w terenie, co ze względów bezpieczeństwa jest pracochłonne i czasochłonne. Uczenie maszynowe może określić dopływ wody, analizując zdjęcia wykonane na placu budowy. Klasyfikacja podejścia jest w większości zgodna z systemem RMR, ale połączenie stanu wilgotnego i mokrego jest trudne do rozróżnienia jedynie na podstawie oględzin. Obrazy podzielono na stan nieuszkodzony, mokry, kapiący, płynący i tryskający. Dokładność klasyfikacji obrazów wynosiła około 90%.
Cel | Wprowadź zestaw danych | Lokalizacja | Algorytmy uczenia maszynowego (MLA) | Wydajność |
---|---|---|---|---|
Kwantyfikacja dopływu wody w ścianach tunelu skalnego | Obrazy dopływu wody | - | Konwolucyjna sieć neuronowa (CNN) | Podejście to osiągnęło średnią dokładność 93,01%. |
Klasyfikacja
Klasyfikacja gleby
Najpopularniejszą i najbardziej opłacalną metodą badania gleby jest metoda Cone Penetration Testing (CPT). Badanie przeprowadza się przez wpychanie metalowego stożka przez glebę, a siłę potrzebną do pchania ze stałą szybkością rejestruje się jako quasi-ciągłą logarytm. Uczenie maszynowe może klasyfikować glebę na podstawie danych dziennika testu penetracji stożka. Podczas próby sklasyfikowania za pomocą uczenia maszynowego do analizy danych wymagane są dwie części zadań, którymi są części dotyczące segmentacji i klasyfikacji. Część segmentacji można przeprowadzić za pomocą algorytmu Constraint Clustering and Classification (CONCC) w celu podzielenia pojedynczej serii danych na segmenty. Część klasyfikacyjna może być przeprowadzona przez drzewa decyzyjne (DT), sztuczną sieć neuronową (ANN) lub maszynę wektorów nośnych (SVM). Porównując trzy algorytmy, wykazano, że sztuczna sieć neuronowa (SSN) najlepiej radziła sobie z klasyfikacją gliny humusowej i torfu, podczas gdy drzewa decyzyjne najlepiej radziły sobie z klasyfikacją torfu gliniastego. Klasyfikacja tą metodą jest w stanie osiągnąć bardzo dużą dokładność nawet dla najbardziej złożonego problemu, jej dokładność wyniosła 83%, a błędnie sklasyfikowaną klasą była klasa sąsiadująca geologicznie. Biorąc pod uwagę fakt, że taka dokładność jest wystarczająca dla większości ekspertów, trafność takiego podejścia można uznać za 100%.
Cel | Wprowadź zestaw danych | Lokalizacja | Algorytmy uczenia maszynowego (MLA) | Wydajność |
---|---|---|---|---|
Klasyfikacja gleby | Dzienniki testu penetracji stożka (CPT). | - | drzewa decyzyjne, sztuczna sieć neuronowa (SSN), Maszyna wektorów nośnych |
Sztuczna sieć neuronowa (ANN) przewyższyła inne w klasyfikacji próchnicznej gliny i torfu, podczas gdy drzewa decyzyjne przewyższyły inne w klasyfikacji torfu gliniastego. Maszyna Wektorów Wsparcia dała najsłabszy wynik spośród całej trójki. |
Klasyfikacja budowy geologicznej
Odsłonięte struktury geologiczne, takie jak antyklina , zmarszczki , ksenolity , rysy, fałdy pygmatyczne , uskoki, konkrecje, spękania błotne, gnejs, boudin , kolumny bazaltowe i groble mogą być identyfikowane automatycznie za pomocą modelu głębokiego uczenia . Badania wykazały, że trójwarstwowe konwolucyjne sieci neuronowe (CNN) i transfer learning mają dużą dokładność, odpowiednio około 80% i 90%, podczas gdy inne, takie jak K-najbliżsi sąsiedzi (KNN), Artificial Neural Network (ANN) i Extreme Gradient Boosting (XGBoost) mają niską dokładność, wahającą się od 10% do 30%. Zarówno obrazy w skali szarości, jak i obrazy kolorowe zostały przetestowane, a różnica w dokładności jest niewielka, co sugeruje, że kolor nie jest bardzo ważny w identyfikacji struktur geologicznych.
Cel | Wprowadź zestaw danych | Lokalizacja | Algorytmy uczenia maszynowego (MLA) | Wydajność |
---|---|---|---|---|
Klasyfikacja struktur geologicznych | Obrazy struktur geologicznych | - | K najbliższych sąsiadów (KNN), sztuczna sieć neuronowa (SSN), Ekstremalne wzmocnienie gradientu (XGBoost), trójwarstwowa konwolucyjna sieć neuronowa (CNN), Transfer nauki |
Trójwarstwowe Convolutional Neural Network (CNN) i Transfer Learning osiągnęły dokładność odpowiednio do około 80% i 90%, podczas gdy inne były stosunkowo niskie, wahały się od około 10% do 30%. |
Prognoza i przewidywania
Systemy wczesnego ostrzegania i prognozowania trzęsień ziemi
Systemy wczesnego ostrzegania o trzęsieniach ziemi są często podatne na lokalny hałas impulsowy, dlatego wysyłają fałszywe alarmy. Fałszywe alarmy można wyeliminować, odróżniając przebiegi trzęsień ziemi od sygnałów szumowych za pomocą metod uczenia maszynowego. Metoda składa się z dwóch części, pierwsza część to nienadzorowane uczenie się z generatywną siecią przeciwstawną (GAN) do uczenia się i wyodrębniania cech fal P pierwszego przybycia oraz losowy las do rozróżniania fal P. Podejście to osiągnęło 99,2% rozpoznawania załamków P i pozwala uniknąć fałszywych wyzwalaczy przez sygnały szumowe z dokładnością 98,4%.
Trzęsienia ziemi w laboratorium są wytwarzane w warunkach laboratoryjnych, aby naśladować trzęsienia ziemi w świecie rzeczywistym. Za pomocą uczenia maszynowego wzorce sygnałów akustycznych jako prekursorów trzęsień ziemi można zidentyfikować bez konieczności ręcznego wyszukiwania. Przewidywanie czasu pozostałego do awarii zostało zademonstrowane w badaniu z ciągłymi akustycznymi szeregami czasowymi zarejestrowanymi z miejsca uszkodzenia. Zastosowany algorytm został przeszkolony w losowym lesie z około 10 zdarzeniami poślizgu i doskonale spisał się w przewidywaniu czasu pozostałego do awarii. Zidentyfikował sygnały akustyczne w celu przewidywania awarii, a jeden z nich był wcześniej niezidentyfikowany. Chociaż to laboratoryjne trzęsienie ziemi, które wywołało, nie jest tak złożone jak trzęsienie ziemi, stanowi to ważny postęp, który ukierunkowuje dalsze prace przewidywania trzęsień ziemi w przyszłości.
Cel | Wprowadź zestaw danych | Lokalizacja | Algorytmy uczenia maszynowego (MLA) | Wydajność |
---|---|---|---|---|
Rozróżniające przebiegi trzęsień ziemi | Zestaw danych o trzęsieniach ziemi | Południowa Kalifornia i Japonia | Generatywna Sieć Przeciwstawna (GAN), Losowy las |
Podejście to może rozpoznać załamki P z dokładnością 99,2% i uniknąć fałszywych wyzwalaczy przez sygnały szumu z dokładnością 98,4%. |
Przewidywanie czasu pozostałego do następnego trzęsienia ziemi | Ciągłe akustyczne szeregi czasowe | - | Losowy las | R2 prognozy osiągnęła 0,89, co świadczy o doskonałych wynikach . |
Przewidywanie wyładowań Streamflow
o przepływie w czasie rzeczywistym są integralną częścią podejmowania decyzji, na przykład ewakuacji, regulacji poziomu wody w zbiorniku podczas zdarzenia powodziowego. Dane dotyczące strumienia można oszacować na podstawie informacji dostarczonych przez mierniki strumieni , które mierzą poziom wody w rzece. Jednak woda i gruz z powodzi mogą uszkodzić przepływomierze, a istotne dane w czasie rzeczywistym zostaną utracone. Zdolność uczenia maszynowego do wnioskowania o brakujących danych umożliwia przewidywanie przepływu strumienia zarówno na podstawie historycznych danych strumieniowych, jak i danych w czasie rzeczywistym. SHEM to model odnoszący się do Streamflow Hydrology Estimate przy użyciu uczenia maszynowego, który może służyć temu celowi. Aby zweryfikować jego dokładność, wynik prognozy porównano z faktycznie zarejestrowanymi danymi i stwierdzono, że dokładność mieści się w przedziale od 0,78 do 0,99.
Cel | Wprowadź zestaw danych | Lokalizacja | Algorytmy uczenia maszynowego (MLA) | Wydajność |
---|---|---|---|---|
Streamflow Estimate z brakującymi danymi | Streamgage danych z NWIS-Web | Cztery różne działy wodne w Idaho i Waszyngtonie, NAS |
Losowe lasy | Szacunki dobrze korelowały z danymi historycznymi dotyczącymi zrzutów. Dokładność wynosi od 0,78 do 0,99. |
Wyzwanie
Nieodpowiednie dane treningowe
Do uczenia maszynowego wymagana jest odpowiednia ilość danych szkoleniowych i walidacyjnych. Jednak niektóre bardzo przydatne produkty, takie jak dane z teledetekcji satelitarnej, zawierają dane dopiero od lat 70. XX wieku. Jeśli kogoś interesują dane roczne, to dostępnych jest tylko mniej niż 50 próbek. Taka ilość danych może nie być wystarczająca. W badaniu automatycznej klasyfikacji struktur geologicznych słabością modelu jest mały zbiór danych szkoleniowych, mimo że przy pomocy augmentacji danych zwiększa się rozmiar zbioru danych. Inne badanie przewidywania przepływu strumieniowego wykazało, że dokładność zależy od dostępności wystarczających danych historycznych, dlatego też wystarczające dane szkoleniowe określają wydajność uczenia maszynowego. Nieodpowiednie dane treningowe mogą prowadzić do problemu zwanego nadmiernym dopasowaniem. Nadmierne dopasowanie powoduje niedokładności w uczeniu maszynowym, ponieważ model uczy się o szumie i niepożądanych szczegółach.
Ograniczone wprowadzaniem danych
Uczenie maszynowe nie jest w stanie wykonać niektórych zadań tak, jak robi to człowiek. Na przykład w kwantyfikacji dopływu wody do ścian tuneli skalnych za pomocą obrazów dla systemu Rock Mass Rating (RMR) stan wilgotny i mokry nie zostały sklasyfikowane przez uczenie maszynowe, ponieważ rozróżnienie tych dwóch tylko na podstawie kontroli wzrokowej nie jest możliwe. W niektórych zadaniach uczenie maszynowe może nie być w stanie w pełni zastąpić ręcznej pracy człowieka.
Operacja czarnej skrzynki
W wielu algorytmach uczenia maszynowego, na przykład sztucznej sieci neuronowej (ANN), jest to podejście „ czarnej skrzynki ”, ponieważ nieznane są jasne relacje i opisy sposobu generowania wyników w warstwach ukrytych. Podejście „białej skrzynki”, takie jak drzewo decyzyjne, może ujawnić użytkownikom szczegóły algorytmu. Jeśli chce się badać zależności, takie podejście „czarnej skrzynki” nie jest odpowiednie. Jednak wyniki algorytmów „czarnej skrzynki” są zwykle lepsze.