Obsługa wizualna

Wizualne wspomaganie , znane również jako wizyjne sterowanie robotem i w skrócie VS , to technika wykorzystująca informacje zwrotne uzyskane z czujnika wizyjnego (wizualne sprzężenie zwrotne) do sterowania ruchem robota . Jeden z najwcześniejszych artykułów, który mówi o serwowaniu wizualnym, pochodzi z SRI International Labs w 1979 roku.

Taksonomia obsługi wizualnej

Przykład wizualnego serwowania w szybkim systemie łapania

Istnieją dwie podstawowe konfiguracje chwytaka robota (ręki) i kamery:

  • Sterowanie oko w rękę lub punkt końcowy w otwartej pętli, w którym kamera jest przymocowana do poruszającej się ręki i obserwuje względne położenie celu.
  • Sterowanie oko w rękę lub punkt końcowy w pętli zamkniętej, w którym kamera jest unieruchomiona w świecie i obserwuje cel oraz ruch ręki.

Techniki kontroli Visual Servoing są ogólnie podzielone na następujące typy:

  • Oparte na obrazie (IBVS)
  • pozycji/ pozie (PBVS)
  • Podejście hybrydowe

IBVS został zaproponowany przez Weissa i Sandersona. Prawo sterowania opiera się na błędzie między obecnymi a pożądanymi cechami na płaszczyźnie obrazu i nie obejmuje żadnego oszacowania pozy celu. Cechy mogą być współrzędnymi cech wizualnych, liniami lub momentami regionów. IBVS ma trudności z ruchami o bardzo dużych obrotach, co zaczęto nazywać cofaniem się kamery.

PBVS to technika oparta na modelu (z pojedynczą kamerą). Dzieje się tak, ponieważ pozycja obiektu zainteresowania jest szacowana w odniesieniu do kamery, a następnie wydawane jest polecenie do kontrolera robota, który z kolei steruje robotem. W tym przypadku cechy obrazu również są wyodrębniane, ale dodatkowo są wykorzystywane do estymacji informacji 3D ( pozycji obiektu w przestrzeni kartezjańskiej), a więc serwowania w 3D.

Podejścia hybrydowe wykorzystują pewną kombinację serwowania 2D i 3D. Istnieje kilka różnych podejść do serwomechanizmu hybrydowego

  • Obsługa 2-1/2-D
  • Oparte na partycjach ruchu
  • Oparte na partycjach DOF

Ankieta

Poniższy opis wcześniejszej pracy został podzielony na 3 części

  • Przegląd istniejących metod serwowania wizualnego.
  • Zastosowane różne funkcje i ich wpływ na obsługę wizualną.
  • Analiza błędów i stabilności wizualnych schematów serwowania.

Przegląd istniejących metod serwowania wizualnego

Wizualne serwomechanizmy, zwane także serwomechanizmami, istnieją od wczesnych lat 80. XX wieku, chociaż sam termin wizualne serwomechanizmy został ukuty dopiero w 1987 roku. Wizualne serwo to zasadniczo metoda sterowania robotem, w której używanym czujnikiem jest kamera ). Serwowanie składa się głównie z dwóch technik, z których jedna polega na wykorzystaniu informacji z obrazu do bezpośredniego sterowania stopniami swobody (DOF) robota, co jest określane jako serwowanie wizualne oparte na obrazie (IBVS). Podczas gdy druga polega na geometrycznej interpretacji informacji uzyskanych z kamery, takich jak oszacowanie pozycji celu i parametrów kamery (zakładając, że znany jest jakiś podstawowy model celu). Istnieją inne klasyfikacje serwomechanizmów oparte na różnicach w każdym elemencie systemu serwowania, np. lokalizacji kamery, te dwa rodzaje to konfiguracje „oko w rękę” i „oko w rękę”. W oparciu o pętlę sterowania, dwa rodzaje to pętla otwarta w punkcie końcowym i pętla zamknięta w punkcie końcowym. W zależności od tego, czy sterowanie jest stosowane bezpośrednio do przegubów (lub DOF), czy jako polecenie położenia do kontrolera robota, istnieją dwa typy: bezpośrednie serwowanie i dynamiczne patrzenie i poruszanie się. Będąc jedną z najwcześniejszych prac, autorzy zaproponowali hierarchiczny schemat serwomechanizmu wizualnego zastosowany do serwomechanizmu opartego na obrazie. Technika ta opiera się na założeniu, że z badanego obiektu można wydobyć dobry zestaw cech (np. krawędzie, narożniki i środki ciężkości) i wykorzystać jako model częściowy wraz z globalnymi modelami sceny i robota. Strategia sterowania jest stosowana do symulacji ramienia robota o dwóch i trzech stopniach swobody.

Feddema i in. wprowadził pomysł generowania trajektorii zadania w odniesieniu do prędkości cechy. Ma to na celu zapewnienie, że czujniki nie staną się nieskuteczne (zatrzymanie sprzężenia zwrotnego) dla jakichkolwiek ruchów robota. Autorzy zakładają, że obiekty są znane a priori (np. model CAD) i wszystkie cechy można wydobyć z obiektu. Praca Espiau i in. omawia niektóre z podstawowych pytań związanych z obsługą wizualną. Dyskusje koncentrują się na modelowaniu macierzy interakcji, kamery, cech wizualnych (punktów, linii itp.). Zaproponowano adaptacyjny system serwowania z architekturą serwowania typu „patrz i poruszaj”. W metodzie zastosowano przepływ optyczny wraz z dyskiem SSD, aby zapewnić metrykę ufności i sterownik stochastyczny z filtrowaniem Kalmana dla schematu sterowania. Układ zakłada (w przykładach), że płaszczyzna kamery i płaszczyzna cech są równoległe. Omówiono podejście do sterowania prędkością z wykorzystaniem zależności Jakobianu s˙ = Jv˙ . Dodatkowo autor stosuje filtrację Kalmana, zakładając, że wyodrębniona pozycja celu ma nieodłączne błędy (błędy czujnika). Model prędkości docelowej jest opracowywany i wykorzystywany jako wejście sprzężenia zwrotnego w pętli sterowania. Wspomina również o znaczeniu przyjrzenia się rozbieżnościom kinematycznym, efektom dynamicznym, powtarzalności, ustalaniu oscylacji czasowych i opóźnieniom w odpowiedzi.

Corke stawia zestaw bardzo krytycznych pytań dotyczących wizualnego serwowania i próbuje rozwinąć ich implikacje. Artykuł koncentruje się przede wszystkim na dynamice serwowania wizualnego. Autor próbuje rozwiązać problemy, takie jak opóźnienie i stabilność, jednocześnie mówiąc o ścieżkach sprzężenia zwrotnego w pętli sterowania. W artykule podjęto również próbę poszukiwania uzasadnienia dla generowania trajektorii, metodologii sterowania osiami oraz opracowywania metryk wydajności.

Chaumette w zapewnia dobry wgląd w dwa główne problemy z IBVS. Jeden, serwujący lokalne minima, a drugi, osiągający jakobianową osobliwość. Autor pokazuje, że same punkty obrazu nie tworzą dobrych cech ze względu na występowanie osobliwości. Artykuł kontynuuje, omawiając możliwe dodatkowe sprawdzenia zapobiegające osobliwościom, a mianowicie numery warunków J_s i Jˆ+_s, aby sprawdzić przestrzeń zerową ˆ J_s i J^T_s . Jednym z głównych punktów, na które zwraca uwagę autor, jest związek między lokalnymi minimami a niemożliwymi do zrealizowania ruchami cech obrazu.

Na przestrzeni lat opracowano wiele technik hybrydowych. Obejmują one obliczenie częściowej/całkowitej pozycji z Epipolar Geometry przy użyciu wielu widoków lub wielu kamer. Wartości uzyskuje się przez bezpośrednie oszacowanie lub poprzez uczenie lub schemat statystyczny. Podczas gdy inni stosowali podejście przełączania, które zmienia się między obrazem a położeniem w oparciu o funkcję Lapnowa. Wczesne techniki hybrydowe, które wykorzystywały kombinację podejścia opartego na obrazie i pozie (informacje 2D i 3D) do serwowania, wymagały pełnego lub częściowego modelu obiektu w celu wyodrębnienia informacji o pozie i wykorzystywały różne techniki do wyodrębnienia informacje o ruchu z obrazu. użył modelu ruchu afinicznego z ruchu obrazu oprócz zgrubnego wielościennego modelu CAD, aby wyodrębnić pozę obiektu w odniesieniu do kamery, aby móc obsłużyć obiekt (na liniach PBVS).

Wizualne serwowanie 2-1 / 2-D opracowane przez Malisa i in. jest dobrze znaną techniką, która rozkłada informacje wymagane do serwowania w zorganizowany sposób, który oddziela rotacje i translacje. W pracach zakłada się, że pożądana poza jest znana a priori. Informacje o rotacji uzyskuje się z częściowej oceny pozy, homografii (zasadniczo informacji 3D) podającej oś obrotu i kąt (poprzez obliczenie wartości własnych i wektorów własnych homografii). Informacje translacyjne uzyskuje się bezpośrednio z obrazu, śledząc zestaw punktów charakterystycznych. Jedynym warunkiem jest to, że śledzone punkty charakterystyczne nigdy nie opuszczają pola widzenia i że oszacowanie głębokości jest z góry określone za pomocą jakiejś techniki off-line. Wykazano, że serwowanie 2-1/2-D jest bardziej stabilne niż techniki, które je poprzedzały. Inną interesującą obserwacją związaną z tym sformułowaniem jest to, że autorzy twierdzą, że wizualny Jakobian nie będzie miał osobliwości podczas ruchów. Technika hybrydowa opracowana przez Corke i Hutchinsona, popularnie zwana podejściem porcjowanym, dzieli jakobian wizualny (lub obrazowy) na ruchy (zarówno obrotowe, jak i translacyjne) odnoszące się do osi X i Y oraz ruchy związane z osią Z. przedstawia technikę wydzielenia kolumn wizualnego jakobianu, które odpowiadają translacji i rotacji osi Z (mianowicie trzeciej i szóstej kolumny). Pokazano, że podejście podzielone na partycje radzi sobie z zagadką Chaumette omówioną w. Ta technika wymaga dobrego oszacowania głębokości, aby działać prawidłowo. nakreśla podejście hybrydowe, w którym zadanie służenia jest podzielone na dwie części, mianowicie główną i drugorzędną. Głównym zadaniem jest utrzymanie interesujących nas cech w polu widzenia. Podczas gdy drugorzędnym zadaniem jest zaznaczenie punktu fiksacji i użycie go jako punktu odniesienia, aby ustawić aparat w pożądanej pozycji. Technika wymaga oszacowania głębokości z procedury off-line. W artykule omówiono dwa przykłady, dla których oszacowania głębokości są uzyskiwane z odometrii robota i przy założeniu, że wszystkie obiekty leżą na płaszczyźnie. Zadanie drugorzędne realizowane jest za pomocą pojęcia paralaksy. Śledzone obiekty są wybierane przez inicjalizację wykonywaną na pierwszej klatce, którą zazwyczaj są punkty. prowadzi dyskusję na temat dwóch aspektów wizualnego serwowania, modelowania cech i śledzenia opartego na modelu. Podstawowym założeniem jest dostępność modelu 3D obiektu. Autorzy podkreślają pogląd, że idealne cechy powinny być tak dobrane, aby DOF ruchu można było oddzielić za pomocą relacji liniowej. Autorzy wprowadzają również oszacowanie prędkości celu do macierzy interakcji, aby poprawić wydajność śledzenia. Wyniki są porównywane z dobrze znanymi technikami serwowania, nawet gdy występują okluzje.

Zastosowane różne funkcje i ich wpływ na obsługę wizualną

W tej sekcji omówiono prace wykonane w dziedzinie serwowania wizualnego. Staramy się śledzić różne techniki korzystania z funkcji. Większość prac wykorzystywała punkty obrazu jako cechy wizualne. Sformułowanie macierzy interakcji zakłada, że ​​punkty na obrazie reprezentują cel. Istnieje kilka prac, które odbiegają od używania punktów i regionów cech, linii, momentów obrazu i niezmienników momentu. W pracy autorzy omawiają afiniczne śledzenie cech obrazu. Cechy obrazu są wybierane na podstawie miary rozbieżności, która opiera się na deformacji, której podlegają cechy. Zastosowane funkcje to łatki tekstur. Jednym z kluczowych punktów artykułu było zwrócenie uwagi na potrzebę przyjrzenia się funkcjom poprawiającym obsługę wizualną. Autorzy przyglądają się doborowi cech obrazu (ta sama kwestia była również omawiana w kontekście śledzenia). Omówiono wpływ wyboru cech obrazu na prawo sterowania tylko w odniesieniu do osi głębokości. Za cechy autorzy uznają odległość między punktami charakterystycznymi a powierzchnią obiektu. Cechy te są używane w prawie kontroli w nieco innych formach, aby podkreślić wpływ na wydajność. Zauważono, że lepszą wydajność osiągano, gdy błąd serwomechanizmu był proporcjonalny do zmiany osi głębokości. zawiera jedną z wczesnych dyskusji na temat wykorzystania momentów. Autorzy przedstawiają nowe sformułowanie macierzy interakcji z wykorzystaniem prędkości momentów w obrazie, aczkolwiek skomplikowane. Mimo wykorzystania momentów, momenty dotyczą niewielkiej zmiany położenia punktów konturu z wykorzystaniem twierdzenia Greena. W pracy podjęto również próbę wyznaczenia zestawu cech (na płaszczyźnie) dla robota o 6 stopniach swobody. W omawia wykorzystanie momentów obrazu do sformułowania wizualnego Jakobianu. To sformułowanie pozwala na oddzielenie DOF w oparciu o wybrany rodzaj momentów. Prosty przypadek tego sformułowania jest teoretycznie podobny do serwowania 2-1/2-D. Zmienność momentów w czasie (m˙ij) określa się za pomocą ruchu między dwoma obrazami i twierdzenia Greensa. Zależność między m˙ij a śrubą prędkości (v) jest określona jako m˙_ij = L_m_ij v. W tej technice unika się kalibracji kamery, zakładając, że obiekty są płaskie i stosując oszacowanie głębokości. Technika ta sprawdza się dobrze w przypadku planarnym, ale w przypadku ogólnym bywa skomplikowana. Podstawowy pomysł opiera się na pracy w [4] Moment Invariants has been used in. Kluczową ideą jest znalezienie wektora cech, który oddziela wszystkie DOF ruchu. Poczyniono pewne obserwacje, że momenty scentralizowane są niezmienne dla translacji 2D. Dla obrotów 2D opracowano skomplikowaną postać wielomianu. Technika polega na uczeniu przez pokazywanie, stąd wymaga wartości pożądanej głębokości i powierzchni obiektu (przy założeniu, że płaszczyzna kamery i obiektu są równoległe, a obiekt jest płaski). Inne części wektora cech to niezmienniki R3, R4. Autorzy twierdzą, że z okluzjami można sobie poradzić. i opierają się na pracy opisanej w. Główna różnica polega na tym, że autorzy stosują technikę podobną do tej, w której zadanie jest podzielone na dwie części (w przypadku, gdy cechy nie są równoległe do płaszczyzny kamery). Wykonywany jest wirtualny obrót, aby ustawić równoległość wyróżnionej płaszczyzny do płaszczyzny kamery. konsoliduje pracę wykonaną przez autorów nad momentami obrazu.

Analiza błędów i stabilności wizualnych schematów serwowania

Espiau wykazał na podstawie czysto eksperymentalnej pracy, że serwowizualne przetwarzanie obrazu (IBVS) jest odporne na błędy kalibracji. Autor użył aparatu bez wyraźnej kalibracji wraz z dopasowaniem punktów i bez szacowania pozy. W artykule przyjrzano się wpływowi błędów i niepewności na warunki w macierzy interakcji z podejścia eksperymentalnego. Zastosowanymi celami były punkty i założono, że są płaskie.

Podobne badanie zostało przeprowadzone, w którym autorzy przeprowadzają eksperymentalną ocenę kilku nieskalibrowanych wizualnych serwomechanizmów, które były popularne w latach 90-tych. Głównym rezultatem były eksperymentalne dowody na skuteczność wizualnego sterowania serwomechanizmem w porównaniu z konwencjonalnymi metodami sterowania. Kyrki i in. analizować błędy serwowania dla serwowania opartego na pozycji i wizualnego serwowania 2-1/2-D. Technika ta polega na określeniu błędu w wyodrębnianiu pozycji obrazu i propagowaniu go w celu oszacowania pozycji i sterowania serwomechanizmem. Punkty z obrazu są odwzorowywane na punkty na świecie a priori w celu uzyskania odwzorowania (które jest w zasadzie homografią, chociaż nie zostało to wyraźnie stwierdzone w artykule). To odwzorowanie jest podzielone na czyste obroty i translacje. Oszacowanie pozycji jest przeprowadzane przy użyciu standardowej techniki z Computer Vision. Błędy pikseli są przekształcane w pozę. Są one propagowane do kontrolera. Obserwacja z analizy pokazuje, że błędy w płaszczyźnie obrazu są proporcjonalne do głębokości, a błąd w osi głębokości jest proporcjonalny do kwadratu głębokości. Dogłębnie zbadano błędy pomiarowe w wizualnym serwowaniu. Większość funkcji błędów odnosi się do dwóch aspektów obsługi wizualnej. Jeden to błąd stanu ustalonego (po serwowaniu), a dwa dotyczące stabilności pętli sterowania. Inne błędy serwomechanizmu, które były przedmiotem zainteresowania, to te, które wynikają z szacowania pozy i kalibracji kamery. W, autorzy rozszerzają pracę wykonaną w, biorąc pod uwagę globalną stabilność w obecności wewnętrznych i zewnętrznych błędów kalibracji. zapewnia podejście do ograniczenia błędu śledzenia funkcji zadania. W autorzy wykorzystują technikę serwowania wizualnego metodą nauczania przez pokazywanie. Gdzie pożądana pozycja jest znana a priori, a robot jest przesuwany z danej pozycji. Głównym celem pracy jest wyznaczenie górnej granicy błędu pozycjonowania spowodowanego szumem obrazu przy użyciu techniki optymalizacji wypukłej. zawiera omówienie analizy stateczności z uwzględnieniem niepewności dogłębnych szacunków. Autorzy kończą artykuł spostrzeżeniem, że w przypadku nieznanej geometrii celu wymagane jest dokładniejsze oszacowanie głębokości w celu ograniczenia błędu. Wiele technik wizualnego serwowania domyślnie zakłada, że ​​na obrazie obecny jest tylko jeden obiekt i dostępna jest odpowiednia funkcja do śledzenia wraz z obszarem obiektu. Większość technik wymaga częściowego oszacowania pozycji lub dokładnego oszacowania głębokości aktualnej i pożądanej pozycji.

Oprogramowanie

Zobacz też

Linki zewnętrzne