Rozbieżność obuoczna

Rozbieżność obuoczna odnosi się do różnicy w położeniu obrazu obiektu widzianego przez lewe i prawe oko , wynikającej z poziomej separacji oczu ( paralaksy ). Mózg wykorzystuje rozbieżność obuoczną do wyodrębnienia informacji o głębi z dwuwymiarowych obrazów siatkówkowych w stereopsji . W wizji komputerowej rozbieżność obuoczna odnosi się do różnicy współrzędnych podobnych cech w obrębie dwóch obrazów stereo.

Podobną rozbieżność można wykorzystać w określaniu odległości przez dalmierz koincydencji w celu określenia odległości i / lub wysokości do celu. W astronomii rozbieżność między różnymi lokalizacjami na Ziemi może być wykorzystana do określenia różnych paralaks niebieskich , a orbita Ziemi może być wykorzystana do paralaksy gwiazdowej .

Definicja

Rysunek 1. Definicja rozbieżności obuocznej (dalekiej i bliskiej).

Ludzkie oczy są oddalone od siebie w poziomie o około 50–75 mm ( rozstaw źrenic ), w zależności od osoby. W ten sposób każde oko ma nieco inny pogląd na otaczający świat. Można to łatwo zauważyć, gdy naprzemiennie zamykamy jedno oko, patrząc na pionową krawędź. Rozbieżność obuoczną można zaobserwować na podstawie widocznego poziomego przesunięcia pionowej krawędzi między obydwoma widokami.

W dowolnym momencie linia wzroku dwojga oczu spotyka się w pewnym punkcie przestrzeni. Ten punkt w przestrzeni rzutuje w to samo miejsce (tj. środek) na siatkówkach dwojga oczu. Jednak ze względu na różne punkty widzenia obserwowane przez lewe i prawe oko, wiele innych punktów w przestrzeni nie przypada na odpowiednie lokalizacje siatkówki. Wizualna rozbieżność obuoczna jest definiowana jako różnica między punktem projekcji w obu oczach i jest zwykle wyrażana w stopniach jako kąt widzenia .

Termin „rozbieżność obuoczna” odnosi się do pomiarów geometrycznych wykonanych na zewnątrz oka. Rozbieżność obrazów na rzeczywistej siatkówce zależy od czynników wewnętrznych oka, zwłaszcza położenia punktów węzłowych, nawet jeśli przekrój siatkówki jest idealnym kołem. Rozbieżność na siatkówce jest zgodna z rozbieżnością obuoczną, gdy jest mierzona w stopniach, podczas gdy znacznie różni się, gdy jest mierzona jako odległość ze względu na skomplikowaną strukturę wewnątrz oka.

Rysunek 1: Pełne czarne kółko to punkt fiksacji. Niebieski obiekt leży bliżej obserwatora. Dlatego ma „prawie” rozbieżność d n . Obiekty leżące dalej (zielone) mają odpowiednio „daleką” dysproporcję d f . Rozbieżność obuoczna to kąt między dwiema liniami projekcji. Jednym z nich jest rzeczywista projekcja od obiektu do rzeczywistego punktu projekcji. Drugi to wyimaginowana projekcja przebiegająca przez punkt węzłowy punktu fiksacji.

W wizji komputerowej dysproporcja obuoczna jest obliczana na podstawie obrazów stereo pobranych z zestawu kamer stereo. Zmienna odległość między tymi kamerami, zwana linią bazową, może wpływać na rozbieżność określonego punktu na odpowiedniej płaszczyźnie obrazu. Wraz ze wzrostem linii bazowej rozbieżność wzrasta ze względu na większy kąt potrzebny do ustawienia wzroku na punkcie. Jednak w wizji komputerowej rozbieżność obuoczna jest określana jako różnice współrzędnych punktu między prawym i lewym obrazem zamiast kąta widzenia. Jednostki są zwykle mierzone w pikselach.

Oszukanie neuronów za pomocą obrazów 2D

Rysunek 2. Symulacja dysproporcji z głębokości w płaszczyźnie. (dotyczy rysunku 1)

Komórki mózgowe ( neurony ) w części mózgu odpowiedzialnej za przetwarzanie informacji wzrokowych pochodzących z siatkówki ( pierwotna kora wzrokowa ) mogą wykrywać rozbieżności w ich danych wejściowych z oczu. W szczególności neurony te będą aktywne, jeśli obiekt z „ich” szczególną dysproporcją znajduje się w części pola widzenia, do której mają dostęp ( pole receptywne ).

Badacze badający dokładne właściwości tych neuronów pod względem dysproporcji przedstawiają komórkom bodźce wzrokowe o różnych dysproporcjach i sprawdzają, czy są one aktywne, czy nie. Jedną z możliwości prezentowania bodźców o różnych rozbieżnościach jest umieszczanie przedmiotów na różnej głębokości przed oczami. Jednak wada tej metody może nie być wystarczająco precyzyjna w przypadku obiektów umieszczonych dalej, ponieważ mają one mniejsze rozbieżności, podczas gdy obiekty bliżej będą miały większe rozbieżności. Zamiast tego neuronaukowcy stosują alternatywną metodę, jak pokazano schematycznie na rycinie 2.

Rysunek 2: Rozbieżność obiektu o innej głębokości niż punkt fiksacji można alternatywnie uzyskać, prezentując obraz obiektu jednemu oku i przesuniętą w bok wersję tego samego obrazu drugiemu oku. Pełne czarne kółko to punkt fiksacji. Wzdłuż linii fiksacji lewego oka umieszcza się przedmioty o różnej głębokości. Ta sama różnica spowodowana przesunięciem głębokości obiektu (wypełnione kolorowe kółka) może być również spowodowana poprzecznym przesunięciem obiektu o stałą głębokość na obrazie widzianym jednym okiem (czarne kółka z kolorowym marginesem). Należy zauważyć, że w przypadku dysproporcji bliskich przesunięcie poprzeczne musi być większe, aby odpowiadało tej samej głębokości w porównaniu z dysproporcjami dalekimi. To właśnie neuronaukowcy zwykle robią z losowymi bodźcami kropkowymi, aby zbadać selektywność rozbieżności neuronów, ponieważ odległość poprzeczna wymagana do przetestowania rozbieżności jest mniejsza niż odległości wymagane przy użyciu testów głębokości. Zasada ta została również zastosowana w autostereogramu .

Obliczanie rozbieżności przy użyciu cyfrowych obrazów stereo

Rozbieżność cech między dwoma obrazami stereoskopowymi jest zwykle obliczana jako przesunięcie w lewo cechy obrazu oglądanego na prawym obrazie. Na przykład pojedynczy punkt, który pojawia się na współrzędnej x t (mierzonej w pikselach ) na lewym obrazie, może znajdować się na współrzędnej x t - 3 na prawym obrazie. W tym przypadku rozbieżność w tym miejscu na prawym obrazie wyniosłaby 3 piksele.

Obrazy stereo mogą nie zawsze być prawidłowo wyrównane, aby umożliwić szybkie obliczenie rozbieżności. Na przykład zestaw kamer może być lekko obrócony w stosunku do poziomu. W procesie znanym jako rektyfikacja obrazu oba obrazy są obracane, aby uwzględnić rozbieżności tylko w kierunku poziomym (tj. nie ma rozbieżności we współrzędnych obrazu y ). Jest to właściwość, którą można również osiągnąć poprzez precyzyjne ustawienie kamer stereo przed wykonaniem zdjęcia.

Algorytm komputerowy

Po sprostowaniu problem zgodności można rozwiązać za pomocą algorytmu, który skanuje zarówno lewy, jak i prawy obraz w celu dopasowania cech obrazu. Typowym podejściem do tego problemu jest utworzenie mniejszej łaty obrazu wokół każdego piksela lewego obrazu. Te łaty obrazu są porównywane ze wszystkimi możliwymi różnicami w prawym obrazie poprzez porównanie odpowiadających im łatek obrazu. Na przykład dla rozbieżności równej 1 łatka na lewym obrazie byłaby porównywana z łatką o podobnej wielkości po prawej stronie, przesuniętą w lewo o jeden piksel. Porównanie tych dwóch łatek można przeprowadzić, uzyskując miarę obliczeniową z jednego z poniższych równań, które porównuje każdy z pikseli w łatach. We wszystkich poniższych równaniach L i R odnoszą się do lewej i prawej kolumny, podczas gdy r i c odnoszą się do bieżącego wiersza i kolumny obu badanych obrazów. d odnosi się do rozbieżności prawego obrazu.

  • Znormalizowana korelacja:
  • Suma kwadratów różnic:
  • Suma bezwzględnych różnic:

Rozbieżność z najniższą wartością obliczoną przy użyciu jednej z powyższych metod jest uważana za rozbieżność dla cechy obrazu. Ten najniższy wynik wskazuje, że algorytm znalazł najlepsze dopasowanie odpowiednich cech w obu obrazach.

Metoda opisana powyżej jest algorytmem wyszukiwania metodą brute-force . Przy dużych rozmiarach łatek i/lub obrazów technika ta może być bardzo czasochłonna, ponieważ piksele są stale ponownie badane w celu znalezienia najniższego wyniku korelacji. Jednak ta technika wymaga również niepotrzebnych powtórzeń, ponieważ wiele pikseli nakłada się na siebie. Bardziej wydajny algorytm polega na zapamiętywaniu wszystkich wartości z poprzedniego piksela. Jeszcze wydajniejszy algorytm polega na zapamiętywaniu sum kolumn z poprzedniego wiersza (oprócz zapamiętywania wszystkich wartości z poprzedniego piksela). Techniki, które zapisują poprzednie informacje, mogą znacznie zwiększyć wydajność algorytmiczną tego procesu analizy obrazu.

Zastosowania rozbieżności z obrazami

Znajomość dysproporcji może być wykorzystana w dalszej ekstrakcji informacji z obrazów stereo. Jednym z przypadków, w których rozbieżność jest najbardziej użyteczna, jest obliczanie głębokości/odległości. Dysproporcja i odległość od kamer są odwrotnie proporcjonalne. Wraz ze wzrostem odległości od kamer różnica maleje. Pozwala to na postrzeganie głębi w obrazach stereo. Korzystając z geometrii i algebry, punkty pojawiające się na obrazach stereo 2D można odwzorować jako współrzędne w przestrzeni 3D.

Ta koncepcja jest szczególnie przydatna w nawigacji. Na przykład Mars Exploration Rover wykorzystuje podobną metodę do skanowania terenu w poszukiwaniu przeszkód. Łazik rejestruje parę obrazów za pomocą stereoskopowych kamer nawigacyjnych i przeprowadza obliczenia rozbieżności w celu wykrycia wyniesionych obiektów (takich jak głazy). Dodatkowo dane dotyczące lokalizacji i prędkości można wyodrębnić z kolejnych obrazów stereo, mierząc przemieszczenie obiektów względem łazika. W niektórych przypadkach jest to najlepsze źródło tego typu informacji, ponieważ czujniki enkodera w kołach mogą być niedokładne z powodu poślizgu opon.

Zobacz też

  1. ^ Qian, N., Binocular Disparity and the Perception of Depth , Neuron, 18, 359–368, 1997.
  2. ^ Gonzalez, F. i Perez, R., Neuronowe mechanizmy leżące u podstaw widzenia stereoskopowego , Prog Neurobiol, 55 (3), 191–224, 1998.
  3. ^ a b   Linda G. Shapiro i George C. Stockman (2001). Wizja komputerowa. Prentice Hall, 371–409. ISBN 0-13-030796-3 .
  4. ^ „Laboratorium wizji komputerowej”. JPL.NASA.GOV. JPL/NASA i Web. 5 czerwca 2011 r. < [1] >.
  5. ^ „Statek kosmiczny: operacje na powierzchni: łazik”. JPL.NASA.GOV. JPL/NASA i Web. 5 czerwca 2011 r. http://marsrovers.jpl.nasa.gov/mission/spacecraft_rover_eyes.html .