Pojedynczy aparat i ładnie rozmyte tło, czyli jak Google'owi udało się zastąpić dwa aparaty jednym

Google twierdzi, że dzięki specjalnym rozwiązaniom Pixel 2 potrafi robić zdjęcia z rozmytym tłem mimo braku podwójnego aparatu. Jakie to rozwiązania?

Miron Nurski

18 października 2017, 16:02

W klasycznych aparatach fotograficznych efekt płytkiej głębi ostrości (rozmycie tła za fotografowanym obiektem) uzyskiwany jest optycznie. Taki efekt jest przyjemny dla oka i - co najważniejsze - pozwala skupić wzrok odbiorcy na najważniejszym elemencie na zdjęciu.

W smartfonach - ze względu na niewielką wielkość użytych komponentów - optycznie tło rozmywane jest tylko podczas fotografowania obiektów z bliska. Gdy robisz portret osoby oddalonej o 2 metry, będzie ona tak samo ostra jak wszystko, co znajduje się za nią.

Pixel 2 - zdjęcie normalne oraz z rozmytym tłem© Matt Jones

Od kilku lat producenci telefonów robią wszystko, by rozwiązać ten problem za pomocą oprogramowania.

Najłatwiej jest uzyskać dobry bokeh wykorzystując podwójny aparat

Podwójny aparat wykrywa głębię w podobny sposób co ludzkie oczy. Ze względu na różnice w perspektywie, do jednej soczewki trafia obraz bardziej przesunięty niż do drugiej, przy czym im bliżej znajduje się obiekt, tym bardziej przesunięcie jest widoczne.

Aby zrozumieć zasadę działania podwójnego aparatu, wystarczy umieścić przed oczyma palec i spojrzeć na niego raz lewym, a raz prawym okiem. Podczas gdy sam palec wyraźnie przeskakuje w polu widzenia, obiekty w oddali zdają się pozostawać w miejscu.

Wykorzystując to proste zjawisko, niektóre telefony z podwójnymi aparatami są w stanie wykryć, który obiekt znajduje się najbliżej obiektywu, co pozwala odciąć je od tła, które jest następnie cyfrowo rozmywane.

Podwójny aparat kupionej przez Apple'a firmy LinX "widzi" jak daleko od obiektywu znajdują się różne obiekty

Niektóre marki (np. Samsung) próbowały zaimplementować w swoich smartfonach tryby rozmywające tło

wykorzystujące pojedyncze aparaty, ale efekty są zazwyczaj niezbyt zadowalające. Google twierdzi, że udało mu się stworzyć i wpakować do Pixela 2 pojedynczy aparat, który w skuteczności rozmywania tła nie ustępuje podwójnym systemom (choć pierwsze testy zdają się temu przeczyć). Jakie technologie zastosowano?

Krok pierwszy - HDR+

HDR+ to technologia, która łączy nawet 10 zdjęć zrobionych jedno po drugim, aby uzyskać fotkę o wysokiej jakości i rozpiętości tonalnej. Niektóre fotki są niedoświetlone, a inne prześwietlone, dzięki czemu w finalnym zdjęciu zachowane są szczegóły zarówno w cieniach, jak i najjaśniejszych partiach obrazu.

Zdjęcie zrobione Pixelem 2 bez i z włączonym HDR+

To dopiero początek drogi, którą muszą pokonać algorytmy, ale duża ilość detali jest niezbędna, aby cały proces przebiegł prawidłowo.

Krok drugi - odseparowanie tła z użyciem uczenia maszynowego

Google przeszkolił swoje algorytmy pod kątem dokładnego rozpoznawania ludzi na zdjęciach. Tworząc algorytm użyto niemal miliona zdjęć, na których uwieczniono osoby w różnych strojach, w okularach, z różnymi nakryciami głowy itp.

Po przeanalizowaniu zdjęcia, oprogramowanie tworzy tzw. maskę separacyjną zawierającą dość dokładny obrys fotografowanej osoby.

Po lewej: zdjęcie zrobione Pixelem 2. Po prawej: maska separacyjna powstała po wykryciu osoby na zdjęciu

Gdyby oprogramowanie miało nałożyć rozmycie wyłącznie z użyciem wspomnianej maski separacyjnej, finalne zdjęcie wyglądałoby tak:

Tło rozmyte z użyciem maski separacyjnej

Na pierwszy rzut oka nie wygląda to źle, ale rozwiązanie to rodzi jeden problem: na tym etapie oprogramowanie nie wie, jak daleko znajdują się obiekty za człowiekiem, więc wszystko rozmywane jest z jednolitą siłą, co wygląda nienaturalnie. Bliższe obiekty powinny być ostrzejsze niż te w oddali.

Po drugie, algorytm bazujący na rozpoznawaniu obiektów - choć w tym wypadku poradził sobie nie najgorzej z wyostrzeniem stołu na pierwszym planie - teoretycznie mógłby w podobnej sytuacji uznać stół i talerze za tło.

Dlatego dla uzyskania satysfakcjonującego efektu potrzebny jest jeszcze jeden etap.

Krok trzeci - wykrywanie głębi z użyciem technologii Dual Pixel

Dual Pixel autofokus to technologia wykorzystująca piksele zbudowane z dwóch bliźniaczych części. Można ją znaleźć m.in. w takich smartfonach jak Galaxy S7, Galaxy S8 czy HTC U11, gdzie wykorzystywana jest do szybkiego ustawiania ostrości.

Google znalazł inny sposób na użycie tej technologii. Inżynierowie firmy wykorzystali fakt, że do lewej części piksela trafia obraz nieco inny niż do prawej.

Poniżej możecie zobaczyć to samo zdjęcie zrobione przez lewe i prawe części pikseli. Na pierwszy rzut oka obie fotki są identyczne, ale jeśli przyjrzycie się ostatniej animacji, dostrzeżecie mikroskopijne przesunięcie.

Przesunięcie jest naprawdę niewielkie, ale pamiętajmy, że telefon już na etapie HDR+ robi nawet 10 zdjęć. Po przeanalizowaniu ich wszystkich, oprogramowanie tworzy bardzo dokładną mapę głębi.

Po lewej: mapa głębi stworzona z użyciem technologii Dual Pixel. Po prawej: wizualizacja siły rozmycia różnych partii zdjęcia

Krok czwarty - składanie wszystkich danych

Podsumujmy. Na tym etapie smartfon dysponuje:

szczegółowym zdjęciem o wysokiej rozpiętości tonalnej;
maską separacyjną zawierającą obrys fotografowanej osoby;
mapą głębi pozwalającą ocenić, z jaką siłą należy rozmyć poszczególne partie obrazu, aby uzyskać naturalnie wyglądający bokeh.

Po zsumowaniu wszystkich informacji, powstaje zdjęcie na którym osoba i stolik na pierwszym planie pozostają ostre, a intensywność obiektów znajdujących się w oddali uzależniona jest od odległości, w jakiej się znajdują.

Tło rozmyte z użyciem maski separacyjnej i mapy głębi© Sam Kweskin

Mimo użycia jednego aparatu, efekt jest naprawdę ładny, a rozmycie wygląda naturalnie. Można oczekiwać, że w przyszłości będzie jeszcze lepiej dzięki nowemu układowi przetwarzania obrazu Pixel Visual Core.

Jeszcze kilka szczegółów

Wiecie już, w jaki sposób od początku do końca powstał ten konkretny portret. Warto jednak wspomnieć, że nie w każdej sytuacji wygląda to tak samo.

Jak wspomniałem wcześniej, algorytm tworzący maskę sekwencyjną został stworzony z myślą o rozpoznawaniu ludzi. Podczas robienia zdjęć kwiatom czy psom, ten krok jest pomijany, przez co cały efekt bazuje na mapie głębi.

Przedni aparat Pixela 2 - choć także potrafi rozmywać tło - nie ma technologii Dual Pixel, więc w przypadku selfie wykorzystywana jest tylko maska separacyjna.

Ktoś ma jeszcze wątpliwości, że oprogramowanie to przyszłość fotografii mobilnej?

Jakiś czas temu napisałem artykuł o tym, w jaki sposób software i sztuczna inteligencja pozwalają poprawiać jakość zdjęć i obchodzić sprzętowe ograniczenia. Tu mamy kolejny przykład.

Choć producenci robią wszystko, by zaawansowane technologie pracowały w sposób niezauważalny dla użytkownika, warto mieć świadomość, że po naciśnięciu spustu migawki algorytmy w ułamku sekundy wykonują mnóstwo pracy, aby efekt był zadowalający.