Pojedynczy aparat i ładnie rozmyte tło, czyli jak Google'owi udało się zastąpić dwa aparaty jednym
Google twierdzi, że dzięki specjalnym rozwiązaniom Pixel 2 potrafi robić zdjęcia z rozmytym tłem mimo braku podwójnego aparatu. Jakie to rozwiązania?
18.10.2017 | aktual.: 18.10.2017 22:07
W klasycznych aparatach fotograficznych efekt płytkiej głębi ostrości (rozmycie tła za fotografowanym obiektem) uzyskiwany jest optycznie. Taki efekt jest przyjemny dla oka i - co najważniejsze - pozwala skupić wzrok odbiorcy na najważniejszym elemencie na zdjęciu.
W smartfonach - ze względu na niewielką wielkość użytych komponentów - optycznie tło rozmywane jest tylko podczas fotografowania obiektów z bliska. Gdy robisz portret osoby oddalonej o 2 metry, będzie ona tak samo ostra jak wszystko, co znajduje się za nią.
Od kilku lat producenci telefonów robią wszystko, by rozwiązać ten problem za pomocą oprogramowania.
Najłatwiej jest uzyskać dobry bokeh wykorzystując podwójny aparat
Podwójny aparat wykrywa głębię w podobny sposób co ludzkie oczy. Ze względu na różnice w perspektywie, do jednej soczewki trafia obraz bardziej przesunięty niż do drugiej, przy czym im bliżej znajduje się obiekt, tym bardziej przesunięcie jest widoczne.
Aby zrozumieć zasadę działania podwójnego aparatu, wystarczy umieścić przed oczyma palec i spojrzeć na niego raz lewym, a raz prawym okiem. Podczas gdy sam palec wyraźnie przeskakuje w polu widzenia, obiekty w oddali zdają się pozostawać w miejscu.
Wykorzystując to proste zjawisko, niektóre telefony z podwójnymi aparatami są w stanie wykryć, który obiekt znajduje się najbliżej obiektywu, co pozwala odciąć je od tła, które jest następnie cyfrowo rozmywane.
Niektóre marki (np. Samsung) próbowały zaimplementować w swoich smartfonach tryby rozmywające tło
wykorzystujące pojedyncze aparaty, ale efekty są zazwyczaj niezbyt zadowalające. Google twierdzi, że udało mu się stworzyć i wpakować do Pixela 2 pojedynczy aparat, który w skuteczności rozmywania tła nie ustępuje podwójnym systemom (choć pierwsze testy zdają się temu przeczyć). Jakie technologie zastosowano?
Krok pierwszy - HDR+
HDR+ to technologia, która łączy nawet 10 zdjęć zrobionych jedno po drugim, aby uzyskać fotkę o wysokiej jakości i rozpiętości tonalnej. Niektóre fotki są niedoświetlone, a inne prześwietlone, dzięki czemu w finalnym zdjęciu zachowane są szczegóły zarówno w cieniach, jak i najjaśniejszych partiach obrazu.
To dopiero początek drogi, którą muszą pokonać algorytmy, ale duża ilość detali jest niezbędna, aby cały proces przebiegł prawidłowo.
Krok drugi - odseparowanie tła z użyciem uczenia maszynowego
Google przeszkolił swoje algorytmy pod kątem dokładnego rozpoznawania ludzi na zdjęciach. Tworząc algorytm użyto niemal miliona zdjęć, na których uwieczniono osoby w różnych strojach, w okularach, z różnymi nakryciami głowy itp.
Po przeanalizowaniu zdjęcia, oprogramowanie tworzy tzw. maskę separacyjną zawierającą dość dokładny obrys fotografowanej osoby.
Gdyby oprogramowanie miało nałożyć rozmycie wyłącznie z użyciem wspomnianej maski separacyjnej, finalne zdjęcie wyglądałoby tak:
Na pierwszy rzut oka nie wygląda to źle, ale rozwiązanie to rodzi jeden problem: na tym etapie oprogramowanie nie wie, jak daleko znajdują się obiekty za człowiekiem, więc wszystko rozmywane jest z jednolitą siłą, co wygląda nienaturalnie. Bliższe obiekty powinny być ostrzejsze niż te w oddali.
Po drugie, algorytm bazujący na rozpoznawaniu obiektów - choć w tym wypadku poradził sobie nie najgorzej z wyostrzeniem stołu na pierwszym planie - teoretycznie mógłby w podobnej sytuacji uznać stół i talerze za tło.
Dlatego dla uzyskania satysfakcjonującego efektu potrzebny jest jeszcze jeden etap.
Krok trzeci - wykrywanie głębi z użyciem technologii Dual Pixel
Dual Pixel autofokus to technologia wykorzystująca piksele zbudowane z dwóch bliźniaczych części. Można ją znaleźć m.in. w takich smartfonach jak Galaxy S7, Galaxy S8 czy HTC U11, gdzie wykorzystywana jest do szybkiego ustawiania ostrości.
Google znalazł inny sposób na użycie tej technologii. Inżynierowie firmy wykorzystali fakt, że do lewej części piksela trafia obraz nieco inny niż do prawej.
Poniżej możecie zobaczyć to samo zdjęcie zrobione przez lewe i prawe części pikseli. Na pierwszy rzut oka obie fotki są identyczne, ale jeśli przyjrzycie się ostatniej animacji, dostrzeżecie mikroskopijne przesunięcie.
Przesunięcie jest naprawdę niewielkie, ale pamiętajmy, że telefon już na etapie HDR+ robi nawet 10 zdjęć. Po przeanalizowaniu ich wszystkich, oprogramowanie tworzy bardzo dokładną mapę głębi.
Krok czwarty - składanie wszystkich danych
Podsumujmy. Na tym etapie smartfon dysponuje:
- szczegółowym zdjęciem o wysokiej rozpiętości tonalnej;
- maską separacyjną zawierającą obrys fotografowanej osoby;
- mapą głębi pozwalającą ocenić, z jaką siłą należy rozmyć poszczególne partie obrazu, aby uzyskać naturalnie wyglądający bokeh.
Po zsumowaniu wszystkich informacji, powstaje zdjęcie na którym osoba i stolik na pierwszym planie pozostają ostre, a intensywność obiektów znajdujących się w oddali uzależniona jest od odległości, w jakiej się znajdują.
Mimo użycia jednego aparatu, efekt jest naprawdę ładny, a rozmycie wygląda naturalnie. Można oczekiwać, że w przyszłości będzie jeszcze lepiej dzięki nowemu układowi przetwarzania obrazu Pixel Visual Core.
Jeszcze kilka szczegółów
Wiecie już, w jaki sposób od początku do końca powstał ten konkretny portret. Warto jednak wspomnieć, że nie w każdej sytuacji wygląda to tak samo.
Jak wspomniałem wcześniej, algorytm tworzący maskę sekwencyjną został stworzony z myślą o rozpoznawaniu ludzi. Podczas robienia zdjęć kwiatom czy psom, ten krok jest pomijany, przez co cały efekt bazuje na mapie głębi.
Przedni aparat Pixela 2 - choć także potrafi rozmywać tło - nie ma technologii Dual Pixel, więc w przypadku selfie wykorzystywana jest tylko maska separacyjna.
Ktoś ma jeszcze wątpliwości, że oprogramowanie to przyszłość fotografii mobilnej?
Jakiś czas temu napisałem artykuł o tym, w jaki sposób software i sztuczna inteligencja pozwalają poprawiać jakość zdjęć i obchodzić sprzętowe ograniczenia. Tu mamy kolejny przykład.
Choć producenci robią wszystko, by zaawansowane technologie pracowały w sposób niezauważalny dla użytkownika, warto mieć świadomość, że po naciśnięciu spustu migawki algorytmy w ułamku sekundy wykonują mnóstwo pracy, aby efekt był zadowalający.