Google DeepMind, flagowe laboratorium badawcze AI, postawiło sobie za cel wyprzedzenie OpenAI w wyścigu o najlepsze narzędzie do generowania wideo. W poniedziałek firma zaprezentowała Veo 2 – nową generację modelu AI do tworzenia filmów, zdolnego generować klipy o długości przekraczającej dwie minuty i rozdzielczości aż do 4K (4096 x 2160 pikseli).
To ogromny skok w porównaniu do OpenAI Sora, które obecnie obsługuje klipy o rozdzielczości 1080p i długości do 20 sekund. Jednak w praktyce, w eksperymentalnym narzędziu VideoFX, gdzie Veo 2 jest już dostępne, filmy są ograniczone do 720p i maksymalnie 8 sekund.
Nowe możliwości Veo 2
Podobnie jak jego poprzednik, model generuje wideo na podstawie poleceń tekstowych lub kombinacji tekstu i obrazów referencyjnych. Jednak najnowsza wersja została wzbogacona o kilka istotnych ulepszeń:
- Realistyczniejsze modelowanie ruchu i fizyki – lepiej radzi sobie z płynnością cieczy (jak syrop klonowy) oraz odbiciami światła i cieniami.
- Poprawione tekstury i ostrość obrazu – szczególnie w dynamicznych scenach z dużą ilością ruchu.
- Zaawansowane kontrolowanie kamery – model dokładniej symuluje ruch kamery, umożliwiając bardziej złożone ujęcia i perspektywy.
- Większa różnorodność stylów – potrafi generować filmy o stylistyce inspirowanej animacjami Pixara, kinowymi efektami oraz bardziej złożoną mimiką postaci.
Jednak pomimo tych ulepszeń, model wciąż nie unika błędów. Przykłady przedstawione przez DeepMind pokazują, że nadal ma trudności z tzw. „dolną doliną niesamowitości” – obiekty mogą wyglądać nienaturalnie, a postacie ludzkie czy zwierzęce prezentują “puste” spojrzenia.
Współpraca z artystami i ograniczenia technologiczne
DeepMind podkreśla, że w trakcie prac nad Veo 2 współpracowało z twórcami, takimi jak Donald Glover, The Weeknd czy d4vd, aby lepiej zrozumieć procesy kreatywne i dostosować narzędzie do potrzeb artystów. Firma jest otwarta na dalsze testy i opinie użytkowników, które pomogą udoskonalić model.
Nadal istnieją wyzwania: spójność postaci w dłuższych klipach i generowanie skomplikowanych detali pozostaje problematyczne. Jak przyznał Eli Collins, wiceprezes ds. produktu w DeepMind, „koherencja i szczegółowość to obszary do dalszej poprawy”.
Bezpieczeństwo i kontrowersje dotyczące danych
Veo 2 zostało wytrenowane na ogromnej liczbie filmów, choć Google nie ujawnia dokładnych źródeł danych. Możliwe, że część materiałów pochodzi z YouTube, co wzbudza obawy o prawa autorskie. Google utrzymuje, że korzystanie z publicznych danych do szkolenia modeli AI mieści się w ramach „dozwolonego użytku”, co budzi sprzeciw wielu twórców i artystów.
Aby ograniczyć ryzyko nadużyć, DeepMind wdrożyło technologię znakowania treści SynthID, która osadza niewidoczne znaki wodne w wygenerowanych materiałach. Niemniej jednak, jak w przypadku wszystkich tego typu rozwiązań, system nie jest w 100% skuteczny.
Aktualizacja Imagen i przyszłość Veo 2
Oprócz Veo 2, Google DeepMind ogłosiło również ulepszenia swojego modelu generowania obrazów Imagen 3. Nowa wersja jest już dostępna w narzędziu ImageFX i oferuje lepszą jakość obrazów oraz bardziej precyzyjne oddanie szczegółów.
DeepMind planuje udostępnić Veo 2 w pełnym zakresie na platformie Vertex AI, umożliwiając deweloperom łatwiejsze korzystanie z narzędzia. Firma zamierza stopniowo rozwijać możliwości Veo 2, iterując na podstawie opinii użytkowników.
Podsumowanie
Google DeepMind stawia kolejny krok w rywalizacji o dominację na rynku generowania treści wideo AI. Choć narzędzie wciąż ma pewne ograniczenia, jego zaawansowane możliwości – w tym lepsza fizyka, kontrola kamery i realistyczne animacje – stanowią solidny fundament do dalszego rozwoju. W kontekście rosnącej popularności sztucznej inteligencji i jej wpływu na branże kreatywne, Veo 2 może stać się istotnym narzędziem dla artystów i twórców treści.
