Czy zastanawiałeś się kiedyś, jak może wyglądać przyszłość ze sztuczną inteligencją, która nie tylko rozumie tekst, ale także obrazy, dźwięki i filmy? Google DeepMind właśnie pracuje nad połączeniem modeli Gemini oraz Veo, co ma pozwolić sztucznej inteligencji na lepsze zrozumienie świata fizycznego. Jak będzie wyglądał świat, w którym AI naprawdę zacznie rozumieć rzeczywistość?
Gemini – model multimodalny od początku
Demis Hassabis, CEO Google DeepMind, podczas rozmowy na podcaście Possible zdradził, że model Gemini od samego początku był projektowany jako narzędzie multimodalne.
– Od zawsze budowaliśmy Gemini jako model, który będzie operował różnymi formatami danych – tekstem, obrazami, audio – mówi Hassabis. – Zależy nam na stworzeniu uniwersalnego asystenta cyfrowego, który naprawdę pomoże ludziom w ich codziennym życiu.
Widać więc wyraźnie, że Google stawia na praktyczne zastosowania swojej technologii, a nie tylko na eksperymentalne funkcje.
Veo – jak filmy z YouTube uczą AI świata
Veo to z kolei model AI, który rozumie fizykę i ruch dzięki analizie materiałów wideo. Skąd czerpie dane? Przede wszystkim z filmów dostępnych na platformie YouTube, której właścicielem jest właśnie Google.
– Veo 2 jest w stanie nauczyć się fizyki otaczającego nas świata dzięki oglądaniu ogromnej liczby filmów z YouTube – podkreśla Hassabis.
Takie podejście daje AI możliwość nauki bezpośrednio z realnych przykładów – z życia wziętych sytuacji nagranych przez miliony użytkowników z całego świata.
Czym są modele omni i dlaczego są przyszłością?
W branży AI coraz częściej mówi się o modelach „omni” – czyli takich, które potrafią analizować i generować różne formy treści: tekst, audio, obrazy czy filmy. Gemini i Veo to właśnie krok w stronę stworzenia takiego kompleksowego rozwiązania. Podobne kierunki rozwoju obserwujemy u innych gigantów technologicznych, takich jak Amazon czy OpenAI.
Wyobraź sobie świat, w którym twój cyfrowy asystent nie tylko odpowiada na pytania tekstem, ale pokazuje ci dokładnie, jak wykonać konkretne czynności. Przepisy kulinarne, naprawa sprzętu AGD, nauka nowych umiejętności – to wszystko stanie się jeszcze łatwiejsze dzięki inteligentnemu modelowi, który zna świat, obserwując go na wideo.
YouTube jako kopalnia danych – co na to twórcy?
W ubiegłym roku Google rozszerzyło warunki użytkowania YouTube, umożliwiając sobie korzystanie z części zamieszczonych tam materiałów do trenowania swoich modeli AI. Choć oficjalnie firma podkreśla, że dzieje się to zgodnie z umowami z twórcami treści, temat nadal budzi pewne kontrowersje dotyczące prywatności i praw autorskich.
Łączenie modeli Gemini z Veo pokazuje wyraźny kierunek rozwoju sztucznej inteligencji – ku jeszcze większej integracji ze światem rzeczywistym. Czy już niedługo AI stanie się naszym codziennym towarzyszem, potrafiącym efektywnie wspierać nas we wszystkich aspektach życia?
Źródło: TechCrunch
Photo by Google DeepMind on Unsplash