Google DeepMind integruje Gemini z Veo

Czy zastanawiałeś się kiedyś, jak może wyglądać przyszłość ze sztuczną inteligencją, która nie tylko rozumie tekst, ale także obrazy, dźwięki i filmy? Google DeepMind właśnie pracuje nad połączeniem modeli Gemini oraz Veo, co ma pozwolić sztucznej inteligencji na lepsze zrozumienie świata fizycznego. Jak będzie wyglądał świat, w którym AI naprawdę zacznie rozumieć rzeczywistość?

Gemini – model multimodalny od początku

Demis Hassabis, CEO Google DeepMind, podczas rozmowy na podcaście Possible zdradził, że model Gemini od samego początku był projektowany jako narzędzie multimodalne.

– Od zawsze budowaliśmy Gemini jako model, który będzie operował różnymi formatami danych – tekstem, obrazami, audio – mówi Hassabis. – Zależy nam na stworzeniu uniwersalnego asystenta cyfrowego, który naprawdę pomoże ludziom w ich codziennym życiu.

Widać więc wyraźnie, że Google stawia na praktyczne zastosowania swojej technologii, a nie tylko na eksperymentalne funkcje.

Veo – jak filmy z YouTube uczą AI świata

Veo to z kolei model AI, który rozumie fizykę i ruch dzięki analizie materiałów wideo. Skąd czerpie dane? Przede wszystkim z filmów dostępnych na platformie YouTube, której właścicielem jest właśnie Google.

– Veo 2 jest w stanie nauczyć się fizyki otaczającego nas świata dzięki oglądaniu ogromnej liczby filmów z YouTube – podkreśla Hassabis.

Takie podejście daje AI możliwość nauki bezpośrednio z realnych przykładów – z życia wziętych sytuacji nagranych przez miliony użytkowników z całego świata.

Czym są modele omni i dlaczego są przyszłością?

W branży AI coraz częściej mówi się o modelach „omni” – czyli takich, które potrafią analizować i generować różne formy treści: tekst, audio, obrazy czy filmy. Gemini i Veo to właśnie krok w stronę stworzenia takiego kompleksowego rozwiązania. Podobne kierunki rozwoju obserwujemy u innych gigantów technologicznych, takich jak Amazon czy OpenAI.

Wyobraź sobie świat, w którym twój cyfrowy asystent nie tylko odpowiada na pytania tekstem, ale pokazuje ci dokładnie, jak wykonać konkretne czynności. Przepisy kulinarne, naprawa sprzętu AGD, nauka nowych umiejętności – to wszystko stanie się jeszcze łatwiejsze dzięki inteligentnemu modelowi, który zna świat, obserwując go na wideo.

YouTube jako kopalnia danych – co na to twórcy?

W ubiegłym roku Google rozszerzyło warunki użytkowania YouTube, umożliwiając sobie korzystanie z części zamieszczonych tam materiałów do trenowania swoich modeli AI. Choć oficjalnie firma podkreśla, że dzieje się to zgodnie z umowami z twórcami treści, temat nadal budzi pewne kontrowersje dotyczące prywatności i praw autorskich.

Łączenie modeli Gemini z Veo pokazuje wyraźny kierunek rozwoju sztucznej inteligencji – ku jeszcze większej integracji ze światem rzeczywistym. Czy już niedługo AI stanie się naszym codziennym towarzyszem, potrafiącym efektywnie wspierać nas we wszystkich aspektach życia?

Źródło: TechCrunch

Photo by Google DeepMind on Unsplash

Najnowsze

OpenAI ogłosił wprowadzenie GPT-5.1

Jak AI zmienia pracę programistów? Co dalej z juniorami? [PODCAST 🎙️]

Lumen stawia na AI Palantira, by zbudować nową cyfrową infrastrukturę

Google DeepMind integruje Gemini z Veo. Czego możemy się spodziewać?

Jak włączyć i korzystać z wtyczek do ChatGPT – poradnik krok po kroku

Wszystko, co musisz wiedzieć o Midjourney

Co to jest ChatGPT? – i inne najczęściej zadawane pytania

Najnowsze posty