W dzisiejszym, szybko zmieniającym się świecie biznesu, technologie wspierające komunikację wielojęzyczną stają się niezbędne. Microsoft wychodzi naprzeciw tym potrzebom, ogłaszając nową funkcję w aplikacji Microsoft Teams – narzędzie Interpreter, które pozwoli na klonowanie głosu użytkownika w czasie rzeczywistym, oferując interpretację mowy aż w dziewięciu językach. Wdrożenie tej technologii zapowiedziane jest na początek 2025 roku i skierowane do subskrybentów usługi Microsoft 365.
Real-Time Voice Cloning – jak działa nowe narzędzie Microsoftu?
Podczas konferencji Microsoft Ignite 2024 ogłoszono nową funkcję Teams, która pozwoli na przetwarzanie mowy użytkownika w czasie rzeczywistym i przekład jej na inne języki z wykorzystaniem technologii klonowania głosu.
– Wyobraź sobie, że brzmisz dokładnie jak Ty, ale w innym języku – napisał Jared Spataro, CMO Microsoft, w swoim wpisie na blogu. Dzięki Interpreter w Teams, głos użytkownika może zostać zreplikowany w takich językach jak angielski, francuski, niemiecki, włoski, japoński, koreański, portugalski, chiński mandaryński i hiszpański.
Prywatność i bezpieczeństwo danych w Interpreter od Microsoft Teams
Choć Microsoft nie podał szczegółowych informacji dotyczących tej technologii, firma podkreśla, że narzędzie nie przechowuje żadnych danych biometrycznych i jest zgodne z wytycznymi dotyczącymi ochrony prywatności.
– Interpreter jest zaprojektowany tak, aby wiernie przekazywać treść mowy, bez dodawania jakichkolwiek założeń czy dodatkowych informacji – podkreślił rzecznik Microsoft w rozmowie z TechCrunch.
Klonowanie głosu w Teams można włączyć tylko po wyrażeniu świadomej zgody przez użytkownika – podczas spotkania otrzymuje on powiadomienie lub może aktywować opcję w ustawieniach „Voice simulation consent”.
Dlaczego klonowanie głosu zyskuje na popularności?
Różne firmy technologiczne pracują nad rozwojem technologii imitujących głos. Przykładem jest Meta, która pilotażowo wprowadziła narzędzie do tłumaczenia głosu w filmach na Instagramie, oraz ElevenLabs, oferująca platformę do wielojęzycznej syntezy mowy. Rozwój technologii natural language processing, która obejmuje m.in. tłumaczenia, rośnie w szybkim tempie. Szacuje się, że do 2026 roku rynek ten osiągnie wartość 35,1 miliarda dolarów.
Choć tłumaczenia AI są często mniej dokładne niż praca profesjonalnych tłumaczy, oszczędności kosztowe i czasowe przekonują wiele firm do ich stosowania.
Zagrożenia związane z klonowaniem głosu i technologiami deepfake
Rozwój technologii klonowania głosu niesie ze sobą także pewne ryzyka. Deepfake’y zyskują na popularności, a fałszywe nagrania głosowe i wideo stają się coraz trudniejsze do rozpoznania. W bieżącym roku fałszywe nagrania z udziałem znanych postaci, takich jak prezydent Joe Biden czy Taylor Swift, były szeroko udostępniane w mediach społecznościowych, wzbudzając obawy związane z dezinformacją.
Tego rodzaju technologie są również wykorzystywane w celach przestępczych – jednym z przykładów jest przypadek, gdy oszuści wykorzystali spotkanie na Teams do oszukania firmy na kwotę 25 milionów dolarów, symulując głos pracowników najwyższego szczebla.
Ze względu na potencjalne ryzyko i konsekwencje, niektóre firmy rezygnują z publikowania takich technologii. Przykładem jest OpenAI, która zrezygnowała z udostępnienia swojej technologii klonowania głosu, Voice Engine, obawiając się jej niewłaściwego użycia.
Przyszłość Microsoft Interpreter w Teams
Chociaż Microsoft Interpreter to stosunkowo wąska aplikacja klonowania głosu, pytania o bezpieczeństwo i odpowiednie zabezpieczenia są uzasadnione. Jak podkreślają eksperci, możliwe jest, że narzędzie zostanie użyte w niewłaściwy sposób, np. do symulacji głosu w celu wyłudzenia informacji. Dlatego też kluczowe będzie monitorowanie, jak Microsoft będzie zarządzać bezpieczeństwem i zapobiegać nadużyciom.
Przyszłość pokaże, jakie dodatkowe mechanizmy ochrony zostaną wdrożone przez Microsoft, aby zapewnić użytkownikom pełne bezpieczeństwo podczas korzystania z narzędzia Interpreter w Teams.
Źródło: TechCrunch