Nowe narzędzie do budowania agentów konwersacyjnych
ElevenLabs, firma specjalizująca się w klonowaniu głosu i technologii tekstu na mowę, ogłosiła wprowadzenie możliwości tworzenia agentów konwersacyjnych AI. Dzięki nowemu rozwiązaniu użytkownicy mogą korzystać z platformy deweloperskiej ElevenLabs do tworzenia interaktywnych agentów. Możliwe jest dostosowanie tonacji głosu oraz długości odpowiedzi.
Dotychczas ElevenLabs skupiał się głównie na dostarczaniu głosów i narzędzi AI do usług tekst-na-mowę. Jednak jak wskazał Sam Sklar, dyrektor ds. rozwoju, wielu klientów już eksperymentowało z tworzeniem agentów AI do rozmów, choć głównymi wyzwaniami były integracja bazy wiedzy i zarządzanie przerwami w konwersacji. Dlatego firma zdecydowała się na zbudowanie kompletnego systemu obsługi agentów konwersacyjnych.
ElevenLabs: Tworzenie agenta AI w praktyce
Zalogowani użytkownicy mogą teraz na ElevenLabs wybrać szablon lub rozpocząć nowy projekt, by stworzyć agenta AI. Mogą określić język, jakim będzie się posługiwał agent, wstępną wiadomość i systemowy prompt, który definiuje charakter i styl agenta. Deweloperzy mają również do wyboru modele językowe (np. Gemini, GPT, Claude) oraz parametry kreatywności odpowiedzi (tzw. temperatura) i limit tokenów.
Dostępne są dodatkowe opcje, takie jak ustawienia dotyczące głosu, opóźnień, stabilności, kryteriów autoryzacji oraz maksymalnego czasu trwania konwersacji.
Własne zasoby i narzędzia programistyczne
ElevenLabs umożliwia użytkownikom dodanie własnej bazy wiedzy, na przykład w formie plików, linków lub tekstu, aby zasilić agenta konwersacyjnego. Firma oferuje też integrację z niestandardowymi modelami językowymi oraz SDK kompatybilne z Pythonem, JavaScriptem, Reactem i Swiftem. Dostępne jest również API WebSocket dla zaawansowanych ustawień.
Firmy mogą zdefiniować kryteria, które pozwolą zbierać określone informacje od klientów, jak imię i nazwisko czy adres e-mail, oraz ustalać wytyczne do oceny efektywności rozmowy.
Rozwój funkcji i konkurenci ElevenLabs na rynku
W nowym produkcie ElevenLabs wykorzystuje swoją istniejącą technologię zamiany tekstu na mowę. Firma pracuje również nad wprowadzeniem zamiany mowy na tekst, choć obecnie nie oferuje tej funkcji jako osobnego API. W przyszłości może to stanowić konkurencję dla API oferowanych przez takie firmy jak Google, Microsoft czy Amazon, a także dla wyspecjalizowanych rozwiązań, jak Whisper od OpenAI, AssemblyAI, Deepgram, Speechmatics czy Gladia.
Firma, która planuje pozyskać kolejne finansowanie przy wycenie powyżej 3 miliardów dolarów, rywalizuje także z innymi startupami w obszarze AI, takimi jak Vapi czy Retell, które również rozwijają agentów AI do rozmów. Szczególnie duże wyzwanie stanowi konkurencja z API od OpenAI do konwersacji w czasie rzeczywistym, ale ElevenLabs uważa, że możliwość szerokiej personalizacji i wyboru modeli językowych zapewni jej przewagę.