Jesteście już zmęczeni codziennymi newsami z branży sztucznej inteligencji? No cóż, pora na kolejną sensacyjną informację!
Serio – to naprawdę robi wrażenie!
Na łamach swojego bloga Anthropic, twórcy rodziny LLM znanej jako Claude, pochwalił się nowościami. Zaktualizowano wersję Claude 3.5 Sonnet oraz upubliczniono zupełnie nowy model Claude 3.5 Haiku. Co więcej, firma wprowadza przełomową funkcję “computer use”, która pozwala sztucznej inteligencji na interakcję z komputerem w sposób zbliżony do ludzkiego.
Zresztą sami obczajcie:
Ulepszony Claude 3.5 Sonnet: Nowy lider w programowaniu
Zaktualizowana wersja Claude 3.5 Sonnet przynosi imponujące usprawnienia, szczególnie w zakresie umiejętności programistycznych. Model osiągnął znaczący wzrost wydajności w teście SWE-bench Verified z 33,4% do 49,0%, przewyższając wszystkie publicznie dostępne modele, włącznie z OpenAI o1-preview. Co istotne, te ulepszenia zostały wprowadzone bez zwiększenia kosztów czy spadku szybkości działania.
Co to jest test SWE-bench Verified?
SWE-bench Verified to narzędzie stworzone przez OpenAI do oceny wydajności modeli AI w zadaniach inżynierii oprogramowania. Zawiera 500 problemów zweryfikowanych przez ekspertów, aby zapewnić ich jasność i możliwość rozwiązania. Benchmark testuje zdolność modeli AI do naprawiania błędów w kodzie i weryfikuje ich poprawność za pomocą testów. Usprawnia to ocenę zdolności AI w porównaniu do wcześniejszych wersji, eliminując problemy z niejasnymi zadaniami i specyficznymi testami
Claude 3.5 Sonnet osiąga także doskonałe wyniki w zadaniach związanych z użyciem narzędzi, co czyni go idealnym rozwiązaniem dla firm poszukujących AI wspierającej procesy decyzyjne i automatyzujące działania. Deweloperzy mogą już od dziś testować ten model za pośrednictwem API, dostępnego m.in. na platformach Amazon Bedrock i Google Cloud Vertex AI.
Warto podkreślić, że nowa wersja Claude 3.5 Sonnet otrzymuje bardzo pozytywne opinie od firm, które już z niej korzystają. GitLab odnotował 10% poprawę w rozumowaniu przy zadaniach DevSecOps, Cognition zauważył znaczący postęp w kodowaniu i rozwiązywaniu problemów, a The Browser Company uznał model za najlepszy z dotychczas testowanych. Model przeszedł też testy bezpieczeństwa w amerykańskim i brytyjskim Instytucie Bezpieczeństwa AI oraz spełnia standardy bezpieczeństwa ASL-2.
Claude 3.5 Haiku: Wydajność premium w przystępnej cenie
Claude 3.5 Haiku, najnowsza wersja najszybszego modelu Anthropic, oferuje znaczące ulepszenia przy zachowaniu tej samej szybkości i kosztów co poprzednik. Model przewyższa nawet większego Claude 3 Opus w wielu testach, szczególnie wyróżniając się w kodowaniu (40,6% w SWE-bench Verified). Dzięki krótkiemu czasowi odpowiedzi i lepszemu wykonywaniu poleceń, świetnie sprawdza się w zastosowaniach użytkowych i analizie dużych zbiorów danych.
Model będzie dostępny w tym miesiącu poprzez API Anthropic oraz platformy Amazon Bedrock i Google Cloud Vertex AI, początkowo w wersji tekstowej, a później także z obsługą obrazów.

Rewolucyjna funkcja: Computer Use
Anthropic całkowicie zmienia sposób, w jaki sztuczna inteligencja korzysta z komputera. Zamiast dawać Claude’owi zestaw sztywnych narzędzi do konkretnych zadań, uczą go obsługi komputera podobnie jak człowieka. To trochę tak, jakby zamiast dawać mu gotową instrukcję obsługi, pozwolili mu samemu nauczyć się korzystać z programów i aplikacji.
W praktyce wygląda to tak, że stworzyli specjalny interfejs API, dzięki któremu Claude może “widzieć” ekran i reagować na to, co się na nim dzieje. Wyobraźmy sobie, że mówimy mu: “weź dane z tego arkusza Excel i wykorzystaj je do wypełnienia formularza online”. Claude rozumie takie polecenie i sam wie, jak je wykonać – otwiera odpowiednie programy, przegląda dane, wchodzi na strony internetowe i wypełnia formularze.
I trzeba przyznać, że radzi sobie z tym całkiem nieźle. W testach OSWorld, które sprawdzają, jak dobrze AI radzi sobie z obsługą komputera, Claude 3.5 Sonnet osiągnął wynik 14,9% w zadaniach opartych na samych zrzutach ekranu – to prawie dwa razy lepiej niż następny najlepszy system AI. A gdy dano mu więcej czasu na wykonanie zadań krok po kroku, poradził sobie jeszcze lepiej, osiągając 22%.
Oczywiście, nie wszystko jeszcze działa idealnie. Niektóre rzeczy, które dla nas są banalne – jak przewijanie strony czy przeciąganie plików – dla Claude’a wciąż stanowią wyzwanie. Dlatego Anthropic sugeruje, żeby na razie zacząć od prostszych zadań.
Bezpieczeństwo i odpowiedzialny rozwój
Firma poważnie podchodzi też do kwestii bezpieczeństwa. Zdają sobie sprawę, że takie umiejętności mogłyby zostać wykorzystane np. do rozsyłania spamu czy oszustw, dlatego stworzyli specjalne systemy, które monitorują, jak AI korzysta z komputera i wyłapują potencjalnie szkodliwe działania.
Perspektywy na przyszłość
Choć niektóre funkcje, takie jak przewijanie czy powiększanie, stanowią jeszcze wyzwanie dla AI, Anthropic przewiduje szybki rozwój tych możliwości w najbliższych miesiącach. Firma zachęca deweloperów do eksperymentowania z nowymi funkcjami, jednocześnie zalecając początkowo skupienie się na zadaniach niskiego ryzyka.
To naprawdę ekscytujący krok naprzód. Choć technologia jest jeszcze w powijakach, już teraz widać, że może zrewolucjonizować sposób, w jaki automatyzujemy pracę na komputerze, tworzymy oprogramowanie czy prowadzimy badania. To nie jest już science fiction – to dzieje się naprawdę, na naszych oczach.
Źródło: anthropic.com
2 Comments
Pingback: Mistral AI wprowadza nowe funkcje i model Pixtral Large - beAIware.pl
Pingback: Google Gemini będzie się integrować ze Spotify - beAIware.pl