W dobie szybkiego rozwoju technologicznego, wykorzystanie sztucznej inteligencji (AI) w biznesie staje się nie tylko coraz bardziej powszechne, ale również coraz bardziej zaawansowane. W centrum uwagi znajduje się ostatnio Reddit, który odegrał kluczową rolę w szkoleniu dużych modeli językowych, takich jak GPT-3.5 OpenAI, LLaMA Meta czy Bard Google’a. W związku z tym, firma postanowiła zmienić swoją strategię i zmonetyzować swoje dane.
Reddit korzysta z generowanych przez użytkowników danych
Jednym z największych źródeł danych, na których trenowane są duże modele językowe, są wątki na platformie Reddit. Do tej pory korzystanie z tych danych odbywało się bez wynagrodzenia, co było przyczyną niezadowolenia ze strony firmy. W odpowiedzi na to, Reddit postanowił dołączyć do grona wydawców, którzy sprzeciwiają się wykorzystywaniu swojego kontentu do szkolenia modeli AI i ogłosił konsekwencje.
Zbiór danych Reddit jest naprawdę cenny, ale nie musimy oddać całej tej wartości niektórym z największych firm na świecie za darmo
Steve Huffman, założyciel i CEO Reddit
Reddit wprowadza opłaty za korzystanie z API
Firma ogłosiła w ostatnim czasie, że zamierza zacząć pobierać opłaty od firm za korzystanie z jej interfejsu programistycznego (API). W związku z tym, Reddit zaktualizował swoje wytyczne dotyczące korzystania z API, wykluczając tym samym wykorzystanie danych do uczenia maszynowego bez wyraźnej zgody właścicieli praw.
Reddit ogranicza wykorzystanie danych w szkoleniu AI
Ważnym aspektem tej zmiany jest fakt, że treści z platformy Reddit są wykorzystywane w różnych sposóbach w procesie szkolenia modeli AI. Przykładowo, ponad jedna piąta danych treningowych GPT-3.5 pochodzi z zestawu WebText2, który ekstrahuje strony internetowe z postów na Reddit o określonym rankingu. Reddit jest również częścią kolekcji Common Crawl, wykorzystywanej przez firmy takie jak OpenAI, Meta i Google do szkolenia AI.
Decyzja Reddit związana z planowanym debiutem na giełdzie?
Czas ogłoszenia tej zmiany może być powiązany z planowanym debiutem firmy na giełdzie jeszcze w tym roku. W związku z kilkoma nowymi zatrudnieniami, pojawiły się spekulacje, że Reddit może pracować nad własnym dużym modelem językowym.
Warto zauważyć, że Reddit nie jest jedynym serwisem, który postanowił zmonetyzować swoje API. Podobny krok podjął również Twitter pod rządami Elona Muska, utrudniając korzystanie z aplikacji innych firm.
Nie jest jeszcze jasne, na ile skuteczny okaże się plan Steva Huffmana dotyczący zarabiania na danych generowanych przez użytkowników platformy. Co prawda, wartość wysokiej jakości danych, opracowanych przez ludzi, może wzrosnąć w przyszłości, ale jednocześnie ponad dekadę danych z Reddit jest już publicznie dostępna za pośrednictwem Common Crawl. Mimo to, wartość wątków na Reddit może jeszcze wzrosnąć.
Czy decyzja Reddit to początek zmian na rynku?
Decyzja Reddit o zmonetyzowaniu swoich danych oraz wprowadzenie opłat za korzystanie z API może być przełomowa dla przyszłości szkolenia modeli AI. Ograniczenie dostępu do danych dla firm takich jak OpenAI, Meta i Google może wpłynąć na rozwój technologiczny w tej dziedzinie. Warto śledzić dalsze losy tej sytuacji i jej wpływ na przyszłość sztucznej inteligencji.
Źródło: the-decoder.com
Photo by Brett Jordan on Unsplash