Badania wykazują: Mismatch między danymi treningowymi ChatGPT a rzeczywistym użyciem
Badania wykazują: Mismatch między danymi treningowymi ChatGPT a rzeczywistym użyciem
Nowe badania przeprowadzone przez Data Provenance Initiative ujawniają interesujące wyniki dotyczące ChatGPT. Analizując 14 000 domen internetowych, badacze odkryli, że dane treningowe modelu pochodzą głównie z artykułów prasowych, encyklopedii oraz treści z mediów społecznościowych.
Jednak najczęstsze zastosowania ChatGPT w rzeczywistości obejmują tworzenie treści, burze mózgów oraz poszukiwanie wyjaśnień. Jak wskazuje badanie, "podczas gdy strony informacyjne stanowią prawie 40% wszystkich tokenów, mniej niż 1% zapytań do ChatGPT dotyczy wiadomości lub bieżących wydarzeń."
Analiza wzorców użycia, przeprowadzona na zbiorze danych WildChat, ujawnia, że ponad 30% konwersacji z użytkownikami dotyczy tematów kreatywnych. To pokazuje, jak bardzo różni się rzeczywiste użycie narzędzia od jego założeń w fazie treningu.
Na podstawie: Źródła








