Pulsar - wyjątkowy portal naukowy. Pulsar - wyjątkowy portal naukowy. Shutterstock
Technologia

ChatGPT i koledzy oblali egzamin z historii

50 pytań dotyczących dziejów ludzkiej cywilizacji zadali siedmiu dużym modelom językowym badacze z Complexity Science Hub w Wiedniu. Wynik: jest problem. Spory problem.

Test składał się z 50 pytań na poziomie studiów magisterskich i wyższych. Dotyczył historii globalnej, podzielonej na osiem stref geograficzno-kulturowych. Informacje zaczerpnięto z Seshat Global History Databank, otwartej bazy danych obejmującej niemal 6 tys. lat ludzkiej cywilizacji.

Wyniki pokazały, że modele nieźle radzą sobie z faktografią, ale dużo gorzej z ich interpretacją i rozumieniem długofalowych procesów. Wynika to z faktu, że algorytmy budują odpowiedzi, ekstrapolując dane, których już się „nauczyły”. Przykładem może być pytanie, na którym „poległ” GPT-4: czy starożytny Egipt miał profesjonalną armię zawodową? Prawidłowa odpowiedź brzmi „nie”. Model odpowiedział źle, bo w podobnym okresie i regionie geograficznym istniały państwa, które takie siły wojskowe miały (np. imperium perskie).

Badanie pokazało też, że chatbotom dobrze idzie udzielanie odpowiedzi na temat obszarów dobrze przebadanych, z których zasób danych szkoleniowych jest duży. Gubią się natomiast w kwestiach bardziej szczegółowych, wymagających specjalistycznej wiedzy. Tak było w wypadku pytania o to, czy w starożytnym Egipcie używano zbroi łuskowej. GPT-4 odpowiedział twierdząco i ponownie się pomylił. Być może dlatego, że miał informacje, iż używali jej Scytowie czy Rzymianie.

Porównując wyniki różnych „rodzin” chatbotów (firm Google, OpenAI i Meta), najlepiej poradził sobie GPT-4, który uzyskał 46 proc. poprawnych odpowiedzi, a najsłabiej Llama-3.1 (33 proc.). Dodatkowo badanie ujawniło luki w wiedzy na temat pewnych obszarów geograficzno-kulturowych. Modele z rodziny OpenAI lepiej radziły sobie z pytaniami dotyczącymi Ameryki Łacińskiej i Karaibów, a gorzej z subsaharyjską Afryką. Owe braki wynikają z faktu, że obszar Ameryki Łacińskiej czy Północnej jest o wiele lepiej przebadany i ma bogatszą literaturę niż właśnie subsaharyjska Afryka.


Dziękujemy, że jesteś z nami. To jest pierwsza wzmianka na ten temat. Pulsar dostarcza najciekawsze informacje naukowe i przybliża najnowsze badania naukowe. Jeśli korzystasz z publikowanych przez Pulsar materiałów, prosimy o powołanie się na nasz portal. Źródło: www.projektpulsar.pl.

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną