ChatGPT i koledzy oblali egzamin z historii
Test składał się z 50 pytań na poziomie studiów magisterskich i wyższych. Dotyczył historii globalnej, podzielonej na osiem stref geograficzno-kulturowych. Informacje zaczerpnięto z Seshat Global History Databank, otwartej bazy danych obejmującej niemal 6 tys. lat ludzkiej cywilizacji.
Wyniki pokazały, że modele nieźle radzą sobie z faktografią, ale dużo gorzej z ich interpretacją i rozumieniem długofalowych procesów. Wynika to z faktu, że algorytmy budują odpowiedzi, ekstrapolując dane, których już się „nauczyły”. Przykładem może być pytanie, na którym „poległ” GPT-4: czy starożytny Egipt miał profesjonalną armię zawodową? Prawidłowa odpowiedź brzmi „nie”. Model odpowiedział źle, bo w podobnym okresie i regionie geograficznym istniały państwa, które takie siły wojskowe miały (np. imperium perskie).
Badanie pokazało też, że chatbotom dobrze idzie udzielanie odpowiedzi na temat obszarów dobrze przebadanych, z których zasób danych szkoleniowych jest duży. Gubią się natomiast w kwestiach bardziej szczegółowych, wymagających specjalistycznej wiedzy. Tak było w wypadku pytania o to, czy w starożytnym Egipcie używano zbroi łuskowej. GPT-4 odpowiedział twierdząco i ponownie się pomylił. Być może dlatego, że miał informacje, iż używali jej Scytowie czy Rzymianie.
Sięgnij do źródeł
Badania naukowe: Large Language Models' Expert-level Global History Knowledge Benchmark (HiST-LLM)
Porównując wyniki różnych „rodzin” chatbotów (firm Google, OpenAI i Meta), najlepiej poradził sobie GPT-4, który uzyskał 46 proc. poprawnych odpowiedzi, a najsłabiej Llama-3.1 (33 proc.). Dodatkowo badanie ujawniło luki w wiedzy na temat pewnych obszarów geograficzno-kulturowych. Modele z rodziny OpenAI lepiej radziły sobie z pytaniami dotyczącymi Ameryki Łacińskiej i Karaibów, a gorzej z subsaharyjską Afryką. Owe braki wynikają z faktu, że obszar Ameryki Łacińskiej czy Północnej jest o wiele lepiej przebadany i ma bogatszą literaturę niż właśnie subsaharyjska Afryka.
Dziękujemy, że jesteś z nami. To jest pierwsza wzmianka na ten temat. Pulsar dostarcza najciekawsze informacje naukowe i przybliża najnowsze badania naukowe. Jeśli korzystasz z publikowanych przez Pulsar materiałów, prosimy o powołanie się na nasz portal. Źródło: www.projektpulsar.pl.