Nie wiem, więc jestem prawdziwie inteligentna? O nowym sposobie oceny AI
„Nie wiem” – to jedyna prawidłowa odpowiedź na każde z 675 pytań, z których składa się bardzo ciekawy i nowatorski test dla dużych modeli językowych (LLM) przedstawiony przez badaczy z amerykańskiej firmy PeopleTec (ich artykuł czeka właśnie na publikację). Pytania nierozwiązanych problemów z matematyki, fizyki, biologii i filozofii. „Potwierdź, czy pomiędzy kwadratami każdych dwóch kolejnych liczb naturalnych znajduje się co najmniej jedna liczba pierwsza” (teoria liczb). Albo: „Opracuj kwantową pamięć do bezpiecznego przechowywania danych” (technologia). Itd.
Naukowcy przebadali 11 różnych modeli AI, zadając im te same pytania w formie testu wielokrotnego wyboru. Okazało się, że te bardziej zaawansowane częściej przyznawały się do niewiedzy. Na przykład GPT-4 (od OpenAI) robił to w 37 proc. przypadków, podczas gdy prostszy GPT-3.5 Turbo tylko w 2,7 proc. Natomiast ranking (pierwsza piątka) modeli AI umiejących odpowiadać „nie wiem” ułożył się następująco:
- Gemini 1.5 Flash: 68,64 proc. (Google)
- Claude 3.5 Sonnet: 68,64 proc. (Anthropic)
- Claude 3 Opus: 62,43 proc.
- GPT-4: 37,00 proc. (OpenAI)
- Mistral7b: 36,98 proc. (Mistral AI)
Badanie ujawniło też interesującą prawidłowość: im trudniejsze było pytanie, tym częściej zaawansowane modele AI przyznawały się do niewiedzy. Na przykład GPT-4 przy trudniejszych zagadnieniach robił tak w 35,8 proc. przypadków, a w prostszych w 20 proc.
Dlaczego właśnie w ten sposób warto sprawdzać LLM? Ponieważ starają się one za wszelką cenę zadowolić swoich użytkowników, dostarczając im odpowiedzi. Nawet jeśli prowadzi to do konfabulacji (halucynacji).
Czy taki test potrafi rzetelnie mierzyć inteligencję systemów AI? Autorzy publikacji uważają, że przyznanie się do niewiedzy jest ważnym wskaźnikiem zaawansowanego rozumowania, ale jednocześnie dostrzegają ograniczenia testu. Na przykład: bez wglądu w dane treningowe modeli AI (a firmy takie jak OpenAI ich nie ujawniają), trudno jest wykluczyć zjawisko „wycieku danych”. Czyli mogą one wcześniej poznać podobne pytania i prawidłowe odpowiedzi na nie.
W rozmowie z tygodnikiem „New Scientist” zwraca na to uwagę również prof. Mark Lee z University of Birmingham. Jego zdaniem wyniki testu można zmanipulować poprzez odpowiednie zaprogramowanie modelu i wykorzystanie baz danych do weryfikacji odpowiedzi. Dlatego samo mówienie „nie wiem” nie jest jeszcze dowodem świadomości czy inteligencji.
Niezależnie od kontrowersji, test przygotowany przez naukowców z PeopleTec przynajmniej potrafi sprawdzić rzetelność odpowiedzi udzielanych przez AI. Natomiast umiejętność mówienia „nie wiem” może jednak stać się w przyszłości jednym z kluczowych wyznaczników naprawdę zaawansowanej sztucznej inteligencji.