Struktura

Nie wiem, więc jestem prawdziwie inteligentna? O nowym sposobie oceny AI

Sztuczna inteligencja coraz prawdziwsza. Czy właśnie zaczyna czuć i myśleć jak człowiek?

AI nic nie rozumie, nie myśli, nie jest kreatywna. Nie może być świadoma i nie ma zdolności odczuwania emocji. To bowiem potrafi tylko człowiek. Czy na pewno?

Technologia

Ostry spór naukowców. AI myśli jak ludzie czy tylko udaje? A może myli się jak człowiek?

Czy współczesne systemy AI naprawdę zaczynają myśleć jak ludzie? Naukowcy ostro się o to spierają.

Naukowcy z PeopleTec przebadali 11 różnych tzw. dużych modeli językowych, zadając im te same pytania w formie testu wielokrotnego wyboru. Jakie uzyskali odpowiedzi i o czym one świadczą?

Marcin Rotkiewicz

16 grudnia 2024

„Nie wiem” – to jedyna prawidłowa odpowiedź na każde z 675 pytań, z których składa się bardzo ciekawy i nowatorski test dla dużych modeli językowych (LLM) przedstawiony przez badaczy z amerykańskiej firmy PeopleTec (ich artykuł czeka właśnie na publikację). Pytania nierozwiązanych problemów z matematyki, fizyki, biologii i filozofii. „Potwierdź, czy pomiędzy kwadratami każdych dwóch kolejnych liczb naturalnych znajduje się co najmniej jedna liczba pierwsza” (teoria liczb). Albo: „Opracuj kwantową pamięć do bezpiecznego przechowywania danych” (technologia). Itd.

Naukowcy przebadali 11 różnych modeli AI, zadając im te same pytania w formie testu wielokrotnego wyboru. Okazało się, że te bardziej zaawansowane częściej przyznawały się do niewiedzy. Na przykład GPT-4 (od OpenAI) robił to w 37 proc. przypadków, podczas gdy prostszy GPT-3.5 Turbo tylko w 2,7 proc. Natomiast ranking (pierwsza piątka) modeli AI umiejących odpowiadać „nie wiem” ułożył się następująco:

Gemini 1.5 Flash: 68,64 proc. (Google)
Claude 3.5 Sonnet: 68,64 proc. (Anthropic)
Claude 3 Opus: 62,43 proc.
GPT-4: 37,00 proc. (OpenAI)
Mistral7b: 36,98 proc. (Mistral AI)

Badanie ujawniło też interesującą prawidłowość: im trudniejsze było pytanie, tym częściej zaawansowane modele AI przyznawały się do niewiedzy. Na przykład GPT-4 przy trudniejszych zagadnieniach robił tak w 35,8 proc. przypadków, a w prostszych w 20 proc.

Dlaczego właśnie w ten sposób warto sprawdzać LLM? Ponieważ starają się one za wszelką cenę zadowolić swoich użytkowników, dostarczając im odpowiedzi. Nawet jeśli prowadzi to do konfabulacji (halucynacji).

Czy taki test potrafi rzetelnie mierzyć inteligencję systemów AI? Autorzy publikacji uważają, że przyznanie się do niewiedzy jest ważnym wskaźnikiem zaawansowanego rozumowania, ale jednocześnie dostrzegają ograniczenia testu. Na przykład: bez wglądu w dane treningowe modeli AI (a firmy takie jak OpenAI ich nie ujawniają), trudno jest wykluczyć zjawisko „wycieku danych”. Czyli mogą one wcześniej poznać podobne pytania i prawidłowe odpowiedzi na nie.

Sięgnij do źródeł

The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz

W rozmowie z tygodnikiem „New Scientist” zwraca na to uwagę również prof. Mark Lee z University of Birmingham. Jego zdaniem wyniki testu można zmanipulować poprzez odpowiednie zaprogramowanie modelu i wykorzystanie baz danych do weryfikacji odpowiedzi. Dlatego samo mówienie „nie wiem” nie jest jeszcze dowodem świadomości czy inteligencji.

Niezależnie od kontrowersji, test przygotowany przez naukowców z PeopleTec przynajmniej potrafi sprawdzić rzetelność odpowiedzi udzielanych przez AI. Natomiast umiejętność mówienia „nie wiem” może jednak stać się w przyszłości jednym z kluczowych wyznaczników naprawdę zaawansowanej sztucznej inteligencji.

Marcin Rotkiewicz

Z wykształcenia dziennikarz (pulsar i tygodnik POLITKA) i filozof, stypendysta Massachusetts Institute of Technology. Autor wywiadów rzek: z prof. Jerzym Vetulanim pt. „Mózg i błazen” oraz z prof. Bogdanem Wojciszke pt. „Homo nie całkiem sapiens”. Napisał również „W królestwie Monszatana. GMO, gluten i szczepionki”, za którą otrzymał nagrodę redaktorów portalu Mądre Książki.

Nie wiem, więc jestem prawdziwie inteligentna? O nowym sposobie oceny AI

Sztuczna inteligencja coraz prawdziwsza. Czy właśnie zaczyna czuć i myśleć jak człowiek?

Ostry spór naukowców. AI myśli jak ludzie czy tylko udaje? A może myli się jak człowiek?

Sięgnij do źródeł

Marcin Rotkiewicz

Mózg na zimno: Po co człowiekowi nauka, czyli o wyjaśnieniach w neurobiologii

Biada bladawcom. Co wyniknie z połączenia rozumów ludzkiego i pozaludzkiego

„Gladiator 2”, czyli smętna mina w obecności rekinów