Shutterstock
Struktura

Nie wiem, więc jestem prawdziwie inteligentna? O nowym sposobie oceny AI

Sztuczna inteligencja coraz prawdziwsza. Czy właśnie zaczyna czuć i myśleć jak człowiek?
Technologia

Sztuczna inteligencja coraz prawdziwsza. Czy właśnie zaczyna czuć i myśleć jak człowiek?

AI nic nie rozumie, nie myśli, nie jest kreatywna. Nie może być świadoma i nie ma zdolności odczuwania emocji. To bowiem potrafi tylko człowiek. Czy na pewno?

Ostry spór naukowców. AI myśli jak ludzie czy tylko udaje? A może myli się jak człowiek?
Technologia

Ostry spór naukowców. AI myśli jak ludzie czy tylko udaje? A może myli się jak człowiek?

Czy współczesne systemy AI naprawdę zaczynają myśleć jak ludzie? Naukowcy ostro się o to spierają.

Naukowcy z PeopleTec przebadali 11 różnych tzw. dużych modeli językowych, zadając im te same pytania w formie testu wielokrotnego wyboru. Jakie uzyskali odpowiedzi i o czym one świadczą?

„Nie wiem” – to jedyna prawidłowa odpowiedź na każde z 675 pytań, z których składa się bardzo ciekawy i nowatorski test dla dużych modeli językowych (LLM) przedstawiony przez badaczy z amerykańskiej firmy PeopleTec (ich artykuł czeka właśnie na publikację). Pytania nierozwiązanych problemów z matematyki, fizyki, biologii i filozofii. „Potwierdź, czy pomiędzy kwadratami każdych dwóch kolejnych liczb naturalnych znajduje się co najmniej jedna liczba pierwsza” (teoria liczb). Albo: „Opracuj kwantową pamięć do bezpiecznego przechowywania danych” (technologia). Itd.

Naukowcy przebadali 11 różnych modeli AI, zadając im te same pytania w formie testu wielokrotnego wyboru. Okazało się, że te bardziej zaawansowane częściej przyznawały się do niewiedzy. Na przykład GPT-4 (od OpenAI) robił to w 37 proc. przypadków, podczas gdy prostszy GPT-3.5 Turbo tylko w 2,7 proc. Natomiast ranking (pierwsza piątka) modeli AI umiejących odpowiadać „nie wiem” ułożył się następująco:

  1. Gemini 1.5 Flash: 68,64 proc. (Google)
  2. Claude 3.5 Sonnet: 68,64 proc. (Anthropic)
  3. Claude 3 Opus: 62,43 proc.
  4. GPT-4: 37,00 proc. (OpenAI)
  5. Mistral7b: 36,98 proc. (Mistral AI)

Badanie ujawniło też interesującą prawidłowość: im trudniejsze było pytanie, tym częściej zaawansowane modele AI przyznawały się do niewiedzy. Na przykład GPT-4 przy trudniejszych zagadnieniach robił tak w 35,8 proc. przypadków, a w prostszych w 20 proc.

Dlaczego właśnie w ten sposób warto sprawdzać LLM? Ponieważ starają się one za wszelką cenę zadowolić swoich użytkowników, dostarczając im odpowiedzi. Nawet jeśli prowadzi to do konfabulacji (halucynacji).

Czy taki test potrafi rzetelnie mierzyć inteligencję systemów AI? Autorzy publikacji uważają, że przyznanie się do niewiedzy jest ważnym wskaźnikiem zaawansowanego rozumowania, ale jednocześnie dostrzegają ograniczenia testu. Na przykład: bez wglądu w dane treningowe modeli AI (a firmy takie jak OpenAI ich nie ujawniają), trudno jest wykluczyć zjawisko „wycieku danych”. Czyli mogą one wcześniej poznać podobne pytania i prawidłowe odpowiedzi na nie.

W rozmowie z tygodnikiem „New Scientist” zwraca na to uwagę również prof. Mark Lee z University of Birmingham. Jego zdaniem wyniki testu można zmanipulować poprzez odpowiednie zaprogramowanie modelu i wykorzystanie baz danych do weryfikacji odpowiedzi. Dlatego samo mówienie „nie wiem” nie jest jeszcze dowodem świadomości czy inteligencji.

Niezależnie od kontrowersji, test przygotowany przez naukowców z PeopleTec przynajmniej potrafi sprawdzić rzetelność odpowiedzi udzielanych przez AI. Natomiast umiejętność mówienia „nie wiem” może jednak stać się w przyszłości jednym z kluczowych wyznaczników naprawdę zaawansowanej sztucznej inteligencji.

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną