AlphaGeometry2 lepsza niż złoci medaliści olimpiad matematycznych
Niemal dokładnie rok temu pisaliśmy w pulsarze o modelu AI o nazwie AlphaGeometry, stworzonym przez laboratorium Google DeepMind. Radził on sobie bardzo dobrze z zadaniami z geometrii euklidesowej (stąd jego nazwa) pochodzącymi z międzynarodowych olimpiad matematycznych (na poziomie przeduniwersyteckim). Z kolei w niedawno opublikowanej rozmowie z dr. Pushmeetem Kohlim, głównym naukowcem Google DeepMind, pytaliśmy, czy AI niedługo okaże się lepsza od ludzi w matematyce. „Postępy w tym obszarze dokonują się naprawdę szybko” – odpowiedział. I właśnie znalazło to potwierdzenie.
Badacze z DeepMind opublikowali bowiem w internecie preprint artykułu (jeszcze nie został zrecenzowany) opisującego ulepszoną wersję modelu, czyli AlphaGeometry 2 (w skrócie AG2). Potrafi ona „zrozumieć” (czyli sformalizować) aż 88 proc. zadań geometrycznych z międzynarodowych olimpiad matematycznych (IMO) z lat 2000–2024, co stanowi znaczący postęp w porównaniu z pierwszą wersją, która radziła sobie ze „zrozumieniem” tylko 66 proc. Co jeszcze ważniejsze, AG2 skutecznie rozwiązała 42 z 50 zadań (84 proc.), podczas gdy jej poprzedniczka poradziła sobie z 54 proc. problemów.
Za tak spektakularną poprawą kryje się kilka ulepszeń. Pierwsza wersja programu znała dziewięć podstawowych „słów” matematycznych, dzięki którym potrafiła „zrozumieć”, że np. „punkty A, B i C leżą na jednej prostej”. To pozwalało „pojąć” dwie trzecie zadań olimpijskich, choć nie zawsze wystarczyło do ich rozwiązania. Natomiast AG2 otrzymał istotnie bogatszy „język matematyczny”. Dzięki niemu „rozumie” nie tylko podstawowe relacje geometryczne, ale też bardziej złożone problemy – np. potrafi śledzić ruch punktów czy znajdować specjalne miejsca na płaszczyźnie. Między innymi to sprawiło, że program rozwiązuje znacznie więcej zadań.
Ważne zmiany zaszły także w jego sercu: silniku symbolicznym, czyli zaawansowanym systemie logicznego wnioskowania opartego na regułach geometrii i algebry. Dzięki nim AG2 wykonuje bardziej zaawansowane operacje geometryczne i przez to jest aż 300 razy szybszy od poprzednika. Ponadto zastosowano w niej innowacyjny algorytm, który nie skupia się na jednej ścieżce dowodowej, lecz eksploruje wiele równoległych możliwości. A także „dzieli się wiedzą” między różnymi ścieżkami rozumowania.
Sięgnij do źródeł
Badania naukowe: Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2
Istotnym postępem okazała się również zdolność AG2 do automatycznej formalizacji zadań podanych w języku naturalnym. O ile poprzednia wersja programu wymagała ręcznego tłumaczenia problemów z geometrii na język zrozumiały dla komputera, to nowa wykorzystuje do tego model językowy Gemini (czyli konkurenta ChatGPT).
Ludzcy eksperci, oceniający odpowiedzi udzielane przez AG2, uznali wiele z nich za wykazujące wyjątkową kreatywność. Świadczy o tym choćby rozwiązanie pewnego problemu z Międzynarodowej Olimpiady Matematycznej z 2024 r., które system wypracował w zaledwie 30 sekund. Otrzymało ono maksymalną liczbę punktów od Josepha Myersa, dwukrotnego złotego medalisty IMO.
AG2, mimo imponujących osiągnięć, nadal ma jednak pewne ograniczenia. Nie radzi sobie z niektórymi problemami, np. zawierającymi nierówności. Dlatego spośród 50 analizowanych zadań olimpijskich, sześć okazało się całkowicie poza zasięgiem jej możliwości formalizacji, a kolejne dwa – choć były próby – nie zostały rozwiązane. Naukowcy planują wprowadzić kolejne ulepszenia, więc można za jakiś czas spodziewać się wersji numer 3.
AlphaGeometry reprezentuje nowe podejście do AI w matematyce. W przeciwieństwie do wielu innych systemów nie bazuje na zaprogramowanej wiedzy eksperckiej stworzonej przez ludzi. Generuje bowiem własne dane treningowe i na ich podstawie uczy się rozwiązywać zadania. Taka metoda może okazać się przełomowa nie tylko w geometrii, ale także w innych dziedzinach matematyki i nauki w ogóle.
Dziękujemy, że jesteś z nami. To jest pierwsza wzmianka na ten temat. Pulsar dostarcza najciekawsze informacje naukowe i przybliża najnowsze badania naukowe. Jeśli korzystasz z publikowanych przez Pulsar materiałów, prosimy o powołanie się na nasz portal. Źródło: www.projektpulsar.pl.