Kim są i co mogą agenci AI. „W przyszłości zapewne każdy będzie miał swojego”
Na styczniowej konferencji w szwajcarskim Davos – na którą zjeżdżają najbardziej wpływowe osobistości biznesu, polityki i nauki – podobno rozmawiano niemal wyłącznie na dwa tematy: prezydentury Trumpa i agentów AI. W języku polskim słowo „agent” kojarzy się głównie z pracownikami tajnych służb lub ubezpieczeniami, ale w angielskim ma bardzo szerokie znaczenie. Dobrze to widać w kontekście komputerowym, gdzie mówi się o software agents, czyli programach wykonujących konkretne zadania.
Termin ten opisuje również kogoś lub coś działających w imieniu innej osoby jako pośrednik lub reprezentant.
Program na sterydach
Czym zatem są agenci AI? Wyrażenie to spopularyzowali 30 lat temu dwaj informatycy Stuart Russell i Peter Norvig w cenionym podręczniku akademickim „Artificial Intelligence: A Modern Approach”. W ich ujęciu byłby to program komputerowy „na sterydach” – taki, który potrafi podejmować autonomiczne decyzje, uczyć się na podstawie doświadczeń i adaptować do zmian w środowisku.
Opis ten w latach 90. XX w. był właściwie czysto teoretyczny, ale dwie dekady później Google DeepMind zaprezentował program AlphaGo. Wygrywał on z arcymistrzami starochińskiej gry planszowej go, znacznie bardziej złożonej pod względem liczby możliwych kombinacji (mimo prostszych zasad) niż szachy. Przede wszystkim dzięki temu, że potrafi podejmować decyzje i planować strategie m.in. za sprawą zastosowania sztucznych sieci neuronowych oraz tzw. uczenia ze wzmocnieniem, czyli techniki nagradzającej algorytmy za pożądane zachowania. I stąd opinie, że był to pierwszy w historii prawdziwy agent AI, chociaż bardzo wąsko wyspecjalizowany. Czy słuszne?
Problem w tym, że nie ma jednej precyzyjnej i powszechnie akceptowanej definicji, czym taki program miałby się charakteryzować. Dlatego naukowcy z Princeton University zaproponowali niedawno wprowadzenie trochę porządku pojęciowego. Po pierwsze, program AI można uznać za agenta, jeśli potrafi dążyć do trudnych celów w skomplikowanych warunkach i bez potrzeby instruowania go. Po drugie, musi rozumieć polecenia w języku naturalnym i działać autonomicznie bez nadzoru. Po trzecie, potrafi wykorzystywać narzędzia, takie jak wyszukiwarka internetowa czy oprogramowanie, oraz jest zdolny do planowania. Z kolei Jim Fan, główny naukowiec w firmie Nvidia (czołowym producencie procesorów dla AI), proponuje znacznie prostszą definicję: agenci to algorytmy zdolne do autonomicznego podejmowania decyzji w dynamicznie zmieniającym się świecie. Chociaż takie ujęcie tematu znów otwiera pole do wielu interpretacji i dyskusji.
Gdyby więc spróbować spojrzeć na agentów AI z perspektywy zwykłego użytkownika komputera, to byliby oni programami wykonującymi za niego różne prace czy zadania, np. od zaplanowania wakacyjnej podróży: zarezerwowania i opłacenia hoteli i kupienia biletów lotniczych, poprzez stworzenie tabelek w Excelu, aż po wyszukanie i zakup telewizora po promocyjnej cenie lub zainwestowanie pieniędzy na giełdzie. Czy w takim razie najnowsze wersje LLM-ów, które (tak jak ChatGPT czy Gemini) już potrafią przeszukiwać internet w imieniu użytkownika, można uznać za agentów AI? Czy są nimi propozycje firmy Anthropic?
Uaktualniając jesienią ub.r. swój najlepszy model Claude Sonnet 3.5, jako pierwsza wprowadziła ona funkcję Computer Use, która pozwala oddać do pewnego stopnia kontrolę nad komputerem przez użytkownika. Dzięki temu Claude może przeglądać internet, wypełniać formularze, planować wycieczki, zamawiać jedzenie czy tworzyć strony internetowe. Jednak korzystanie z tej funkcji wymaga pewnej wiedzy i zainstalowania specjalnej aplikacji, a dotychczasowe doświadczenia użytkowników nie są zbyt satysfakcjonujące. Zresztą Anthropic lojalnie przestrzega, że jest to zaledwie wczesna wersja testowa, wymagająca ostrożnego korzystania.
Google na razie ograniczył się do ogłoszenia, że pracuje nad projektem Mariner, czyli wtyczką do przeglądarki Chrome będącą agentem AI. Na podstawie instrukcji tekstowych oraz dostępnych w internecie informacji ma ona wykonywać proste zadania w imieniu użytkownika. Dwa miesiące temu Google pokazał dwuminutowy filmik, jak to działa. Agent AI otrzymał od użytkowniczki zadanie odnalezienia stron internetowych firm figurujących w przykładowym arkuszu kalkulacyjnym, a następnie uzupełnił w nim ich brakujące dane adresowe. I na razie tyle.
Operator jak stażysta
Dlatego wszyscy czekali z niecierpliwością, co zrobi OpenAI ze swoim ChatGPT. Szef firmy Sam Altman opublikował bowiem na początku stycznia kilkustronicowy esej o dość trywialnie brzmiącym tytule „Refleksje”. Mimo to od razu przyciągnął on uwagę i wywołał falę spekulacji (w prowokowaniu Altman jest mistrzem). Napisał mianowicie, że w tym roku możemy się spodziewać pierwszych prób „zatrudniania” agentów AI jako nowych „pracowników” firm, choć będzie się to odbywało stopniowo. Przy czym ograniczył się tylko do ogólnej prognozy, że „zmienią oni istotnie wydajność przedsiębiorstw”, nie precyzując jednak, na czym miałoby to polegać. A już kilka dni później w mediach zaczęły się pojawiać sensacyjnie brzmiące przecieki.
„The Information”, jeden z najlepiej poinformowanych serwisów technologicznych, pisał, że OpenAI na razie wstrzymuje się z wprowadzeniem na rynek agentów. Powodem miały być poważne obawy o bezpieczeństwo związane przede wszystkim z atakami typu prompt injection (co można przetłumaczyć jako „wstrzyknięcie złośliwych instrukcji”). Polegają one na zmanipulowaniu modelu AI, by wykonał pożądane polecenia. Wyobraźmy sobie, że prosimy agenta AI o znalezienie jakiejś bluzy sportowej. W trakcie przeglądania stron internetowych może on trafić na fałszywą witrynę, która zmusi go do ujawnienia poufnych informacji, takich jak numer karty kredytowej użytkownika. Podobne kłopoty miał napotkać wspomniany Computer Use (Claude). Dlatego firmy pracujące nad agentami AI rozważają wprowadzenie różnych rozwiązań, w tym ograniczenia ich dostępu do internetu, izolowania wrażliwych danych czy wprowadzenia obowiązkowej weryfikacji przez człowieka w przypadku ważnych decyzji (jak zapłata kartą).
Minęło trochę czasu i pojawiły się kolejne przecieki. Tym razem czołowi gracze w branży mieli być coraz bliżej stworzenia nie agentów, ale wręcz superagentów AI. Firma Altmana opracowała bowiem program na poziomie osoby z doktoratem, zdolny do wykonywania złożonych zadań. Takiemu superagentowi można by np. zlecić stworzenie od podstaw nowego oprogramowania do obsługi płatności internetowych – sam by je zaprojektował, przetestował i dostarczył działający produkt. Albo przeprowadził ocenę finansową potencjalnej inwestycji, analizując tysiące źródeł, oceniając ryzyko i przedstawiając wnioski szybciej, niż zrobiłby to cały sztab ludzi. Z kolei Mark Zuckerberg zapowiedział, że Meta (dawniej Facebook) jeszcze w tym roku będzie dysponować AI zdolną do pracy na poziomie programisty średniego szczebla. Dlatego niedługo znaczna część kodu komputerowego w naszych aplikacjach, włącznie z algorytmami sztucznej inteligencji, będzie faktycznie tworzona przez inżynierów AI, a nie ludzi.
Jakież więc było zaskoczenie, kiedy 23 stycznia OpenAI udostępniło użytkownikom agenta o nazwie Operator. Trudno się jednak oprzeć wrażeniu, że góra urodziła mysz. Pierwsze wielkie rozczarowanie wynikało z tego, że z programu mogą na razie korzystać wyłącznie ci, którzy wykupili najdroższą subskrypcję ChatGPT pro (w Polsce trzeba za nią zapłacić 229 euro miesięcznie). Negatywnie zaskoczyły też skromne możliwości Operatora, który potrafi wykonywać jedynie proste czynności online, takie jak rezerwacja stolików w restauracjach czy zamawianie biletów na koncerty.
Jego sercem jest program Computer-Using Agent (CUA) oparty na modelu GPT-4o. Wykonuje on zrzuty ekranu i skanuje piksele w przeglądarce internetowej, by zlokalizować elementy interfejsu użytkownika, takie jak przyciski, pola tekstowe czy menu. Następnie podejmuje odpowiednie działania, ponownie skanuje ekran, by sprawdzić rezultat i kontynuować pracę. Jednak Operator nie wykorzystuje przeglądarki internetowej zainstalowanej na komputerze użytkownika. Ten jedynie wpisuje polecenia w pole tekstowe, a system wysyła je do zdalnej przeglądarki działającej na serwerach OpenAI, gdzie następuje cały proces realizacji zadania. Ma to zapewnić lepszą pracę Operatora, czego jednak nie potwierdzają użytkownicy. Wiele recenzji zwraca na uwagę na „kruchość” programu, który czasami popełnia błędy (np. źle interpretuje strefy czasowe). Dlatego niektóre zadania mogą być realizowane szybciej i łatwiej przez samych użytkowników. Dziennikarz „The New York Times” Kevin Roose, który intensywnie testował Operatora, tak podsumował swoje doświadczenia: bardziej przypomina on niepewnego siebie stażystę niż sprawnego wirtualnego asystenta. W obecnej formie to raczej ciekawostka technologiczna niż narzędzie warte sporej miesięcznej opłaty.
Młodzi zagrożeni
Dlatego prof. Gary Marcus, amerykański kognitywista bardzo krytycznie obserwujący branżę sztucznej inteligencji, uważa, że gigantyczna fala zainteresowania agentami AI jest uzasadniona, ale tylko jeśli spojrzymy na to w bardzo długiej perspektywie czasowej. W przyszłości zapewne każdy z nas będzie miał swojego wirtualnego agenta, a firmy całe armie tego typu programów, których łączna wartość sięgnie bilionów dolarów. I przejmą one ogromną część pracy umysłowej wykonywanej obecnie przez ludzi, a może i fizycznej (roboty). Nie stanie się to jednak ani w tym roku, ani w przyszłym, ani nawet w ciągu tej dekady. Na razie więc musimy się zadowolić demonstracjami bardzo skromnych możliwości agentów AI, którzy w dodatku nie działają niezawodnie. Nie da się bowiem stworzyć tego typu narzędzi bez rozwiązania problemu halucynacji modeli AI. A na razie nikt nie ma pomysłu, jak to zrobić. Dopóki zaś firmy nie przekonają klientów, że ich cyfrowi agenci mogą wykonywać zadania bez „zbaczania z kursu”, cała ta wizja może się nie urzeczywistnić.
Jest też według Marcusa głębszy powód, dla którego dziś nie dysponujemy prawdziwymi agentami AI. Do ich stworzenia potrzebne są systemy posiadające zdrowy rozsądek, umiejętność logicznego rozumowania, solidne zakorzenienie w rzeczywistości oraz zdolność do niezawodnego wykonywania poleceń wraz z wystarczającą „teorią umysłu”, aby odgadywać intencje użytkowników. A to dokładnie te aspekty, z którymi obecne systemy generatywnej sztucznej inteligencji mają największe problemy – uważa Marcus.
Chociaż – jak pisze m.in. zawiedziony Operatorem Kevin Roose – nie należy lekceważyć tej technologii. I warto już poważnie się zastanawiać nad jej konsekwencjami społecznymi, zwłaszcza dla rynku pracy. Tego typu programy mogą się okazać dla ludzi po prostu zabójcze – szczególnie dla młodych, zwykle rozpoczynających zawodową karierę na wstępnych szczeblach. Zagrożone staną się też prace menedżerskie, administracyjne i techniczne średniego szczebla.
Tablice rejestracyjne AI
Także Jonathan Zittrain, profesor prawa z Harvard University, pisze w obszernym artykule na łamach „The Atlantic”, że agenci AI są potencjalnie groźni. A wynika to z ich trzech kluczowych cech. Po pierwsze, będą działać w świecie realnym na podstawie ogólnych, często niejasno sformułowanych celów. Po drugie, będą wchodzić w interakcje z różnymi narzędziami cyfrowymi: od arkuszy kalkulacyjnych po aplikacje zakupowe. I po trzecie – co wydaje się szczególnie niepokojące – będą działać bezterminowo, zgodnie z zasadą „ustaw i zapomnij”. Czyli niczym zapomniane satelity na orbicie będą krążyć po sieci jeszcze długo po tym, jak ich pierwotny cel utracił sens.
W dodatku agenci mogą wchodzić w nieprzewidziane interakcje. Przedsmak tego mieliśmy już w 2010 r., kiedy algorytmy spowodowały nagły 9-proc. spadek indeksów na amerykańskiej giełdzie, ponieważ zaczęły wykonywać między sobą mnóstwo bezmyślnych szybkich transakcji. Agenci mogą też niewłaściwie interpretować swoje cele, np. program AI poproszony przez ucznia o „urozmaicenie nudnych zajęć” wpadnie na pomysł wywołania fałszywego alarmu bombowego.
Według prof. Zittraina mamy w zanadrzu kilka relatywnie prostych rozwiązań. Przede wszystkim należałoby wprowadzić system oznaczania pakietów danych generowanych przez agentów AI – podobnie jak tablice rejestracyjne samochodów pozwalają zidentyfikować ich właścicieli. Taki system, choć możliwy do obejścia, mógłby zostać wsparty przez regulacje prawne, np. twórcy agentów korzystający z oznaczeń mogliby otrzymać limit odpowiedzialności za ewentualne szkody.
Zresztą kwestia odpowiedzialności prawnej firm tworzących tego typu programy staje się coraz pilniejsza. Pokazuje to sprawa Air Canada, której chatbot wprowadził klienta w błąd co do zasad zwrotu biletów w przypadku śmierci bliskiej osoby. Przewoźnik próbował argumentować przed sądem arbitrażowym, że bot jest „odrębnym podmiotem prawnym odpowiedzialnym za własne działania”, ale ta linia obrony została odrzucona. To ważny precedens pokazujący, że firmy nie będą mogły po prostu przenosić odpowiedzialności na swoich agentów AI. Inna propozycja Zittraina to wprowadzenie standardowego mechanizmu „wygaszania” agentów poprzez ograniczenie liczby ich działań, czasu funkcjonowania lub skali wpływu. Ci zaprojektowani do bezterminowej pracy lub o dużym wpływie podlegaliby większej kontroli.
Rządy i prawodawcy powinni więc już teraz zacząć działać, choć na razie możliwości agentów AI zdecydowanie bardziej rozczarowują, niż przerażają. Ale to się może zmienić.