Pulsar - wyjątkowy portal naukowy. Pulsar - wyjątkowy portal naukowy. Shutterstock
Struktura

Inwazja chatbotów

Źródło: Andrew Gray, Grafika Amanda Montañez
Generatywna sztuczna inteligencja przenika do publikacji naukowych i, co jeszcze gorsze, do ich recenzji

Niektórzy badacze obawiają się nadużywania programów ChatGPT i innych chatbotów przy pisaniu prac naukowych. Obawy te uzasadniają raptownym wzrostem w publikacjach liczby podejrzanych sformułowań typowych dla sztucznej inteligencji.

Niektóre z nich, jak choćby wtręt w niedawnym artykule w czasopiśmie „Surfaces and Interfaces” wydawnictwa Elsevier: „z pewnością tutaj jest możliwe wprowadzenie do twojego tematu”– stanowią dość oczywisty dowód korzystania z chatbota LLM, czyli z dużego modelu językowego (przedstawiciel wydawcy ubolewa nad tym i wyjaśnia przyczynę pominięcia tego fragmentu przy recenzowaniu).

Ten przykład jest zdaniem Elisabeth Bik, konsultantki ds. naukowej rzetelności, „zapewne tylko wierzchołkiem góry lodowej”. W większości innych przypadków udział sztucznej inteligencji nie jest tak ewidentny, a tekst SI nie jest tak jednoznaczny, więc automatyczne detektory tekstów autorstwa SI są zawodne.

W kilku dziedzinach zidentyfikowano jednak pewne słowa i wyrażenia – na przykład „complex and multifacted” (złożony i wieloaspektowy) – pojawiające się częściej w zdaniach generowanych przez sztuczną inteligencję niż w typowych tekstach pisanych przez człowieka. „Przeglądając prace naukowe wystarczająco długo, stajemy się wyczuleni na styl” – twierdzi Andrew Gray, bibliotekarz i badacz z University College London.

LLM-y służą generowaniu tekstu, ale to, co generują, nie musi być zgodne z faktami. „Problem polega na tym, że te narzędzia nie są jeszcze wystarczająco dobre, aby można im było zaufać” – mówi Bik. Ulegają temu, co informatycy nazywają halucynacjami, czyli po prostu zmyślają. „Szczególnie w artykułach naukowych SI generuje odniesienia do cytatów, które nie istnieją” – zauważa Bik. Jeśli więc naukowcy darzą LLM-y nadmiernym zaufaniem, to ryzykują pojawienie się w ich pracach błędów generowanych przez SI, zwiększając tym samym liczbę niedopracowanych publikacji.

Gray poszukiwał ostatnio w artykułach naukowych modnych, nadużywanych przez SI wyrazów, korzystając z Dimensions – platformy do analizy danych, która według jej twórców śledzi ponad 140 mln artykułów na całym świecie. Interesowały go słowa i zwroty najbardziej lubiane przez chatboty, takie jak „intricate” (skomplikowany), „meticulous” (skrupulatny) czy „commendable” (godny polecenia). Jego zdaniem te wskaźnikowe sformułowania dają lepsze wyobrażenie o skali problemu niż jakiekolwiek inne oferowane przez SI, które nieuważny autor mógłby przepisać do artykułu.

Według analizy Graya, umieszczonej na serwerze preprintów arXiv.org i jeszcze nierecenzowanej, co najmniej 60 tys. artykułów naukowych – nieco ponad 1% wszystkich opublikowanych na całym świecie w zeszłym roku – zawiera dowody na korzystanie z LLM. Inne badania, dotyczące poszczególnych dziedzin nauki, świadczą o jeszcze większym udziale LLM-ów. W jednym z nich wykazano, że aż w 17,5% najnowszych artykułów z informatyki widoczny jest udział SI.

Ustalenia te zostały potwierdzone wynikami wyszukiwania prowadzonego przez „Scientific American” z wykorzystaniem Dimensions i kilku innych baz tekstów naukowych (Google Scholar, Scopus, PubMed, OpenAlex, Internet Archive Scholar). Szukano oznak, które mogły wskazywać na korzystanie z LLM przy pisaniu artykułów, zwracając uwagę na częstość występowania typowych dla ChatGPT i innych modeli SI wyrażeń, w rodzaju: „według mojej ostatniej aktualizacji wiedzy”. W 2020 roku sformułowanie to pojawiło się tylko raz w dokumentach na czterech głównych platformach objętych wyszukiwaniem, natomiast w roku 2022 roku już 136 razy. Podejście to miało jednak pewne ograniczenia: niemożliwe było wyodrębnienie artykułów dotyczących bezpośrednio modeli SI, a poza tym bazy danych zawierały nie tylko artykuły z czasopism naukowych.

W analizie „Scientific American” stwierdzono także wzrost liczby standardowych wyrażeń lub słów preferowanych przez ChatGPT (np. „delve” – przeprowadzać), które – jak zauważyło wielu analityków tekstów tworzonych przez SI – znacznie częściej zaczęły się pojawiać w środowisku akademickim. Ekstremalnymi przykładami są określenia „commendable” (godny polecenia) i, o ironio, „meticulous” (skrupulatny).

Takie odkrycia wskazują na zmiany w słownictwie prac naukowych jako następstwa wzorowania się na języku chatbotów. „Istnieją dowody, że niektóre określenia ewoluują, ale pojawia się pytanie, ile z tych zmian jest naturalnych, długookresowych, a ile wynika z innych przyczyn” – zauważa Gray.

Skoro naukowcy są pod presją zasady „publikuj albo giń”, nie dziwi, że niektórzy korzystają z chatbotów, aby zyskać na czasie lub poprawić język angielski, jeśli jest on wymagany w publikacji. Jednak zastosowanie techniki SI jako wsparcia gramatyki lub składni może wpływać na inne elementy tekstu naukowego. Co gorsza, współautorstwo LLM może prowadzić do wygenerowania kluczowych danych przez SI.

Nie są to czysto hipotetyczne scenariusze. Sztuczną inteligencję wykorzystywano już do tworzenia wykresów i ilustracji umieszczanych w publikacjach akademickich, a nawet do zastępowania ludzi poddawanych eksperymentom. Ponadto chatboty SI mogą być również używane w procesie samego recenzowania – tak wynika z badania recenzji artykułów nadesłanych na konferencje poświęcone sztucznej inteligencji w latach 2023 i 2024.

Pojawianie się w publikacjach akademickich recenzji wygenerowanych przez SI obok artykułów autorstwa SI budzi szczególne zaniepokojene ekspertów, takich jak Matt Hodgkinson, członek rady brytyjskiej organizacji non profit Committee on Publication Ethics. Jego zdaniem „chatboty nie nadają się do opiniowania i tego należy się najbardziej obawiać”.

Świat Nauki 10.2024 (300398) z dnia 01.10.2024; Skaner; s. 12