AI w Off Radio Kraków: kilka myśli o wściekłości
Gwoli przypomnienia: w październiki OFF Radio Kraków zdecydowało się zrezygnować z dotychczasowej (niecieszącej się zresztą zbytnią popularnością) ramówki na rzecz eksperymentu. Z użyciem podstawowych narzędzi generatywnej sztucznej inteligencji (genAI) zaprojektowali trzy persony – nowych „prowadzących” audycje. Miały one imiona oraz wygenerowane komputerowo wizerunki. Eksperyment zaplanowano na 3 miesiące. I natychmiast rozpętała się burza. W całym tym szumie medialnym emocje ewidentnie wzięły jednak górę nad jakąkolwiek merytoryczną dyskusją i oceną sytuacji. Rozmowy o celu i znaczeniu eksperymentu OFF Radia pomijały sedno.
Żeby ocenić sprawę krytycznie, trzeba przede wszystkim zrozumieć, że to, co zrobiło OFF Radio, nie było takim przełomem, jak niektórzy krytycy uparcie sugerują. Narzędzia, których redakcja zdecydowała się użyć, były ogólnodostępne już od dawna. Nawet przed udostępnieniem ChataGPT artyści, programiści i naukowcy eksperymentowali z technologią generowania głosu i obrazu, przez co technologia powoli wdzierała się w świat kultury, rozrywki i sztuki. Zjawisko to było obserwowane i szeroko omawiane w środowiskach związanych z fantastyką naukową, futurologią i transhumanizmem.
Pierwsze dźwięki przyszłości zabrzmiały już dawno
Artysta Harold Cohen już w latach 70. zaczął rozwijać oprogramowanie AARON, które służyło do malowania obrazów. Dostęp do kodu miał tylko on, więc po jego śmierci nie jest on już rozwijany. Prace AARON-a można zaś oglądać na wystawie w Whitney Museum w USA. Jakkolwiek Cohen był ostrożny z nazywaniem swojego oprogramowania kreatywnym, muzeum nazywa je „najwcześniejszym programem AI do tworzenia sztuki”.
Od czasu AARON-a stworzono kolejne algorytmy do generowania obrazów (jak The Painting Fool Simona Coltona), powstała też m.in. praca „Kolejny Rembrandt” złożona z 170 tys. fragmentów znanych dzieł XVII-wiecznego artysty. Pojawiły się także programy do „tworzenia” muzyki, np. aplikacja Fantom Roba Thomasa, czy program muzyki generatywnej Micka Griersona. Niektóre programy, w miarę rozwoju technologii, zyskały nawet własny niby-ludzki wizerunek.
Wirtualna piosenkarka Hatsune Miku była oficjalnym supportem na 16 koncertach Lady Gagi w 2014 r.
Za najstarszy przykład wirtualnej piosenkarki uważa się Lynn Minmay. Jest to postać z serialu anime: gwiazda filmowa i artystka estradowa, dubbingowana przez Mari Iiijimę. Z uwagi na dużą popularność serialu, w latach 80. w sprzedaży zaczęły się pojawiać nagrania opisane jako twórczość nie Mari, tylko właśnie Minmay. Ich ogromny sukces zapoczątkował całą serię wirtualnych postaci, z których najsłynniejszą jest prawdopodobnie Hatsune Miku – japońska wirtualna piosenkarka stworzona w 2007 r. w firmie Crypton Future Media dzięki technologii syntezy śpiewu Vocaloid na bazie głosu realnej piosenkarki Saki Fujity.
Na stronie internetowej Hatsune Miku znajdziemy jej podobizny, dokładne informacje o jej wieku, wzroście, wadze ciała. W 2009 r. dała pierwszy koncert (jako postać na telebimie), w 2010 roku wyruszyła w trasę koncertową, występując jako trójwymiarowy hologram, była oficjalnym supportem na 16 koncertach Lady Gagi w 2014 r. Jej popularność ciągle rośnie, liczba „jej” piosenek już dawno przekroczyła 100 tys. Jej imię oznacza „Pierwszy dźwięk przyszłości”.
Persony AI do prowadzenia audycji to także nie jest nowość. W 2016 r. pojawiła się pierwsza wirtualna youtuberka: Kizuna AI, stworzona przez firmę Activ8. W swoich filmach urządzała sesje Q&A, śpiewała lub opowiadała o grach komputerowych. Wkrótce liczba jej subskrybentów przekroczyła 4 mln. Później Kizuna założyła konto na Twitterze, Instagramie i TikToku. A skoro o Instagramie mowa – również w 2016 r. działalność rozpoczęła wirtualna celebrytka Lil Miquela (zwana też Miquela Sousa). Ma miliony obserwujących, w 2018 r. znalazła się na liście „The Times” 25 najbardziej wpływowych osób w sieci.
Miquela i inni wirtualni influencerzy angażują się w kampanie społeczne i marketingowe, pojawiają się na okładkach czasopism, współpracują z artystami i projektantami, biorą nawet udział w reklamach i pokazach mody oraz programach telewizyjnych. Skala zjawiska jest ogromna, a od niedawna widać, że przenika również do massmediów.
Klara, dla której się klika, przetarła szlaki
Ciekawych, systematycznych wyników nad wykorzystaniem narzędzi AI przez media dostarczył m.in. program JAMES, stworzony przez redakcję „The Times”, we współpracy z firmą technologiczną Twipe. Pełni on funkcję „e-kamerdynera”, którego celem jest analizowanie preferencji czytelników, aby w ramach newsletterów podsyłać im jak najbardziej spersonalizowane treści. W 2022 r. „Atlanta Journal-Constitution” również postanowiła – w ramach eksperymentu – wykorzystać JAMESa. Po trzech miesiącach przenalizowano pierwsze dane i stwierdzono, że dzięki niemu subskrybenci chętniej otwierali proponowane artykuły niż osoby nadal korzystające ze starej wersji newslettera. Kolejne dane po 8 miesiącach potwierdziły dobre wyniki, więc finalnie został on podłączony do wszystkich newsletterów dla wszystkich subskrybentów AJC.
Podobne do JAMESa algorytmy stosowane są już od jakiegoś czasu. W 2023 r. 2/3 przedstawicieli mediów z 53 krajów zadeklarowało używanie narzędzi AI do rekomendowania treści. Znane są już też przypadki używania generatywnych AI w massmediach. Na przykład do niemieckiego serwisu prasowego EXPRESS.de przez ostatnie pół roku wprowadzono dwie persony: Klarę Indernach oraz Emila Charlie. Ich wizerunek został wygenerowany dzięki Midjourney, nie mają określonej osobowości (w przeciwieństwie do person OFF Radia), ale są ukierunkowane tematyczne. Emil pisze głównie o promocjach sklepowych, Klara, która początkowo „przygotowywała” raporty sportowe, obecnie „zajmuje się” też m.in. showbiznesem. Jako narzędzia AI, persony świetnie spisują się w błyskawicznym wyszukiwaniu informacji i tworzeniu tekstów, choć teksty te nadal podlegają „ludzkiej” redakcji. Jak podaje poświęcony mediom serwis „The Audiencers”, sama Klara odpowiada za ok. 10 proc. ruchu na stronie EXPRESS.de, a odkąd jest używana, klikalność artykułów serwisu wzrosła o ponad 50 proc.
Również kanał telewizyjny Channel1 z Los Angeles wprowadził przez ostatnie dwa lata trzy persony AI: Fedhę, Hermesa oraz Zae-In, które mają czytać newsy na wizji. A jakby tego było mało, pojawiają się też możliwości generowania podcastów z samego tekstu. Google udostępniło narzędzie NotebookLM, w którym wystarczy załadować dowolny dokument (to nawet nie musi być scenariusz), a następnie opisać pożądaną formę. Dwie kwestie nie podlegają modyfikacji: rozmówców jest dwóch/dwoje i że rozmawiają tylko po angielsku. Można za to określić czas trwania, styl wypowiedzi, tematykę, jaka ma zostać omówiona oraz grupę docelową. „Rozmówcy”, choć niekiedy brzmią sztucznie, posługują się zróżnicowanymi intonacją i tempem, humorem itd. – zupełnie jak realni dziennikarze.
Persony świetnie spisują się w błyskawicznym wyszukiwaniu informacji i tworzeniu tekstów, choć teksty te nadal podlegają „ludzkiej” redakcji.
Dla większości krytyków działań OFF Radia największym zmartwieniem były zapowiadane przez rozgłośnię wywiady z symulowanymi poprzez genAI zmarłymi postaciami historycznymi. Nawet takie praktyki nie są nowym pomysłem. W 2020 r. pisano o systemie AI|Writer, opracowanym na generatorze OpenAI, dzięki któremu można było napisać maila do zmarłej postaci. Twórca zaznaczał, że projekt służy przede wszystkim rozrywce, niemniej, w wygenerowanej korespondencji zwrotnej można było poczytać m.in. o tym, jak bohaterowie Jane Austen zachowywaliby się, gdyby pisała w XXI w., i jak korzystaliby z mediów społecznościowych. Wywiad z Szymborską nie był wcale bardziej skomplikowany niż te wczesne próby – użyto do tego po prostu ChataGPT i to bez specjalnego „karmienia” go materiałami o zmarłej poetce. Pomysł był zresztą konsultowany i zaakceptowany przez Fundację Wisławy Szymborskiej. Znacznie bardziej zaawansowany (i o wiele bardziej kontrowersyjny) wydaje się projekt BBC – tam z kolei firma Deep Fusion Films pracuje nad odtworzeniem głosu zmarłego rok temu prezentera telewizyjnego sir Michaela Parkinsona, aby móc kontynuować jego program z nowymi gośćmi. Zapowiedziano już nawet 8 nowych odcinków.
Prawo, które jest niezbędne, nadchodzi powoli
Ludzie na całym świecie tworzą generowane treści w celach rozrywkowych lub służbowych. Portal Statista podaje, że już w 2023 r. 54 proc. kierowników redakcji newsowych przyznawało się, do aktywnego korzystania z narzędzi genAI. A jednak dziennikarze rzadko kiedy oznaczają swoje teksty jako tworzone z użyciem algorytmów. Także dlatego, że jeszcze do niedawna żadne przepisy tego nie wymagały.
Legislatura dotycząca AI rozwija się zaskakująco wolno, biorąc pod uwagę wieloletnią już historię tych narzędzi. Unia Europejska dopiero 1 sierpnia tego roku wprowadziła „Akt o sztucznej inteligencji” (AI Act) i jest to pierwsza na świecie tak kompleksowa regulacja w tym zakresie. Narzędzia AI zostały w niej podzielone na cztery kategorie: minimalnego ryzyka, ograniczonego ryzyka, wysokiego ryzyka i nieakceptowanego ryzyka, w zależności od poziomu zagrożenia dla społeczeństwa. W kategorii praktyk zakazanych znalazły się m.in. systemy dotyczące punktacji społecznej, naruszające prawa ludzi, mogące służyć do identyfikacji osób na odległość, naruszania prywatności, dyskryminacji, wymuszeń i nękania. Natomiast najważniejszym nakazem nałożonym bezwarunkowo na wszystkie narzędzia AI dopuszczone do użytku jest transparentność – oznaczanie generowanych treści i informowanie ludzi, że mają do czynienia z chatbotami, czy też personami AI. W Polsce te przepisy będą wchodzić stopniowo co kilka miesięcy.
Jeśli chodzi zaś o USA, to prezydent Biden zlecił utworzenie przepisów regulujących bezpieczne korzystanie z AI w październiku ubiegłego roku, ale sprawa nadal jest w toku. W raporcie na temat rządowych regulacji AI opublikowanym w 2022 w periodyku „Policy Design and Practice” zwrócono uwagę, że w Stanach i Wielkiej Brytanii, Australii i Indiach oraz kilku innych krajach rządy raczej nie angażują się bezpośrednio w rozwój tych technologii, ale zapewniają wsparcie finansowe firmom i dają przyzwolenie na zdecentralizowane, oddolne wykształcenie się regulacji. Dlatego o ile persony AI i wirtualni celebryci są oznaczani jako postacie wygenerowane, o tyle zwykli dziennikarze, korzystający z narzędzi genAI do usprawnienia swojej pracy już niekoniecznie będą o tym informować.
Celem projektu Off Radia Kraków była debata na temat tego, z jakimi szansami i zagrożeniami dla mediów i kultury wiąże się użycie narzędzi genAI.
Tymczasem OFF Radio działało transparentnie. Eksperymentowało z różnymi treściami (muzyka, audycje, wywiady), by sprawdzić, jakie możliwości daje korzystanie w mediach z istniejących, ogólnodostępnych i prostych narzędzi, takich jak ChatGPT, Leonardo AI oraz ElevenLabs. Celem projektu była zaś – jak podkreślał wielokrotnie redaktor naczelny rozgłośni Marcin Pulit – debata na temat tego, z jakimi szansami i zagrożeniami dla mediów i kultury wiąże się użycie narzędzi genAI. We współpracy z zajmującym się zarządzaniem mediami prof. Bogusławem Nierenbergiem z Uniwersytetu Jagiellońskiego zespół OFF Radia chciał się także dowiedzieć, jaki będzie odbiór takich treści i jak prawidłowo oznaczać ich generatywne źródło.
Biorąc pod uwagę skalę tego, jak algorytmy i genAI są od dawna stosowane do tworzenia sztuki i rozrywki, wydaje się, że OFF Radio Kraków niesłusznie stało się adresatem całej tej internetowej wściekłości. Pozytywne wydaje się zaś to, że rozwój technologii wzbudza takie zainteresowanie. W całej tej sytuacji najważniejsze jednak jest wywieranie presji, aby powstawały konkretne międzynarodowe regulacje tego w jaki sposób, do czego i kiedy wolno używać narzędzi genAI. To nie technologia jest zagrożeniem, tylko jej nierozsądne wykorzystywanie.
Pulsar używa AI: służy nam ona do tworzenia (głosem Katarzyny Czarneckiej) wersji audio niektórych publikowanych przez nas artykułów. Teksty czytane przez sztuczną inteligencję ukazują się w cyklu „Pulsar ma głos”.