Kto mówi podobnie, temu się ufa. Dla AI to może być gratka
Cyfrowy „słuch”, czyli system komputerowy AI, który przekłada głosy na swoisty kod liczbowy, tworząc dla każdego z nich unikatowy „cyfrowy odcisk”, stworzyli naukowcy z Leibniz-Institut für Wissensmedien w Tybindze i University of Erfurt. Następnie przeprowadzili serię eksperymentów z udziałem 229 osób, dzięki którym analizowano, jak ludzie i maszyna oceniają podobieństwo prezentowanych im par nagranych głosów. Okazało się, że robią to uderzająco zbieżnie, gdyż AI potrafi „wyczuć”, które głosy brzmią dla ludzi znajomo.
Badanie wykazało również ograniczenia słuchu. Uczestnicy eksperymentu, poproszeni o ponowną ocenę tych samych par głosów, ale po pewnym czasie, często zmieniali swoje opinie. Szczególnie trudno przychodziło im konsekwentne ocenianie głosów, które nie były ani bardzo podobne, ani bardzo różne od ich własnych. To pokazuje, jak subiektywne i ulotne mogą być wrażenia słuchowe, zwłaszcza gdy odmienności nie są wyraziste.
Sięgnij do źródeł
Badania naukowe: AI-determined similarity increases likability and trustworthiness of human voices
W kolejnych doświadczeniach naukowcy sprawdzali, czy podobieństwo wpływa na postrzeganie osoby mówiącej. Głosy zbliżone do głosu słuchacza były oceniane jako bardziej lubiane i godne zaufania. Nie zaobserwowano natomiast – w przeciwieństwie do niektórych wcześniejszych badań – aby głosy „przeciętne” (podobne do wielu innych) postrzegano jako bardziej atrakcyjne. Można to wyjaśnić na gruncie teorii psychologicznych. Ludzie przenoszą pozytywną samoocenę na osoby podobne do nich, a z ewolucyjnego punktu widzenia preferowanie zbliżonych fenotypowo (a zatem potencjalnie genetycznie spokrewnionych) osobników mogło dawać przewagę adaptacyjną.
Odkrycia niemieckich naukowców niosą istotne implikacje dla rozwoju asystentów głosowych i programów konwertujących tekst na mowę (ang. skrót TTS). Sugerują bowiem, że firmy technologiczne mogą zyskać możliwość manipulowania głosami swoich asystentów, aby brzmiały podobnie do użytkownika, co zwiększałoby zaufanie do ich systemów komputerowych.
Bardzo niepokojące jest przy tym to, że nowoczesne systemy AI potrzebują zaledwie kilku sekund nagrania, aby skopiować charakterystykę czyjegoś głosu. Technologia ta, choć może mieć wiele pozytywnych zastosowań, niesie zatem ryzyko nadużyć, np. w formie deepfake’ów dźwiękowych wykorzystywanych do oszustw lub dezinformacji.
Dziękujemy, że jesteś z nami. To jest pierwsza wzmianka na ten temat. Pulsar dostarcza najciekawsze informacje naukowe i przybliża najnowsze badania naukowe. Jeśli korzystasz z publikowanych przez Pulsar materiałów, prosimy o powołanie się na nasz portal. Źródło: www.projektpulsar.pl.