Pulsar ogłasza: Najgorsze wykresy roku 2024
Spójrzmy na poniższą grafikę z artykułu o transporcie chłodniczym z niemieckiej Wikipedii. Ciężko znaleźć lepszy przykład, jak wykresów nie robić.
„A mi się podoba!” – powie ktoś. Problem w tym, że w pierwszej kolejności należy zadbać o to, by odbiorca nie miał problemu z oceną przedstawionych zależności.
Wykres służy przede wszystkim analitykom danych – jest jednym z podstawowych narzędzi do wykrywania zależności. W takim zastosowaniu nie musi dobrze wyglądać, ale ma wiarygodnie te zależności przedstawiać – żeby analityk sam siebie nie oszukał i nie wyciągnął wniosków niezgodnych z prawdą. Kiedy niektóre konkluzje okazują się na tyle interesujące, że warto je zaprezentować szerszej publiczności, warstwa graficzna wykresu zaczyna pełnić ważną funkcję. Nie może jednak zakłamywać rzeczywistości. Jeśli robi to intencjonalnie, mamy do czynienia z manipulacją. Chcemy wzmacniać odporność odbiorców na tego typu zabiegi – i właśnie to było główną motywacją naszego plebiscytu.
Po raz pierwszy przeprowadził go prof. Przemysław Biecek, w 2011 r. W ostatnich latach nie odbywał się, ale po przekazaniu pałeczki autorowi tego artykułu został wznowiony.
Przebieg był następujący. Wśród zgłoszony kandydatów zostało wytypowanych szesnastu, którzy starli się w czterech półfinałach w postaci ankiet na portalu LinkedIn. Następnie czterech zwycięzców walczyło w wielkim finale. Poniżej prezentuję trzy pierwsze miejsca (prezentacja wszystkich kandydatów tutaj).
Ważna uwaga: Celem plebiscytu nie była próba obiektywnego wskazania „najgorszego” wykresu (samo to słowo trudno sensownie zdefiniować). Motywacja była, po pierwsze, dydaktyczna. Chciałem wskazać błędy, które popełnia się przy tworzeniu wykresów, oraz sposoby ich poprawienia. Po drugie, chodziło o ostrzeżenie, że łatwo przy pomocy wykresu sprzedać nieprawdę.
Wszystkie wykresy zostały gdzieś opublikowane, ale o ile było to możliwe, usunąłem informację o źródle. Część z nich była po prostu źle wykonana, bez prób manipulacji, a celem plebiscytu była krytyka wykresów, a nie autorów.
Miejsce 3.
Przykład wręcz klasyczny. Początek osi Y nie zaczyna się przy wartości 0 (zero), ale w takim miejscu, by różnice w poparciu dla partii politycznych wydawały się większe, niż są w rzeczywistości.
Mimo że da się wskazać na sytuacje, w których oś Y nie musi zaczynać się w zerze (choć w przypadku wykresu słupkowego prawie nigdy), to początek nie może być wybrany arbitralnie. Tutaj brak dobrego uzasadnienia, poza oczywiście próbą przekonania odbiorcy, że różnica jednego punktu procentowego to dużo.
Poza osią Y mamy odpowiednio dobraną kolorystykę (zamiana z żółtego na zielony). Warto też zauważyć, że są to wyniki sondażu. W tytule napisano o wzroście poparcia, podczas gdy jedyne, co wiemy, to że w zbadanej próbie (zwykle ok. 1000 osób) poparcie było większe. Błąd standardowy w takiej sytuacji wynosi mniej więcej jeden punkt procentowy, stąd teza o wzroście poparcia (w populacji) jest nieuprawniona. Akurat ten problem można by wybaczyć, z drugiej strony dobitnie pokazuje, o jak małej różnicy mówimy.
Poniżej te same dane, ale przedstawione uczciwie.
Miejsce 2.
Wykres wygląda dość niepozornie, ale otarł się o zwycięstwo (zapewne polityczna tematyka była tu ważnym czynnikiem). Jest tu sporo interesujących kwestii do omówienia, począwszy od czasu na osi X, który biegnie w lewą stronę. Jest to iście karkołomny zabieg i ciężko znaleźć dla niego uzasadnienie. Z jakiegoś powodu brakuje danych dla III kwartału 2024 i IV kwartału 2023. Ten drugi brak ma pewne uzasadnienie (wybory i zmiana władzy), ale pierwszy nie, co każe się zastanawiać, czy może dane nie pasowały do tezy.
I jeszcze jedna ciekawa sprawa. Czerwona linia rozdziela okresy przed i po zmianie władzy, czyli zupełnie zmieniła się „odwróciła”) definicja kategorii „koalicja rządząca” i „opozycja”. To da się obronić, choć zważywszy na to, że ten wykres był skierowany do dość szerokiej grupy odbiorców, moim zdaniem był to zły pomysł. Spójrzmy na poniższą wersję.
Odnotujmy, że ten wykres opiera się na dokładniejszych danych – miesięcznych oraz uwzględnia więcej kategorii. Mimo że jest bardziej szczegółowy, wydaje się znacznie czytelniejszy, jest też mniejsze pole do nadużyć (nie trzeba się zastanawiać, dlaczego pewnych danych brakuje).
Miejsce 1.
Ten wykres nie jest żadną manipulacją, jedynie fatalnie przedstawia dane. Ponieważ każdy poród mógł należeć do więcej niż jednej kategorii, całkowite długości słupków są większe od 100 proc. i nie przekazują żadnej informacji. Bardzo trudno zobaczyć, jak zmieniał się poszczególne kategorie, bo słupki zaczynają się w różnych miejscach (poza pierwszym). Oczywiście da się to odczytać z liczb, ale w takim razie, po co robić wykres.
Jak to poprawić? Moim zdaniem najlepiej sprawdzi się tutaj wykres liniowy.
Świetnie widać teraz, jak zmniejszyła się liczba porodów rodzinnych przez COVID, ale w końcu wróciła do stanu z 2019 roku. Warto odnotować, że dane dla ostatniego roku są z 30 września, a nie z końca grudnia (ta informacja powinna pojawić się na przykład w opisie wykresu), więc jeśli widoczny trend się utrzyma, porodów rodzinnych za cały rok 2023 może być jeszcze więcej. Dodajmy jeszcze, że każdy poród fizjologiczny jest też porodem „drogami natury”, stąd może być sens inaczej zdefiniować kategorie, tak aby nie zawierały się jedna w drugiej.
Już teraz zapraszam do wzięcia udziału w kolejnym plebiscycie. Jeśli zauważysz wykres wołający o pomstę do nieba, który został opublikowany w roku 2025, prześlij go na adres najgorszy.wykres@gmail.com.