Od eksperymentów myślowych do porozumiewania się algorytmów

Dawno, dawno temu, gdy człowiek wiedział bardzo mało o tym jak działa otaczający go świat, musiały zajść pewne warunki, które popchnęły nas do czasów, w których aktualnie jesteśmy (jako ludzie). Wszystkie wynalazki, których używamy, w pewnym momencie ktoś gdzieś musiał wynaleźć. Mówiąc inaczej – być na tyle ciekawym, aby odkryć ich naturę, to jak działają. Chodzi dla przykładu o ten moment, w którym ktoś spojrzał na krowę i pomyślał – napiję się tego, co wyleci z wymion. Taki mały, niezwykły krok odwagi popchnął ludzkość nieco naprzód.

Te i inne podobne, opisane wyżej eksperymenty myślowe, są narzędziami bardzo naturalnymi dla człowieka. Ciężko sobie wyobrazić, gdzie bylibyśmy jako ludzie bez nich. Zabierają nas z punktu A do punktu B. Pozwalają systematycznie zadawać logiczne pytania, otrzymywać odpowiedzi i wykorzystywać je w praktyce. Są również tanie, wymagają jedynie mentalnego wysiłku ze strony osób, które je przeprowadzają.

Pozwalają również wykorzystać nadarzające się okazje oraz wykryć błędy i naprawić je, zanim wydarzy się coś złego. Umożliwiają również wzniesienie się ponad ograniczenia, które w normalnych warunkach mogłyby być nie do przeskoczenia. Mogą być przeprowadzone naprawdę szybko i co ważne – bez żadnych konsekwencji w prawdziwym życiu.

Przykładami eksperymentów myślowych są m.in. przeróżne paradoksy, należące do wielu kategorii np. matematyczne, fizyczne, lub filozoficzne.

Jednym z paradoksów filozoficznych jest problem w teorii gier zwany Dylematem więźnia. Jest to gra o niezerowej sumie zerowej co oznacza, że ktoś w jej trakcie zyska, a ktoś straci. Paradoks ten brzmi tak:

Dwóch podejrzanych zostało zatrzymanych przez policję. Policja, nie mając wystarczających dowodów do postawienia zarzutów, rozdziela więźniów i przedstawia każdemu z nich tę samą ofertę: jeśli będzie zeznawać przeciwko drugiemu, a drugi będzie milczeć, to zeznający wyjdzie na wolność, a milczący dostanie dziesięcioletni wyrok. Jeśli obaj będą milczeć, obaj odsiedzą 6 miesięcy za inne przewinienia. Jeśli obaj będą zeznawać, obaj dostaną pięcioletnie wyroki. Każdy z nich musi podjąć decyzję niezależnie i żaden nie dowie się, czy drugi milczy, czy zeznaje, aż do momentu wydania wyroku. Jak powinni postąpić?

Wikipedia

Dopuszczalne strategie w tej grze to: współpracuj (milcz) i zdradzaj (zeznawaj), przy czym strategia zdradzaj jest dominująca ze względu na fakt, że niezależnie co zrobi przeciwnik, zawsze bardziej opłaci się zdradzić. Jeśli współwięzień milczy zdrada skróci wyrok z 6 miesięcy do zera. Jeśli współwięzień zeznaje zdrada skraca wyrok z 10 lat do pięciu. Równowagę Nasha (strategie graczy są optymalne) można osiągnąć jedynie gdy obaj gracze zdradzają.

Jest też odmiana iterowana gry Dylemat więźnia. Wtedy ci sami gracze grają wielokrotnie ze sobą i jest możliwość odegrania się na zdradzającym graczu. Mimo że nadal najbardziej pewną strategią jest strategia zdradzania (jeśli gracze znają ilość rund), to wchodzą też do gry nowe strategie (jak na przykład wet za wet z wybaczaniem).

Historyczny eksperyment zaproponowany przez Roberta Axelroda, który zaprosił studentów akademików z całego świata do przesyłania programów do turnieju komputerowego, dał zaskakujące rezultaty. Okazało się, że przy wielokrotnych rozgrywkach lepsze wyniki, niż strategie egoistyczne, dawały strategie bardziej altruistyczne.

Najlepszą deterministyczną strategią w turnieju i zarazem najprostszą (jeśli chodzi o kod) była strategia wet za wet. W BASIC zajmował on zaledwie 4 linie kodu. Strategia ta polegała na współpracy w pierwszej rundzie, a w każdej następnej, na robieniu tego, co przeciwnik robił w rundzie poprzedniej.

Analiza tego doświadczenia doprowadzi również do przedstawienia kilku cech, jakimi owe strategie się wyróżniały. Były to m.in.:

  • przyjazność – nie zdradzaj, dopóki przeciwnik nie zdradzi,
  • mściwość – reaguj na zdradę przeciwnika,
  • skłonność do wybaczania – wracaj do współpracy po okresie zemsty za zdradę,
  • brak zazdrości – nie staraj się o lepszy wynik niż przeciwnik.

Ciekawostką jest fakt, że w dwudziestolecie konkursu zawodów Axelroda wygrała inna strategia niż optymalna. Drużyna z Uniwersytetu z Southamton wysłała 60 programów na ten konkurs. Były one ustawione w ten sposób, że po każdych 5-10 rundach rozpoznawały się nawzajem i dążyły do maksymalizacji wyniku jednego z nich. W rezultacie drużyna zajęła pierwsze trzy miejsca i … wiele ostatnich.

Przykład drużyny z Southampton pokazuje dodatkowe możliwości, jakie daje uzgadnianie strategii przed przystąpieniem do gry. Podobne sytuacje opisał Richard Dawkins w książce „Samolubny gen”.

By Piort