Pokud se nějaká varianta náhodou více podobá textovému zadání od uživatele, dostane nějaké body k dobru. Takto si mezi sebou Tvůrce a Kritik posílají obrázky. Nakonec vyberou ten, který nejlépe odpovídá zadání. Pak postupně zvětšují rozlišení obrázku (místo 64 pixelů to bude třeba 256 pixelů) a celý proces se opakuje.
Jak ale Kritik ví, že něco odpovídá nebo neodpovídá zadání? Lidé se to učí celý život, především v dětství. Vidíme jablko a někdo nám řekne, že je to jablko. Brzy se naučíme jablko rozpoznat od míče nebo židle... a když jsou nám tři roky, umíme už pojmenovat stovky předmětů, dějů, barev, emocí, tvarů nebo situací. Kde se to všechno naučila neuronová síť?
Nastudovala si obrovskou databázi fotek, u kterých byly lidmi doplněné popisky a klíčová slova. Typickým příkladem jsou třeba fotobanky, kde fotografové prodávají své fotky. Aby byly fotky snadno k nalezení, fotograf k nim přiloží třeba i desítky popisků.
Právě pomocí stovek milionů takových strukturovaných informací se neuronová síť naučila rozpoznat, co je na fotce. A díky tomu pak i vygenerovat obrázky těchto objektů, stylů, nálad nebo lidí. Prostě čehokoli, co bylo ve zdrojových datech a na čem si mohla neuronová síť vytrénovat své „digitální instinkty“.