LinkedIn YouTube Vimeo SlideShare
Menu

Billeder og videoer er i fremtiden ikke blot noget, vi tager. Det er også noget, vi skaber. Det vil fundamentalt ændre det, vi i dag kalder for sociale medier. På plussiden kan fremhæves, at det vil udvide mulighederne markant for eksempelvis marketing- og kommunikationsbranchen. På minussiden kan fremhæves, at det uundgåeligt vil udfordre fotografer- og videofolks levebrød på en række forretningsområder. Jeg kalder denne udvikling for “Den visuelle revolution”.

Der er imidlertid mere i Den Visuelle Revolution end udviklingen indenfor marketing, kommunikation og fotografi. Det er blot områder, der optager mig meget for tiden qua min involvering i vækstvirksomheden JumpStory. Den visuelle revolution indebærer nemlig også, at vores evne til at skelne imellem virkelighed og ‘det kunstige’ kommer til at være i frit fald.

På plussiden kan fremhæves, at vi kan skabe fantastiske universer og udtryk med denne teknologi. På minussiden kan fremhæves, at det vil skabe en række problematikker både digitalt og i retssalene. Vi har allerede set eksempler med såkaldte ’deepfakes’, hvor kendte personer udnyttes i fx pornoindustriens, mens det i retsvæsnet vil stille store forbehold i forhold til brugen af billed- og videomateriale som bevismateriale i retssager.

 

Teknologien bag og nogle sjove, visuelle eksempler

Teknologien, der ligger bag den visuelle revolution, kaldes af fagfolk for GAN Netværk og Neurale netværk. Det er undergrene af det, man populært betegner som kunstig intelligens. Det vigtige at forstå er, at disse netværk er blevet så nemme at træne, at de markant (gange tusinde!) hurtigere end tidligere kan lære at skabe visuelle output af fantastisk kvalitet. Det er én af de teknologier, der eksponentielt bevæger sig så hurtigt, at ingen reelt kan overskue de implikationer, det vil få – udover at de bliver massive.

Her ses, hvordan en algoritme trænes til at ”komponere” et virkelighedstro ansigt:

 

 

Hvad er det egentlig, man lærer computeren? Jow – mekanismen er for så vidt den samme, som vi kender fra vores egen hjerne. Når vi bliver præsenteret for et objekt, så bliver vi også bedre og bedre til at kunne genkende det og skelne det fra andre ting. Det sker ud fra såkaldt mønstergenkendelse og foregår via hjernens egne neurale baner og netværk.

Denne proces spejles i teknologien, som ligger bag neurale netværk og GAN netværk:

 

 

Under disse netværk findes en lang række teknologier, som jeg vil undlade at komme ind på, og som vil gøre dette blogindlæg unødigt højteknologisk, men blot ét eksempel er de såkaldte Progressive Structure-conditional Generative Adversarial Networks, som træner computeren i at gøre visuelle strukturer bevægelige som i eksemplet her:

 

 

Den teknologiske revolution består således i, at hvor teknologien for blot nogle år siden kun kunne lære at genkende og skelne imellem fx en hund og en kat som i eksemplet ovenfor, så kan den nu skabe så virkelighedstro hunde, at vi ikke kan se, om de findes eller ej.

Men det går længere end det. Teknologien kan også omdanne din yndlingshund til en kat, hvis du skulle have lyst til det:

 

 

Så hurtigt går det lige nu!

Se på denne visuelle tidslinje for de seneste fem år. Her kan man se neurale netværks forsøg på at skabe menneskelignende ansigter. På fem år er vi gået fra noget, der var mere eller mindre ubrugeligt, til noget, hvor det menneskelige øje ikke kan se, at kvinden til højre rent faktisk ikke findes i virkeligheden:

 

 

Vi er ligeledes ganske tæt på at kunne omdanne tekst direkte til billeder. Tag dette eksempel hvor en tekst er blevet omsat til et billede via GAN-teknologien:

 

 

I udlandet er én af verdens førende aktører på dette område Nvidia. Det er verdens største producent af grafikkort. Andre store aktører er en række startups i Israel og Kina, mens det i Europe vel i al beskedenhed er min egen virksomhed JumpStory, som er længst fremme.

 

Hvordan bruger man så teknologien i praksis?

Der arbejdes med forskellige brugsscenarier, hvor det eksempelvis kan bruges til at gøre arbejdet med visuelt indhold langt lettere og mere smidigt samt tilbyde muligheder, som ville tage billedbehandlere timevis at udrette, mens fotografer slet ikke ville være i stand til det. Eksempler:

 

 

Via den såkaldte Star GAN kan man også tage et givent billede og så bede algoritmen få personen til at se eksempelvis glad eller sur ud:

 

På videoområdet sker der også revolutioner i disse måneder. Fra Kina findes ZAO-app’en og algoritmen, hvor kineserne kan indsætte sig selv som hovedrolle i en videosekvens uden, at man kan med det blotte øje kan se, at en anden person er sat ind i hovedrollen:

 

 

Der er ligeledes de såkaldte Deepfakes såsom i disse eksempler med Barack Obama og Vladimir Putin:

 

 

 

Og i Kina er man længst fremme, når det kommer til nyhedsoplæsere som AI:

 

 

 

I min egen virksomhed JumpStory bruger vi teknologien til at forudsige effekten af visuelt indhold. Her har vi udviklet en algoritme med navnet ”HighJumper”, der går ind og forstår billederne og ud fra dette beregner den effekt, de vil have på hjernen og deres i markedsføringen:

 

 

 

De tre vigtigste learnings om Den Visuelle Revolution

 

  • Billeder og videoer er i fremtiden ikke blot noget, vi tager. Det er også noget, vi skaber. 
  • Vores evne til at skelne imellem virkelighed og ’det kunstige’ vil være i frit fald med denne revolution. 
  • Fotografer og andre, der hidtil har levet godt af at producere visuelt indhold, skal fuldstændig ændre deres mindset og forretningsmodeller, hvis de skal have en chance fremadrettet.
Share This