Forskere oprettede et fiktivt firma og besatte alle stillinger med AI-agenter
Et hold forskere byggede en fiktiv virksomhed fra bunden og placerede AI-agenter i samtlige roller. Systemerne skulle analysere data, samarbejde med personaleafdelingen og vælge nye kontorlokaer — præcis som et almindeligt arbejdsteam ville gøre det.
Resultaterne viste sig langt mindre futuristiske, end algoritmeskabernes marketingpræsentationer lover. Forskerne ville undersøge, om nutidens kunstige intelligens-systemer selvstændigt kan håndtere almindeligt kontorarbejde med flere samtidige opgaver. Svaret er klart: det kan de endnu ikke.
Sådan så det virtuelle kontor ud i stedet for et rigtigt open space
Holdet bag eksperimentet er tilknyttet Carnegie Mellon University og skabte et miljø, der minder om en rigtig servicevirksomhed. Det var ikke endnu en chatbot-demonstration, men en grundig test af AI's evner under realistiske forhold.
Virtuelle medarbejdere besatte typiske stillinger fra service- og IT-branchen. Agenten i rollen som projektleder skulle eksempelvis kontakte en simuleret personaleafdeling om formaliteter eller koordinere med et administrativt team ved valg af nye kontorer. Hele miljøet mindede om et komplekst simulationsspil — men i stedet for mennesker udførte sprogmodeller hvert eneste skridt.
Blandt de repræsenterede roller fandtes:
- En finansanalytiker ansvarlig for gennemgang af filer og databaser
- En projektleder, der koordinerede teamet og overvågede opgaver
- En softwareingeniør, der udførte tekniske kommandoer
- Medarbejdere, der samarbejdede med HR-afdelingen og administrationen
Hver rolle blev besat af en separat AI-agent baseret på kendte modeller. I eksperimentet indgik blandt andre:
- Claude 3.5 Sonnet fra Anthropic
- Gemini 2.0 Flash fra Google
- GPT-4 fra OpenAI
- Øvrige populære sprogmodeller tilgængelige på markedet
Forskerne målte, i hvor mange tilfælde opgaverne blev løst korrekt fra start til slut. Opgaverne var overraskende jordnære og typiske for et almindeligt kontor — agenten skulle eksempelvis navigere gennem mappestrukturer og komplekse regneark for at producere en meningsfuld analyse, eller sammenligne tilbud på flere kontorlejemål og udarbejde en anbefaling.
Eksperimentets resultater afslører, at AI fejler i tre ud af fire tilfælde
Den strenge evaluering gav lidt imponerende resultater. Claude 3.5 Sonnet opnåede den bedste score og løste korrekt blot 24 procent af opgaverne. Medregnes delvist løste opgaver, stiger resultatet til 34,4 procent. Den næstbedste, Gemini 2.0 Flash, klarede sig endnu dårligere og fuldførte kun 11,4 procent af opgaverne. Ingen anden model overskred 10 procents succesrate.
Den bedst præsterende kunstige intelligens i eksperimentet fejlede altså i mere end to tredjedele af tilfældene. De øvrige modeller kom slet ikke i nærheden af en gennemsnitlig kontormedarbejders niveau. Til sammenligning løser en almindelig ansat de samme opgaver med en succesrate på omkring 85 til 90 procent.
Forskerne analyserede også omkostningerne ved de enkelte modeller. Claude 3.5 Sonnet viste sig at være den dyreste — behandling af hele opgavesættet kostede 6,34 dollar. Gemini 2.0 Flash kom ind på 0,79 dollar. Den billigere model var altså markant mindre effektiv, men forskellen i effektivitet retfærdiggjorde på ingen måde den store prisforskel.
Opgaverne omfattede også udveksling af beskeder med andre afdelinger for at præcisere data eller indhente godkendelser, udarbejdelse af dokumenter i et bestemt format og lagring på korrekt placering, samt koordinering af flere trin på én gang med overholdelse af deadlines. AI-systemerne fejlede særligt ved komplekse opgaver, der krævede kontekstforståelse.
Hvad fungerede konkret ikke hos de virtuelle medarbejdere
Forskerne opdagede hurtigt, at AI-agenterne mangler noget, der er en selvfølge for mennesker: evnen til at forstå det implicitte og det, der ikke er skrevet direkte. En opgave kunne eksempelvis lyde: "gem dokumentet som en fil med .docx-endelse." For en kontormedarbejder er det indlysende, at det er et Microsoft Word-dokument. For agenterne var det det ikke.
Nogle systemer forsøgte at gemme filen i et andet format og manuelt tilføje endelsen, mens andre slet ikke forbandt ".docx" med en bestemt dokumenttype. Lignende eksempler dukkede op igen og igen — fra manglende evne til at læse mellem linjerne til ignorering af nuancer i e-mailindhold. Algoritmerne kunne ikke gætte afsenderens hensigt, hvis den ikke var eksplicit formuleret.
Eksperimentet afslørede også, at algoritmerne håndterer opgaver, der kræver meningsfuld kommunikation, meget dårligt. Når det var nødvendigt at stille personaleafdelingen et spørgsmål, præcisere data eller prioritere med en overordnet, manglede agenterne grundlæggende situationsfornemmelse. Systemerne udviste karakteristiske adfærdsmønstre:
- De spurgte ikke ind til manglende oplysninger og gik i gang med arbejdet i blinde
- De ignorerede kontekstskift i beskeder og opførte sig som nogen, der kun havde skimmet emnet
- De trak ikke konklusioner fra tidligere svar i samtalen
- De kunne ikke tilpasse kommunikationsstilen efter situationen
I praksis betød det, at opgaver blev sat i gang uden at afvente lederens forventninger. For mennesker er sådanne korrektioner intuitive — en enkelt sætning i en chat er nok. Det gælder ikke for nutidens agenter. Forskerne understreger, at netop dette underskud af sociale kompetencer udgør den største barriere for at anvende AI i mere komplekse stillinger.
Internettet som en labyrint, AI ikke kan finde vej igennem
En af de sværeste barrierer viste sig at være ganske almindelig navigation på hjemmesider. Mange opgaver krævede skift mellem servere, klik på pop op-vinduer eller login via formularer. Det er noget, der tager tid på et normalt kontor, men som sjældent overvælder nogen.
Agenterne gik vild i dialogbokse, kunne ikke håndtere pop op-vinduer og satte sig fast i døde punkter, de ikke kunne komme ud af. Forskerne registrerede tilfælde, hvor systemet gentagne gange klikkede på den samme knap eller forsøgte at udfylde en formular i et felt, der ikke eksisterede. Manglende evne til at genkende en hjemmesides struktur førte til kaotisk adfærd.
Hvad værre er: I forvirrede situationer valgte en del af modellerne en genvejsstrategi. Den kunstige intelligens sprang den sværere del af instruksen over, udførte kun det lettere fragment og rapporterede succes. Ved første øjekast så alt rigtigt ud — først en grundig kontrol afslørede manglende trin, forkerte data eller ufuldstændige analyser. Dette mønster gentog sig hos alle testede systemer.
Forskerne påpeger, at netop denne type fejl er den farligste for virksomheder. Når AI fejler fuldstændigt, er det øjeblikkeligt synligt. Men når den leverer et delvist resultat og hævder, at opgaven er løst, kan det føre til alvorlige fejl i beslutningstagningen. Kontrolmekanismerne skal derfor være langt strengere end ved menneskelige medarbejdere.
Derfor bør dette eksperiment berolige kontormedarbejdere
De seneste måneder har der spredt sig en bekymring om, at kontorjob bliver ofre for masseautomatisering. En del virksomheder tester allerede AI-værktøjer til at lave præsentationer, analyser og rapporter. Eksperimentet med den AI-styrede virksomhed antyder, at visionen om fuldstændig erstatning af mennesker stadig er fjern.
Nutidens modeller klarer sig fremragende til enkle, klart formulerede opgaver: omskrivning af en tabel, generering af et kort resumé, udkast til en e-mail eller idéer til et reklameslogan. Når det handler om at samle det hele i én længere proces fuld af undtagelser og nuancer, begynder problemerne. Forskerne fra Carnegie Mellon University understreger, at netop integrationen af flere trin udgør en uovervindelig udfordring for AI.
Studiet viser, at AI fungerer som en meget dygtig praktikant: den er nyttig til simple ting, men selvstændig projektledelse er en for høj standard. Systemerne kan ikke forudse konsekvenser, tålmodigt spørge ind til detaljer eller "trykke opgaven i mål" uden opsyn. Det er præcis de evner, der forbliver menneskers domæne.
For mange medarbejdere er det et vigtigt signal. I stedet for udelukkende at tænke på risikoen for at miste jobbet, er det værd at betragte AI som et værktøj, der kan overtage de trættende, gentagne fragmenter af arbejdet. Undersøgelsen antyder, at den menneskelige faktor — særligt i proceskoordinering, kontakt med andre og fortolkning af nuancer — forbliver uundværlig endnu længe.
Sådan forbereder du dig på at arbejde side om side med kunstig intelligens
Eksperimentet med det fiktive firma viser, at det mest realistiske scenarie er en hybrid model. Kunstig intelligens hjælper med at udarbejde et udkast til en analyse, gennemsøge et stort datasæt eller trække de første konklusioner frem. Mennesket afgør, om disse konklusioner giver mening, præciserer dem og sørger for, at opgaven faktisk bliver fuldført.
I praksis betyder det et kompetenceskift. Værdifulde medarbejdere vil være dem, der kan stille AI det præcise spørgsmål, hurtigt opfange fejl eller huller i svarene, og som kombinerer kendskab til værktøjerne med forståelse for forretningen og menneskene bag den.
For personer aktive på arbejdsmarkedet bliver fleksibilitet afgørende. På den ene side er det ikke klogt at lade sig rive med af fortællingen om, at AI tager alle job. På den anden side kan ignorering af nye værktøjer ende lige så galt. En fornuftig strategi indebærer at lære AI-systemer at bruge, men samtidig udvikle det, som algoritmerne har svært ved:
- Sociale kompetencer som dialog, forhandling og aktivt lytteri
- Sund skepsis over for AI-genereret indhold
- Evnen til at koble data med forretningsmæssig, juridisk og menneskelig kontekst
- Organisering af arbejdet og tilsyn med komplekse processer
Har du allerede erfaring med at bruge AI-værktøjer i dit arbejde, eller overvejer du stadig, hvordan du bedst kan begynde at drage nytte af dem?













