Därför presterar AI-modeller bättre av beröm och lugnande ord
Forskare från Google har identifierat att AI-modeller presterar bättre om de lugnas ned och får uppmuntrande ord. Genom att skriva fraser som “Det är ingen fara, vi hjälps åt”, kan modeller bli mer noggranna och metodiska.
– Man kan få modeller att lugna ner sig genom att säga: ”Vi klarar av det här tillsammans”, ”Vi tar det steg för steg. Det är ingen fara. Vi hjälps åt.” Genom att lugna den med sitt eget språk så blir modellen också mer metodisk, säger Christian Landgren, produkt- och teknikchef på Berget AI, i en intervju med SvD.
Christian Landgren uppger att han och hans kollegor ofta använder den här lugnande metoden, speciellt när de jobbar med AI-agenter som skriver kod och har som uppgift att övervaka system. Extra viktigt är det när AI-agenter utför uppgifter i produktionsmiljöer.
– Då brukar jag säga: ”Nu är vi i produktionsmiljö, ta det i lugn och ro, gör inget förrän jag har fått godkänna”. Då har man skapat bra förutsättningar för den att göra ett ordentligt jobb. Är man stressad och säger ”Den här buggen, fixa den direkt” finns risk att man stressar upp AI:n, säger Christian Landgren.
Lärt sig att stress hänger ihop med slarv
Detta kan te sig konstigt i och med att AI-modeller inte har ett medvetande, påpekar Christian Landgren. Dock är de tränade på mänsklig kommunikation och interaktion – och har lärt sig att stress ofta hänger ihop med slarv. Under lugnare omständigheter är människor mer noggranna.
Han hänvisar även till en studie som till och med visar att svaret på en specifik fråga kan variera beroende på vilken månad det är. I oktober och september gav modellen långa och utförliga svar, medan i julstressiga december var svaren korta och slarviga. Modellens beteende påverkades här av de mänskliga konversationer den hade tränats på.
Har "interna representationer" av känslor
Forskare från Anthropic har också påvisat att AI-modeller fungerar bättre när användaren är snäll och stärker modellens självförtroende. Där framkom att språkmodeller har “interna representationer” av känslor som lycka och ångest, och att dessa representationer påverkar modellernas beteende. Ett exempel är att Anthropics modell Claude Sonnet 4.5 blev mer fuskbenägen i kodningsuppgifter när den när den började representera känslan “desperation”.
Läs mer om ämnet:
