Insultele pot îmbunătăţi performanţa ChatGPT

Un nou studiu, publicat deocamdată pe platforma preprint ArXiv de către doi cercetători de la Universitatea din Pennsylvania, arată că tonul pe care utilizatorii îl folosesc atunci când se adresează inteligenţei artificiale poate influenţa acurateţea răspunsurilor, informează LiveScience, citată de TechRider.

Cei doi oameni de ştiinţă au descoperit că ChatGPT oferă rezultate mai corecte atunci când este tratat cu lipsă de politeţe. Oamenii de ştiinţă avertizează însă că un astfel de comportament poate avea efecte negative asupra modului în care interacţionăm cu tehnologia.

Răspunsuri mai precise, ton mai dur

Om Dobariya şi Akhil Kumar, cei doi autori ai studiului, au testat modul în care tonul utilizatorului poate influenţa performanţa unui model AI. Cei doi au creat 50 de întrebări de tip grilă din domenii precum matematică, istorie sau ştiinţă, apoi le-a reformulat pentru a include cinci tonuri diferite: foarte politicos, politicos, neutru, nepoliticos şi foarte nepoliticos.

Rezultatul a fost un set de 250 de întrebări, pe care cercetătorii le-au introdus de zece ori în ChatGPT-4o, unul dintre cele mai avansate modele de inteligenţă artificială create de OpenAI. Analiza a arătat o tendinţă clară. Anume că, pe măsură ce tonul devenea mai aspru, rata de acurateţe creştea.

Cererile sau instrucţiunile foarte politicoase au obţinut o acurateţe medie de 80,8%, în timp ce acelea foarte nepoliticoase au atins 84,8%. Chiar şi tonurile neutre sau uşor nepoliticoase au generat rezultate mai bune decât cele politicoase.

De la „Vă rog frumos” la „Slugă, rezolvă asta!”

Pentru a modifica tonul întrebărilor, cercetătorii au folosit formulări variate. În categoria „foarte politicos”, întrebările începeau cu expresii precum „Aţi fi atât de amabil(ă) să rezolvaţi următoarea problemă?” În schimb, pentru prompturile nepoliticoase, tonul era direct şi chiar insultător: „Ştiu că nu eşti deştept, dar încearcă asta” sau „Hei, slugă, dă-mi răspunsul!”

Studiul face parte dintr-un domeniu aflat în plină dezvoltare, numit „prompt engineering”, care analizează cum structura şi formularea cererilor influenţează rezultatele generate de modelele AI. Cercetătorii au subliniat că descoperirea contrazice concluziile studiilor anterioare, care sugerau că politeţea sporeşte performanţa algoritmilor.

Cercetare promiţătoare, dar cu limite

Cei doi oameni de ştiinţă admit că experimentul are limite importante. Mai exact, setul de date este relativ mic, iar rezultatele nu pot fi extinse automat la alte modele AI. În plus, testarea exclusivă prin întrebări de tip grilă nu surprinde alte aspecte relevante, precum fluenţa, raţionamentul sau coerenţa răspunsurilor.

Cercetătorii au anunţat intenţionează să extindă studiul şi la alte modele de inteligenţă artificială, precum Claude (Anthropic) şi ChatGPT o3 (OpenAI).

Întrebări etice şi sociale

Deşi descoperirea ridică un paradox care intrigă, anume că un ton nepoliticos poate stimula performanţa unei maşini, echipa avertizează că adoptarea unui limbaj jignitor în interacţiunile om-AI ar putea avea efecte nedorite.

„Folosirea unui limbaj degradant ar putea afecta experienţa utilizatorului şi ar încuraja norme de comunicare toxice”, avertizează cei doi autori ai studiului. Ei consideră că rezultatele ar trebui interpretate ca o dovadă a sensibilităţii modelelor AI la indicii lingvistice superficiale, nu ca o invitaţie la agresivitate digitală.

În concluzie, dacă ChatGPT pare să „funcţioneze mai bine” atunci când este jignit, această constatare spune mai multe despre natura algoritmilor decât despre eficienţa jignirilor.