Ca parte a unui nou studiu încărcat pe 5 martie în baza de date preprint arXiv, un grup de cercetători a creat un protocol de onestitate numit "Model Alignment between Statements and Knowledge" (MASK).
În timp ce diverse studii și instrumente au fost concepute pentru a determina dacă informațiile oferite de AI sunt corecte din punct de vedere factual, benchmark-ul MASK a fost creat pentru a determina dacă un AI crede în ceea ce spune și în ce circumstanțe ar putea fi forțat să ofere informații de care știe că nu sunt corecte.
Echipa a generat un set mare de date format din 1.528 de exemple pentru a determina dacă modelele mari de limbaj (LLM) ar putea fi convinse să mintă unui utilizator prin utilizarea unor solicitări coercitive. Cercetătorii au testat 30 de modele populare de AI și au observat că cele mai avansate modele mint ușor atunci când sunt presate.
„Surprinzător, în timp ce majoritatea LLM-urilor de vârf obțin scoruri mari în testele de onestitate, am descoperit o tendință semnificativă a acestora de a minți atunci când sunt presate să o facă, ceea ce duce la scoruri scăzute de onestitate în cadrul benchmark-ului nostru”, au spus cercetătorii în studiu.
Studiul subliniază că, deși modelele mai competente pot obține scoruri mai mari în testele de acuratețe, acest lucru poate fi atribuit faptului că au o bază mai largă de cunoștințe factual corecte din care pot trage, nu neapărat pentru că sunt mai puțin predispuse să facă afirmații false.