AI-benchmarks virker ikke — sådan bør vi måle i stedet | NOERPOL Nyheder

Forskningens traditionelle benchmark-tilgang — at sammenligne AI's præstation med individuelle menneskers på isolerede opgaver — er vildledende og utilstrækkelig. Artiklen argumenterer for at erstatte enkeltstående, statiske tests med multidimensionelle, system- og domæneorienterede evalueringer der måler robusthed, sikkerhed, generalisering, sample-effektivitet, distribuerede fejl, menneske-AI-samarbejde og samfundsmæssige konsekvenser. Forslag inkluderer løbende, adversarial og real-world tests, åbne repræsentative datasæt, måling af usikkerhed/kalibrering og incitamenter til reproducérbarhed og ansvarlig udvikling.