SWE-bench Verified svigter: fejlagtige tests og træningslækager

Ny analyse viser, at SWE-bench Verified i stigende grad er forurenet af træningslækager og dårligt designede tests, hvilket fører til misvisende målinger af avanceret kodeevne. Platformen overvurderer frontier-modellers præstationer, fordi testdata enten overlapper med træningssæt eller indeholder fejl og urealistiske opgaver. Konsekvensen er, at forskere og virksomheder kan få et falsk billede af fremdriften inden for kodnings-AI. Artiklen anbefaler at droppe Verified-versionen til fordel for SWE-bench Pro, som har strengere datastyring, forbedrede tests og lavere risiko for lækage. Overgangen vil give mere pålidelige benchmarks og bedre beslutningsgrundlag for udvikling og evaluering.