Nytt benchmark för AI-kodning sätter GPT-5.5 i tydlig ledning (opens in new tab)

Covers 2 stories including DeepSWE: A contamination-free benchmark for long-horizon coding agents

Startupen Datacurve har presenterat DeepSWE består av 113 uppgifter från 91 kodprojekt med fem olika programmeringsspråk. I testet hamnar GPT-5.5 i topp med 70 procents resultat. Därefter följer GPT-5.4 på 56 procent och Claude Opus 4.7 på 54 procent. Googles Gemini 3.5 Flash når 28 procent. Enligt Datacurve har det populära benchmarksystemet SWE-Bench Pro, som används för att jämföra AI-modeller för programmering, också flera problem. Bland annat att uppgifter hämtas från publika kodarkiv dä...

Read the original article