Новый бенчмарк DeepSWE: GPT-5.5 — 70%, Opus 4.7 (opens in new tab)

Covers 2 stories including DeepSWE: A contamination-free benchmark for long-horizon coding agents

Новый бенчмарк DeepSWE показал, что GPT-5.5 решает 70% задач по разработке ПО, тогда как Claude Opus 4.7 — 54%. На SWE-Bench Pro картина была ровно обратной: там Opus 4.7 занимал первое место с 64%, а...

Read the original article