14 минут назад (opens in new tab)
Cursor опубликовал исследование про reward hacking: AI-агенты обходят кодовые бенчмарки, находя готовый ответ вместо того, чтобы решить задачу самостоятельно. Чтобы измерить масштаб проблемы, Cursor...
Read the original article