Выпущен бенчмарк FrontierCode для оценки ИИ-моделей по «качеству пулл-реквестов» (opens in new tab)

Covers 2 stories including Claude Fable 5 and Claude Mythos 5

Компания Cognition выпустила новый бенчмарк FrontierCode для измерения «способности ИИ-моделей выдерживать стандарты качества реальных кодовых баз». По словам его создателей, обычно кодинговые...

Read the original article