Der vollautonome KI-Agent existiert nicht, weil ihn niemand versichert (opens in new tab)

Covers 2 stories including Time Horizon 1.1Discussed on DEV

Je länger eine Aufgabe dauert, desto wahrscheinlicher versagt dein Agent. Laut METR Time Horizon 1.1 (Januar 2026) liegt der 50-Prozent-Schwellenwert für Claude Opus 4.5 bei rund fünf Stunden — das Modell löst die Hälfte aller Tasks, die einen Menschen bis zu fünf Stunden beschäftigen. Klingt beeindruckend. Bei allem, was darüber hinausgeht, bricht die Kurve ein. Seit dem 16. April gibt es Claude Opus 4.7. METR-Zahlen dazu fehlen noch. Die Kurve wird sich verschieben. Sie wird nicht verschwin...

Read the original article