18 miesięcy temu agenci AI zawodzili przy podstawowych zadaniach kodowania. Dziś jeden model rozwiązuje 80% profesjonalnych wyzwań z inżynierii oprogramowania i potrafi pracować autonomicznie przez ponad 14 godzin. Co się zmieniło?
Przez pierwsze lata generatywnej AI granica była prosta: wpisujesz pytanie, model zwraca odpowiedź. Jedno wejście, jedno wyjście. Model nic nie wiedział o tym, co jest poza oknem rozmowy — nie mógł sprawdzić strony internetowej, wykonać kodu, zapisać pliku ani wysłać emaila.
Agent AI to coś fundamentalnie innego. Agent ma dostęp do narzędzi (tools) — może przeszukiwać internet, uruchamiać kod w terminalu, czytać i pisać pliki, otwierać strony w przeglądarce, wywoływać zewnętrzne API. Co ważniejsze, agent działa w pętli: nie wykonuje jednej akcji i nie zatrzymuje się — planuje kolejne kroki na podstawie tego, co właśnie zobaczył, i kontynuuje, dopóki nie osiągnie celu lub nie uzna, że potrzebuje informacji od człowieka.
Chatbot to pracownik, który odpowiada na pytania przy biurku. Agent to pracownik, który dostaje zadanie, siada do komputera i sam je realizuje — przeszukuje, pisze, testuje, poprawia — i wraca z wynikiem.
Najpopularniejszy schemat pracy agenta to tzw. ReAct (od Reason + Act). W każdym kroku model robi dwie rzeczy: najpierw rozumuje — zastanawia się, w jakim miejscu jest i co powinien zrobić dalej — a następnie działa, wywołując konkretne narzędzie. Wynik tego działania trafia z powrotem do kontekstu modelu, który znowu rozumuje i planuje następny krok.
Wygląda to mniej więcej tak: agent dostaje zadanie "Znajdź wszystkie błędy w tym repozytorium i napraw te, które dotyczą obsługi błędów HTTP". Najpierw czyta strukturę projektu. Potem przeszukuje pliki pod kątem wywołań HTTP. Uruchamia testy, żeby zobaczyć, co aktualnie nie działa. Pisze poprawki. Uruchamia testy ponownie, żeby sprawdzić czy poprawki działają. Jeśli nie — analizuje błąd i próbuje inaczej. Iteruje, aż wszystkie testy przejdą.
Całość dzieje się bez żadnej ingerencji człowieka. Model samodzielnie decyduje kiedy jest skończone i co warto jeszcze sprawdzić.
Żeby porównywać agentów obiektywnie, potrzebny jest benchmark — zestaw zadań z mierzalnym wynikiem. Dla agentów kodowania standardem stał się SWE-Bench.
SWE-Bench zawiera prawdziwe zgłoszenia błędów (issues) z popularnych bibliotek open source w Pythonie: Django, Flask, NumPy, Pandas, scikit-learn i innych. Każde zadanie to realne zgłoszenie z GitHuba — z opisem problemu, aktualnym stanem kodu i testami, które powinny przejść po naprawieniu błędu. Agent musi samodzielnie zrozumieć problem, znaleźć odpowiednie miejsce w kodzie i wprowadzić działającą poprawkę.
Kluczowy wariant to SWE-Bench Verified — podzbiór 500 zadań, które ludzie-eksperci potwierdzili jako poprawnie sformułowane i rozwiązywalne. Wynik podawany jest jako procent zadań zakończonych sukcesem.
Żeby rozwiązać zadanie z SWE-Bench, agent musi przeczytać dziesiątki plików kodu, zrozumieć architekturę biblioteki, zlokalizować źródło błędu i napisać poprawkę, która nie psuje niczego innego — a następnie to zweryfikować. To zadanie, które zajmuje doświadczonemu programiście od 30 minut do kilku godzin.
Jeszcze na początku 2024 roku najlepsze agenty osiągały ok. 33% na SWE-Bench Verified. Oznaczało to, że model z powodzeniem naprawiał co trzeciego buga. Imponujące jak na AI, ale wciąż daleko od użyteczności produkcyjnej.
18 miesięcy później Claude Opus 4.5 osiągnął 80.9% na SWE-Bench Verified. To ponad 2,5-krotna poprawa w czasie krótszym niż dwa lata. Dla kontekstu: doświadczony programista ludzkiej rozwiązuje ok. 85–90% takich zadań — agent AI jest więc już w zasięgu ludzkiej skuteczności w tej konkretnej kategorii zadań.
Drugi wynik — 14,5 godziny autonomicznej pracy — mówi coś innego. To nie jest test kodowania, ale pomiar tego, jak długo agent potrafi pracować nad złożonym projektem bez błędu prowadzącego do zatrzymania lub konieczności interwencji człowieka. Czas ten podwaja się mniej więcej co 123 dni. Przy takim tempie, tygodniowa autonomia jest przewidywana na koniec 2026 roku.
Trzeci wynik — 91.3% na GPQA Diamond — to coś zupełnie innego niż kodowanie. GPQA (Graduate-Level Google-Proof Q&A) to zestaw pytań z fizyki, chemii, biologii i matematyki na poziomie doktoranckim — takich, że odpowiedzi nie można znaleźć na Wikipedii. Eksperci z doktoratami z tych dziedzin osiągają przeciętnie 69.7%. Agent AI osiąga 91.3%. To znaczy: w rozumowaniu naukowym aktualnie przebija ludzkich specjalistów.
Za skokiem wydajności stoi kilka zmian naraz, które wzmacniają się wzajemnie.
Po pierwsze — lepsze modele bazowe. Modele rozumowania (o3, Claude Opus 4.x, Gemini 3) potrafią planować wieloetapowo i są mniej podatne na gubienie kontekstu w długich sesjach. Bez tego żaden agent nie działa dobrze, bo i tak skończy na błędnym decyzji w kroku piątym.
Po drugie — architektura pamięci. Dawniejsze agenci tracili wątek po kilku krokach — każde wywołanie narzędzia zajmowało miejsce w oknie kontekstowym, które szybko się zapełniało. Przy oknach kontekstowych rzędu 200k–1M tokenów i technikach selektywnej kompresji historii, agent może teraz utrzymać spójność przez wiele godzin pracy.
Po trzecie — precyzja w wyborze narzędzi. Agent musi umieć nie tylko użyć narzędzia, ale też zdecydować kiedy i jak. Złe wywołanie narzędzia może spowodować kaskadę błędów. Nowe modele są trenowane specjalnie pod kątem prawidłowego korzystania z API, co widać w drastycznym spadku "halucynowanych" wywołań funkcji.
Dla złożonych zadań pojedynczy agent ma swoje limity — nie tylko techniczne (okno kontekstowe), ale też konceptualne. Trudno jest jednocześnie napisać kod, sprawdzić jego poprawność logiczną i przetestować edge cases, bo każde z tych zadań wymaga innego "nastawienia".
Rozwiązaniem są systemy multi-agentowe. Jeden agent — orkiestrator — przyjmuje główne zadanie, rozkłada je na podzadania i deleguje je wyspecjalizowanym sub-agentom. Sub-agenci działają równolegle lub sekwencyjnie, zwracają wyniki do orkiestratora, który scala całość i decyduje o kolejnych krokach.
Przykładowy pipeline do tworzenia nowej funkcji w aplikacji może wyglądać tak: Orkiestrator otrzymuje opis wymagań. Researcher-agent przeszukuje dokumentację i istniejący kod, żeby zrozumieć kontekst. Coder-agent pisze implementację. Tester-agent uruchamia testy i zwraca raport. Reviewer-agent analizuje kod pod kątem bezpieczeństwa i czytelności. Orkiestrator scala wyniki i decyduje, czy wszystko jest gotowe czy potrzeba kolejnej iteracji.
System multi-agentowy to jak firma konsultingowa — jeden partner zarządza projektem, deleguje zadania do specjalistów, a na końcu składa wszystko w spójną całość dla klienta.
Nie każde zadanie wymaga agenta. Proste pytania, generowanie tekstu, tłumaczenia — tu zwykły chatbot jest szybszy, tańszy i mniej awaryjny. Agent jest opłacalny gdy zadanie spełnia przynajmniej kilka z tych cech:
Skoki w benchmarkach są imponujące, ale ważne jest, żeby nie mylić laboratorium z produkcją. SWE-Bench to kontrolowane środowisko z jasno zdefiniowanymi zadaniami i automatycznymi testami. Rzeczywiste projekty mają niedookreślone wymagania, niespójne bazy kodu i kontekst organizacyjny, którego agent nie rozumie.
Agenci wciąż popełniają błędy — w szczególności mają tendencję do pewnego działania nawet gdy powinni zatrzymać się i zapytać. Autonomia to miecz obosieczny: agent, który nigdy nie pyta, szybko wprowadzi zmiany, których nie chciałeś.
Praktyczna zasada: im bardziej zadanie jest odwracalne (można cofnąć zmiany) i weryfikowalne (są automatyczne testy), tym bezpieczniej uruchamiać agenta z dużą autonomią. Im bardziej zadanie jest nieodwracalne lub trudne do sprawdzenia — tym więcej punktów kontrolnych przez człowieka.
Agenci AI przeszli od ciekawostki do narzędzia produkcyjnego. Nie zastępują programistów — radykalnie zmieniają to, na czym programiści spędzają czas. Zamiast pisać boilerplate i szukać bugów, coraz więcej pracy polega na definiowaniu zadań, weryfikowaniu wyników i projektowaniu systemów, w których agenci mogą działać skutecznie.