Agent AI: kiedy AI przestaje odpowiadać i zaczyna działać

Chatbot odpowiada. Agent działa.

Przez pierwsze lata generatywnej AI granica była prosta: wpisujesz pytanie, model zwraca odpowiedź. Jedno wejście, jedno wyjście. Model nic nie wiedział o tym, co jest poza oknem rozmowy — nie mógł sprawdzić strony internetowej, wykonać kodu, zapisać pliku ani wysłać emaila.

Agent AI to coś fundamentalnie innego. Agent ma dostęp do narzędzi (tools) — może przeszukiwać internet, uruchamiać kod w terminalu, czytać i pisać pliki, otwierać strony w przeglądarce, wywoływać zewnętrzne API. Co ważniejsze, agent działa w pętli: nie wykonuje jednej akcji i nie zatrzymuje się — planuje kolejne kroki na podstawie tego, co właśnie zobaczył, i kontynuuje, dopóki nie osiągnie celu lub nie uzna, że potrzebuje informacji od człowieka.

Różnica kluczowa

Chatbot to pracownik, który odpowiada na pytania przy biurku. Agent to pracownik, który dostaje zadanie, siada do komputera i sam je realizuje — przeszukuje, pisze, testuje, poprawia — i wraca z wynikiem.

Jak agent myśli — pętla ReAct

Najpopularniejszy schemat pracy agenta to tzw. ReAct (od Reason + Act). W każdym kroku model robi dwie rzeczy: najpierw rozumuje — zastanawia się, w jakim miejscu jest i co powinien zrobić dalej — a następnie działa, wywołując konkretne narzędzie. Wynik tego działania trafia z powrotem do kontekstu modelu, który znowu rozumuje i planuje następny krok.

Wygląda to mniej więcej tak: agent dostaje zadanie "Znajdź wszystkie błędy w tym repozytorium i napraw te, które dotyczą obsługi błędów HTTP". Najpierw czyta strukturę projektu. Potem przeszukuje pliki pod kątem wywołań HTTP. Uruchamia testy, żeby zobaczyć, co aktualnie nie działa. Pisze poprawki. Uruchamia testy ponownie, żeby sprawdzić czy poprawki działają. Jeśli nie — analizuje błąd i próbuje inaczej. Iteruje, aż wszystkie testy przejdą.

Całość dzieje się bez żadnej ingerencji człowieka. Model samodzielnie decyduje kiedy jest skończone i co warto jeszcze sprawdzić.

SWE-Bench — złoty standard oceny agentów

Żeby porównywać agentów obiektywnie, potrzebny jest benchmark — zestaw zadań z mierzalnym wynikiem. Dla agentów kodowania standardem stał się SWE-Bench.

SWE-Bench zawiera prawdziwe zgłoszenia błędów (issues) z popularnych bibliotek open source w Pythonie: Django, Flask, NumPy, Pandas, scikit-learn i innych. Każde zadanie to realne zgłoszenie z GitHuba — z opisem problemu, aktualnym stanem kodu i testami, które powinny przejść po naprawieniu błędu. Agent musi samodzielnie zrozumieć problem, znaleźć odpowiednie miejsce w kodzie i wprowadzić działającą poprawkę.

Kluczowy wariant to SWE-Bench Verified — podzbiór 500 zadań, które ludzie-eksperci potwierdzili jako poprawnie sformułowane i rozwiązywalne. Wynik podawany jest jako procent zadań zakończonych sukcesem.

Dlaczego SWE-Bench jest trudny

Żeby rozwiązać zadanie z SWE-Bench, agent musi przeczytać dziesiątki plików kodu, zrozumieć architekturę biblioteki, zlokalizować źródło błędu i napisać poprawkę, która nie psuje niczego innego — a następnie to zweryfikować. To zadanie, które zajmuje doświadczonemu programiście od 30 minut do kilku godzin.

Od 33% do 80.9% — w 18 miesięcy

Jeszcze na początku 2024 roku najlepsze agenty osiągały ok. 33% na SWE-Bench Verified. Oznaczało to, że model z powodzeniem naprawiał co trzeciego buga. Imponujące jak na AI, ale wciąż daleko od użyteczności produkcyjnej.

18 miesięcy później Claude Opus 4.5 osiągnął 80.9% na SWE-Bench Verified. To ponad 2,5-krotna poprawa w czasie krótszym niż dwa lata. Dla kontekstu: doświadczony programista ludzkiej rozwiązuje ok. 85–90% takich zadań — agent AI jest więc już w zasięgu ludzkiej skuteczności w tej konkretnej kategorii zadań.

80.9%

SWE-Bench Verified
Claude Opus 4.5

14.5h

autonomicznej pracy
bez przerwy (Claude Opus 4.6)

91.3%

GPQA Diamond
vs 69.7% ekspertów-ludzi

Drugi wynik — 14,5 godziny autonomicznej pracy — mówi coś innego. To nie jest test kodowania, ale pomiar tego, jak długo agent potrafi pracować nad złożonym projektem bez błędu prowadzącego do zatrzymania lub konieczności interwencji człowieka. Czas ten podwaja się mniej więcej co 123 dni. Przy takim tempie, tygodniowa autonomia jest przewidywana na koniec 2026 roku.

Trzeci wynik — 91.3% na GPQA Diamond — to coś zupełnie innego niż kodowanie. GPQA (Graduate-Level Google-Proof Q&A) to zestaw pytań z fizyki, chemii, biologii i matematyki na poziomie doktoranckim — takich, że odpowiedzi nie można znaleźć na Wikipedii. Eksperci z doktoratami z tych dziedzin osiągają przeciętnie 69.7%. Agent AI osiąga 91.3%. To znaczy: w rozumowaniu naukowym aktualnie przebija ludzkich specjalistów.

Dlaczego agenci tak bardzo się poprawili

Za skokiem wydajności stoi kilka zmian naraz, które wzmacniają się wzajemnie.

Po pierwsze — lepsze modele bazowe. Modele rozumowania (o3, Claude Opus 4.x, Gemini 3) potrafią planować wieloetapowo i są mniej podatne na gubienie kontekstu w długich sesjach. Bez tego żaden agent nie działa dobrze, bo i tak skończy na błędnym decyzji w kroku piątym.

Po drugie — architektura pamięci. Dawniejsze agenci tracili wątek po kilku krokach — każde wywołanie narzędzia zajmowało miejsce w oknie kontekstowym, które szybko się zapełniało. Przy oknach kontekstowych rzędu 200k–1M tokenów i technikach selektywnej kompresji historii, agent może teraz utrzymać spójność przez wiele godzin pracy.

Po trzecie — precyzja w wyborze narzędzi. Agent musi umieć nie tylko użyć narzędzia, ale też zdecydować kiedy i jak. Złe wywołanie narzędzia może spowodować kaskadę błędów. Nowe modele są trenowane specjalnie pod kątem prawidłowego korzystania z API, co widać w drastycznym spadku "halucynowanych" wywołań funkcji.

Kiedy jeden agent nie wystarcza

Dla złożonych zadań pojedynczy agent ma swoje limity — nie tylko techniczne (okno kontekstowe), ale też konceptualne. Trudno jest jednocześnie napisać kod, sprawdzić jego poprawność logiczną i przetestować edge cases, bo każde z tych zadań wymaga innego "nastawienia".

Rozwiązaniem są systemy multi-agentowe. Jeden agent — orkiestrator — przyjmuje główne zadanie, rozkłada je na podzadania i deleguje je wyspecjalizowanym sub-agentom. Sub-agenci działają równolegle lub sekwencyjnie, zwracają wyniki do orkiestratora, który scala całość i decyduje o kolejnych krokach.

Przykładowy pipeline do tworzenia nowej funkcji w aplikacji może wyglądać tak: Orkiestrator otrzymuje opis wymagań. Researcher-agent przeszukuje dokumentację i istniejący kod, żeby zrozumieć kontekst. Coder-agent pisze implementację. Tester-agent uruchamia testy i zwraca raport. Reviewer-agent analizuje kod pod kątem bezpieczeństwa i czytelności. Orkiestrator scala wyniki i decyduje, czy wszystko jest gotowe czy potrzeba kolejnej iteracji.

Analogia

System multi-agentowy to jak firma konsultingowa — jeden partner zarządza projektem, deleguje zadania do specjalistów, a na końcu składa wszystko w spójną całość dla klienta.

Kiedy warto używać agenta

Nie każde zadanie wymaga agenta. Proste pytania, generowanie tekstu, tłumaczenia — tu zwykły chatbot jest szybszy, tańszy i mniej awaryjny. Agent jest opłacalny gdy zadanie spełnia przynajmniej kilka z tych cech:

01 · Wieloetapowość

Więcej niż jeden krok

Zadanie wymaga sekwencji działań, gdzie każdy krok zależy od wyniku poprzedniego. Agent planuje i adaptuje się na bieżąco.

02 · Narzędzia zewnętrzne

Dostęp do świata

Potrzebujesz aktualnych danych, uruchomienia kodu, dostępu do plików lub wywołania zewnętrznych systemów. Chatbot tego nie zrobi.

03 · Długi horyzont

Godziny, nie sekundy

Zadanie trwa od kilku minut do kilku godzin. Agent utrzymuje spójność celu przez cały czas pracy bez resetowania kontekstu.

04 · Weryfikacja

Sprawdzalny wynik

Agent jest najskuteczniejszy gdy może sprawdzić własną pracę — uruchamiając testy, walidując dane lub porównując z referencjami.

Co to oznacza — i kiedy warto zachować ostrożność

Skoki w benchmarkach są imponujące, ale ważne jest, żeby nie mylić laboratorium z produkcją. SWE-Bench to kontrolowane środowisko z jasno zdefiniowanymi zadaniami i automatycznymi testami. Rzeczywiste projekty mają niedookreślone wymagania, niespójne bazy kodu i kontekst organizacyjny, którego agent nie rozumie.

Agenci wciąż popełniają błędy — w szczególności mają tendencję do pewnego działania nawet gdy powinni zatrzymać się i zapytać. Autonomia to miecz obosieczny: agent, który nigdy nie pyta, szybko wprowadzi zmiany, których nie chciałeś.

Praktyczna zasada: im bardziej zadanie jest odwracalne (można cofnąć zmiany) i weryfikowalne (są automatyczne testy), tym bezpieczniej uruchamiać agenta z dużą autonomią. Im bardziej zadanie jest nieodwracalne lub trudne do sprawdzenia — tym więcej punktów kontrolnych przez człowieka.

Kluczowy wniosek

Agenci AI przeszli od ciekawostki do narzędzia produkcyjnego. Nie zastępują programistów — radykalnie zmieniają to, na czym programiści spędzają czas. Zamiast pisać boilerplate i szukać bugów, coraz więcej pracy polega na definiowaniu zadań, weryfikowaniu wyników i projektowaniu systemów, w których agenci mogą działać skutecznie.

Agent AI: kiedy AI przestaje odpowiadać i zaczyna działać

Chatbot odpowiada. Agent działa.

Jak agent myśli — pętla ReAct

SWE-Bench — złoty standard oceny agentów

Od 33% do 80.9% — w 18 miesięcy

Dlaczego agenci tak bardzo się poprawili

Kiedy jeden agent nie wystarcza

Kiedy warto używać agenta

Co to oznacza — i kiedy warto zachować ostrożność

Dlaczego AI kłamie z pełnym przekonaniem

Modele rozumowania: AI które myśli, zanim odpowie

Bądź pierwszy. Zostań na bieżąco z AI.

Codziennie jeden sygnałprosto na inbox.

Codziennie jeden sygnał
prosto na inbox.