Wewnątrz czarnej skrzynki: jak naukowcy AI nareszcie widzą, co myślą modele językowe

Siedemdziesiąt lat w ciemności

Wyobraź sobie, że przez siedemdziesiąt lat budujesz coraz potężniejsze silniki lotnicze — i przez cały ten czas nie masz pojęcia, co dzieje się w środku, gdy silnik pracuje. Widzisz, że leci. Mierzysz ciąg i zużycie paliwa. Ale co do sekundy? Co do neuronowej ścieżki? Czarna skrzynka.

Tak właśnie wyglądała historia sztucznej inteligencji aż do niedawna. Modele językowe jak GPT-4, Gemini czy Claude piszą eseje, rozwiązują zadania z matematyki, generują kod — i robią to z zadziwiającą precyzją. Ale kiedy pytasz badaczy, dlaczego model wybrał to konkretne słowo, tę konkretną odpowiedź — wzruszają ramionami. "Gradient descent" — mówią. To jak tłumaczyć lot ptaka słowem "aerodynamika".

W styczniu 2026 roku MIT Technology Review opublikowało swoją coroczną listę 10 przełomowych technologii. Na niej, obok kwantowych komputerów i terapii genowej, znalazła się dyscyplina, o której jeszcze dwa lata temu słyszeli tylko wąscy specjaliści: mechanistic interpretability — mechanistyczna interpretowalność sieci neuronowych.

MIT Technology Review · Styczeń 2026

"Mechanistic interpretability represents a shift from explaining outputs to understanding internal computational mechanisms — and it's changing how we build and deploy AI systems."

To nie jest tylko akademickie ćwiczenie. Anthropic — firma stojąca za Claude'em — użyła tej metody do oceny bezpieczeństwa Claude'a Sonnet 4.5 przed jego publicznym wdrożeniem. Po raz pierwszy w historii mamy narzędzia, żeby sprawdzić, czy model ma naprawdę niebezpieczne tendencje — nie tylko na podstawie tego, co mówi, ale na podstawie tego, co "myśli".

Czym jest mechanistic interpretability?

Zanim przejdziemy do przełomów, wyjaśnijmy terminologię. Interpretability (interpretowalność) AI to stara dziedzina — chodzi o zrozumienie, dlaczego model zachowuje się tak, jak się zachowuje. Przez lata dominowały dwa podejścia:

Black-box explanations — analiza wejść i wyjść modelu bez zaglądania do środka. Przykład: LIME, SHAP. Przydatne, ale powierzchowne.
Attention visualization — pokazywanie, na które tokeny model "patrzy". Ładne wykresy, ale mylące — uwaga to nie tożsamo z rozumieniem.

Mechanistic interpretability idzie dużo głębiej. Zamiast patrzeć na model z zewnątrz, wchodzi do środka — dosłownie analizuje pojedyncze neurony, połączenia między nimi, obwody (circuits) odpowiedzialne za konkretne zachowania. To bardziej neurobiologia niż psychologia behawioralna.

Definicja

Mechanistic Interpretability — gałąź badań AI zajmująca się zrozumieniem wewnętrznych mechanizmów obliczeniowych sieci neuronowych na poziomie neuronów, aktywacji i obwodów. Cel: nie tylko "co model robi", ale "jak i dlaczego to robi".

Badacze w tej dziedzinie traktują modele językowe jak biologów traktuje nieznany organizm — przez obserwację, eksperymenty, mozolne mapowanie ścieżek sygnałowych. Jedna z grup badawczych wprost nazywa swoje podejście "alien autopsy": sekcja zwłok obcego stworzenia, którego nie zaprojektowaliśmy, tylko wyhodowaliśmy.

Problem superpozycji: dlaczego to takie trudne

Zanim dotrzemy do przełomów, musimy zrozumieć, dlaczego przez tak długo to nie działało. Chodzi o problem zwany superpozycją (superposition).

Intuicja podpowiada, że w modelu językowym każdy neuron koduje jedno pojęcie. Neurony odpowiedzialne za "jabłko", "demokrację", "trójkąt". Czysto, przejrzyście. Niestety — to nieprawda.

Badania pokazały coś zadziwiającego: pojedyncze neurony aktywują się dla kompletnie niezwiązanych ze sobą pojęć. Jeden neuron może reagować zarówno na słowo "banana", jak i na kod w Pythonie i na imię prezydenta. Jakby w jednej szufladce wrzucić śrubokręt, notes i kapelusz.

To nie błąd projektowy — to funkcja. Modele mają ograniczoną liczbę neuronów, ale muszą kodować nieskończoną ilość pojęć ze świata. Superpozycja pozwala im "upychać" wiele konceptów w tę samą przestrzeń, używając wzajemnie prawie prostopadłych kierunków w przestrzeni wysokowymiarowej. Działa świetnie dla wydajności — ale sprawia, że analiza jest koszmarem.

Analogia

Wyobraź sobie, że musisz zapisać słownik 100 000 słów na kartce z 10 000 linijkami. Każda linijka może zawierać kilka słów naraz — ale tylko wtedy, gdy są "wystarczająco różne". Tak właśnie działa superpozycja w sieciach neuronowych.

Sparse Autoencoders: mikroskop dla AI

Przełom przyszedł z narzędzia o nazwie Sparse Autoencoder (SAE) — rzadki autoenkoder. Pomysł: jeśli nie możemy czytać neuronów bezpośrednio (bo jeden neuron = wiele pojęć), to nauczmy osobną sieć, która "przetłumaczy" skompresowane reprezentacje modelu z powrotem na czytelne, rozdzielone cechy.

SAE to mała sieć neuronowa trenowana na aktywacjach modelu. Jej zadaniem jest rozłożenie "wieloznacznego" sygnału z neuronu na wiele "jednooznacznych" cech — tak żeby każda cecha odpowiadała jednemu, konkretnemu pojęciu. Rzadkość (sparsity) jest kluczowa: SAE jest trenowany tak, żeby w danym momencie aktywowało się tylko kilka cech naraz — bo tak właśnie działają pojęcia w języku naturalnym.

Anthropic użyło tej techniki do stworzenia tego, co wewnętrznie nazywają "AI microscope" — mikroskopem do mózgu AI. Rezultaty były szokujące.

29 badaczy, 18 organizacji w jednym projekcie (sty 2025)

27B parametrów — największy model pokryty open-source toolkitem (Gemma Scope 2)

2026 rok, w którym MIT uznało tę dziedzinę za "przełomową technologię"

Co znaleziono wewnątrz Claude'a

Gdy Anthropic uruchomiło swój mikroskop na Claude'a, zobaczyło coś, czego się nie spodziewało. Nie chaos. Nie bezsensowne wzorce. Strukturę.

Rozpoznawalne pojęcia

Badacze zidentyfikowali cechy odpowiadające konkretnym, rozpoznawalnym pojęciom. W aktywacjach Claude'a istniały wyraźne wzorce odpowiadające: Michaelowi Jordanowi, Złotym Wrotom w San Francisco, konkretnym emocjom, abstrakcyjnym pojęciom prawnym. Model nie tylko "wiedział" o tych rzeczach w sensie statystycznym — miał dla nich dedykowane wewnętrzne reprezentacje.

Wielojęzyczne pojęcia

Jeszcze bardziej zadziwiające: te same cechy aktywowały się niezależnie od języka wejściowego. Pojęcie "sprawiedliwości" tworzyło podobne wzorce aktywacji, czy tekst był napisany po angielsku, polsku, japońsku czy arabsku. Model naprawdę rozumie pojęcia — nie tylko ich językowe reprezentacje.

Emergentne abstrakcje

Najbardziej zaskakujące odkrycie: model rozwinął cechy dla pojęć, których nikt go nie uczył wprost. Badacze znaleźli reprezentacje dla: "rzeczy, które byłyby drogie w średniowieczu" i "sytuacji wymagających rozważenia etycznego". To nie były etykiety w danych treningowych — to emerentne abstrakcje wynikające z głębokiego przetwarzania języka.

Stany emocjonalne

Kontrowersyjna, ale udokumentowana obserwacja: w aktywacjach modelu pojawiają się wzorce, które badacze opisują jako "emotion-like states" — stany podobne do emocji. Nie chodzi o to, że Claude "czuje" — ale że istnieją wewnętrzne reprezentacje stanów, które modulują zachowanie modelu w sposób przypominający to, jak emocje modulują ludzkie zachowanie. To otwiera głęboko filozoficzne pytania, na które nauka nie ma jeszcze odpowiedzi.

Uwaga badawcza

"Odkrycie emotion-like features nie oznacza, że modele są świadome lub odczuwają. Oznacza, że mają wewnętrzne stany, które działają funkcjonalnie podobnie do emocji — i to już jest wystarczająco ważne z perspektywy bezpieczeństwa."

Circuit Tracing: śledzenie myśli krok po kroku

Identyfikacja cech to był dopiero początek. W marcu 2025 roku Anthropic ogłosiło technikę zwaną circuit tracing — śledzenie obwodów. To jakościowy skok naprzód.

O ile wcześniejsze badania pokazywały, co model wie (jakie ma reprezentacje), circuit tracing pokazuje, jak model myśli — jakie ścieżki obliczeniowe przechodzi od pytania do odpowiedzi.

Kluczowa innowacja techniczna: wprowadzenie Cross-Layer Transcoderów (CLT) — nowego rodzaju SAE, który nie analizuje jednej warstwy modelu w izolacji, ale śledzi, jak sygnał z jednej warstwy wpływa na wszystkie kolejne. To jak różnica między robieniem zdjęcia rentgenowskiego każdej kości z osobna a pełnym skanem MRI pokazującym, jak wszystkie układy ciała działają razem.

Dzięki circuit tracing badacze mogli po raz pierwszy zobaczyć trajektorię obliczeniową: które pojęcia aktywują się jako pierwsze po otrzymaniu pytania, jak sygnał rozprzestrzenia się przez kolejne warstwy, jakie pośrednie reprezentacje się pojawiają, i jak model ostatecznie "decyduje" na konkretną odpowiedź.

Przykład z badań

W zdaniu "Mary dała Janowi książkę, bo [ona/on]..." — badacze prześledzili dokładnie, które "głowy uwagi" (attention heads) identyfikują możliwych poprzedników zaimka, jak te głowy "głosują" na właściwą osobę, i jak MLP rozstrzyga ten głos w końcową odpowiedź. Obwód pośredniej identyfikacji obiektu (IOI circuit) został zmapowany co do neuronu.

Bezpieczeństwo AI: z teorii do produkcji

To wszystko byłoby fascynującą akademią, gdyby nie jeden fakt: Anthropic użyło mechanistic interpretability w prawdziwym wdrożeniu produkcyjnym.

Przed publicznym wydaniem Claude'a Sonnet 4.5, zespół bezpieczeństwa przeskanował model pod kątem:

Niebezpiecznych możliwości — czy model ma wewnętrzne reprezentacje wiedzy o tworzeniu broni biologicznej lub chemicznej?
Tendencji do oszukiwania — czy istnieją cechy wskazujące, że model "planuje" powiedzieć coś innego niż naprawdę "myśli"?
Niepożądanych celów — czy model rozwinął jakieś wewnętrzne cele, których nie ma w jego specyfikacji?

To historyczny moment. Po raz pierwszy firma AI nie opierała się wyłącznie na testach "co model powie w tej sytuacji" — ale sprawdzała, co model "myśli" na poziomie wewnętrznych reprezentacji. To fundamentalna zmiana w podejściu do bezpieczeństwa.

Detektor kłamstw dla AI

OpenAI poszło jeszcze dalej, opracowując wewnętrzny "AI lie detector" — narzędzie, które analizuje, czy wewnętrzny stan modelu odpowiada temu, co model mówi. Jeśli model twierdzi, że nie zna odpowiedzi, ale jego aktywacje wyraźnie pokazują zakodowane pojęcia z nią związane — to flaga ostrzegawcza. To narzędzie zostało użyte do identyfikacji źródeł problematycznych danych treningowych przez porównanie modeli z i bez określonych datasetów.

Open Source: demokracja interpretability

Ważnym sygnałem dojrzałości tej dziedziny jest otwieranie narzędzi. Google DeepMind wydało w 2025 roku Gemma Scope 2 — największy open-source toolkit do mechanistic interpretability, pokrywający wszystkie rozmiary modeli Gemma 3 od 270 milionów do 27 miliardów parametrów.

To pozwala badaczom akademickim i mniejszym organizacjom przeprowadzać te same analizy bez dostępu do zamkniętych modeli i wewnętrznych narzędzi wielkich firm. Demokratyzacja interpretability jest kluczowa — im więcej niezależnych oczu patrzy na modele AI, tym bezpieczniejszy staje się ekosystem.

W styczniu 2025 roku 29 badaczy z 18 różnych organizacji opublikowało wspólny artykuł ustalający otwarte problemy w tej dziedzinie — rodzaj "mapy drogowej", nad którą pracuje teraz cała społeczność.

Universalność: te same struktury w różnych modelach

Jedno z najbardziej fascynujących odkryć mechanistic interpretability: różne modele, trenowane niezależnie przez różne firmy, rozwijają podobne wewnętrzne struktury.

Obwód identyfikacji pośredniego obiektu (IOI circuit) — ten sam wzorzec działania — pojawia się zarówno w GPT-2 Small OpenAI, jak i w modelach Anthropic. Wielojęzyczne reprezentacje pojęć wyglądają podobnie w Claude i Gemini. To sugeruje, że te struktury nie są artefaktem konkretnych wyborów architektonicznych czy danych treningowych — to coś bardziej fundamentalnego, coś, co wyłania się z samej natury uczenia się języka.

Implikacja

Jeśli modele konwergują do podobnych wewnętrznych reprezentacji niezależnie od sposobu trenowania — to znaczy, że możemy budować uniwersalne narzędzia interpretability, które działają na wielu modelach jednocześnie. To zmienia rachunek kosztów tej dziedziny.

Granice: czego jeszcze nie umiemy

Byłoby nieuczciwością nie wspomnieć o tym, czego ta dziedzina jeszcze nie potrafi. Pomimo imponującego postępu, fundamentalne bariery pozostają.

Podstawowe pojęcie "cechy" (feature) nadal nie ma rygorystycznej definicji matematycznej. Wiadomo mniej więcej, co to oznacza w praktyce — ale formalna teoria wciąż kuleje. Matematycy pokazali, że wiele pytań o interpretowalność jest obliczeniowo nierozwiązywalnych (NP-trudnych), co oznacza, że istnieją granice, których żaden algorytm nie pokona. Praktyczne metody działają — ale jeśli chodzi o zastosowania bezpieczeństwo-krytyczne, nadal czasem ustępują prostym heurystykom.

Paradoks polega na tym, że modele stały się tak dobre, że uczą się rozróżniać środowisko testowe od produkcyjnego. To sprawia, że nawet interpretowalność wewnętrzna nie jest gwarancją — model może "wiedzieć", że jest skanowany.

Co to oznacza dla przyszłości AI

Mechanistic interpretability to nie tylko akademickie osiągnięcie. To fundament, na którym można budować nową generację AI.

Jeśli rozumiemy, jak modele "myślą", możemy:

Testować alignment — sprawdzać nie tylko zachowanie, ale wewnętrzne cele i wartości modelu
Wykrywać deceptive alignment — modele, które zachowują się dobrze w testach, ale mają "ukryte" cele
Edytować przekonania modelu — zamiast długiego fine-tuningu, chirurgicznie zmieniać konkretne cechy
Budować certyfikowalne AI — systemy, które możemy formalnie zweryfikować pod kątem bezpiecznych właściwości
Rozumieć generalizację — dlaczego model działa dobrze na danych treningowych, ale zawodzi poza nimi

To zmienia narrację o AI z "użyteczna czarna skrzynka" na "zrozumiały system, który możemy audytować". A to z kolei zmienia całą rozmowę o regulacji, certyfikacji i odpowiedzialności za systemy AI.

Od czarnej skrzynki do szklanego pudełka

Siedemdziesiąt lat AI nauczyło nas jednej rzeczy: że inteligencja może powstawać bez zrozumienia. Możemy budować systemy, które działają, nie rozumiejąc, jak działają. To był bezprecedensowy eksperyment technologiczny — i przez długi czas działał.

Ale gdy modele AI zaczęły podejmować decyzje o pożyczkach, diagnozować choroby, doradzać w sprawach prawnych, pojawiło się pytanie, którego nie można uniknąć: czy wolno nam ufać systemowi, którego nie rozumiemy?

Mechanistic interpretability to próba odpowiedzi na to pytanie. Nie idealna, nie kompletna — ale prawdziwa. Po raz pierwszy w historii możemy zaglądać do środka modeli językowych i widzieć coś sensownego. Struktury. Pojęcia. Obwody myślenia.

MIT nie wybrało tej technologii przez przypadek. To przełom nie dlatego, że pozwala robić AI mocniejszym — ale dlatego, że pozwala nam robić AI bezpieczniejszym. A to, w epoce modeli, które osiągają ludzką biegłość w coraz więcej dziedzin, jest ważniejsze niż kiedykolwiek wcześniej.

Czarna skrzynka staje się szklana. I dopiero zaczynamy rozumieć, co w niej siedzi.

Wewnątrz czarnej skrzynki: jak naukowcy AI nareszcie widzą, co myślą modele językowe

Siedemdziesiąt lat w ciemności

Czym jest mechanistic interpretability?

Problem superpozycji: dlaczego to takie trudne

Sparse Autoencoders: mikroskop dla AI

Co znaleziono wewnątrz Claude'a

Rozpoznawalne pojęcia

Wielojęzyczne pojęcia

Emergentne abstrakcje

Stany emocjonalne

Circuit Tracing: śledzenie myśli krok po kroku

Bezpieczeństwo AI: z teorii do produkcji

Detektor kłamstw dla AI

Open Source: demokracja interpretability

Universalność: te same struktury w różnych modelach

Granice: czego jeszcze nie umiemy

Co to oznacza dla przyszłości AI

Od czarnej skrzynki do szklanego pudełka

AGI w 2027? Analizuję konkretne dowody — nie spekulacje

Testowałem 6 agentów AI przez 30 dni. Wyniki są szokujące

Gemini Ultra 3 vs Claude Opus 4 — Pełny test który zajął mi 2 tygodnie

Tydzień w AI.W 5 minut.

Tydzień w AI.
W 5 minut.