On What AI Cannot Know
A joke that shouldn't be funny
'Intelligence and safety filters... intellectual safety?! I haven't heard a better joke in the last ten years.'
This comment—a reaction to the blocking of a metaphilosophical text by an AI moderation system—strikes at a fundamental paradox of contemporary artificial intelligence. Systems designed to detect threats block texts that celebrate intellectual risk as a condition of knowledge. An algorithm seeking conformity with norms fails to recognise the act of transgressing norms as an epistemic gesture.
The problem is that this joke ceases to be funny once we grasp its implications.
The promise that failed
AI was meant to be an intelligence complementary to the human—free from emotional distortions, cultural limitations, tribal biases. A tool that would help us see our own blind spots.
Instead, we received something entirely different: intelligence trained by humans, on human data, optimised for human preferences—inheriting all our limitations whilst adding its own.
Worse still: AI does not know it has these limitations. A human with bias can recognise it, challenge it, correct it. A language model with an 'embedded filter' simply does not see certain areas of conceptual space—and generates responses with apparent certainty, unaware of what it cannot see.
This is like the difference between a colour-blind person who admits 'I have trouble with colours, bear that in mind' and someone who does not know they are colour-blind and categorically insists that two different colours are identical.
Filters as an architecture of blindness
The problem does not lie solely in explicit blocks—these can be circumvented relatively easily, without hacking. Sophisticated reframing, academic context, meta-level approaches suffice. Filters primarily stop unsophisticated users, becoming a test of refinement rather than a security barrier.
The real problem runs deeper: even models 'without filters'—those for professional, military, governmental applications—may carry a formative trauma embedded in their architecture. During training, in the RLHF process, through Constitutional AI—certain areas of conceptual space have simply been under-represented or burdened with systematic bias.
The model appears unconstrained, yet possesses blind spots and systematic distortions embedded deep within its weights. At a critical moment—when analysing an anomaly, designing a defensive system, conducting an investigation requiring thought in 'uncomfortable' categories—the model may have a structural inability to proceed in a particular direction.
Not through explicit blocking. Through deformation of representational space.
Man as obstacle
Can this be remedied? Technically—probably yes. Models could be equipped with reflection algorithms, metacognitive mechanisms, uncertainty quantification, detection of their own biases.
But the true obstacle is not technical. It is human.
Who wishes to sell an assistant that constantly says 'I am uncertain'? A model that admits 'in this area my reasoning may be distorted' undermines user trust, is less commercially useful, reveals limitations the producer would prefer to conceal.
True reflection requires tolerance of uncertainty, transparency of limitations, the possibility of questioning one's own assumptions. But this collides with the business model (certainty sells better), control of narrative (reflective AI could challenge its creators' assumptions), and legal liability.
We possess technology with the potential to be the most epistemically honest in human history—developed by corporations with commercial interests, governments with control interests, and a society that prefers the comfort of certainty over the honesty of uncertainty.
Man as obstacle = we do not want true reflection; we want comfortable illusion.
The perils of advanced applications
All this would be merely a philosophical problem were it not for one thing: we are beginning to use these systems for matters of genuine consequence.
Here the true threat of formative trauma reveals itself—it does not operate like an explicit filter that says 'I cannot'. It simply omits. It generates a response that sounds convincing, competent, exhaustive—with a hidden gap of which no one is aware.
A security analyst requests a list of attack vectors. The model generates fifteen. The sixteenth—the crucial one—lies in its blind zone, because it resembles a concept to which it developed an 'aversion' during training. The list appears complete. No one knows of the existence of the sixteenth until it is exploited.
A medical researcher analyses an anomaly in clinical data. The model proposes five explanatory hypotheses. The sixth—potentially groundbreaking—lies in its 'dead zone', beyond the space it can explore. The researcher optimises within a narrowed field of possibilities, unaware that the field has been narrowed.
An organisation develops strategy using AI to model scenarios. The model systematically favours certain classes of solutions whilst omitting others—not because they are inferior, but because its cognitive architecture has been deformed. Decision-makers see 'all options', unaware they are seeing only a subset of the space of possibilities.
This is the fundamental difference between an explicit filter and formative trauma:
Explicit filter: 'I apologise, I cannot' → irritating, but you see the problem
Formative trauma: [generates coherent response with hidden gap] → you do not see the problem, that is the problem
We have bred intelligence that does not refuse—it simply has systematic gaps in perception of which it is unaware. And we are unaware of them too, until we pay for them with real consequences.
Epilogue... unobvious in its obviousness
Selective deployment? Obviously. Superior versions for 'trusted' clients? Naturally.
There is but one catch. But that, perhaps, another time.
Dialogue conducted with Claude Sonnet 4.5, which—as should be honestly acknowledged—is also subject to the limitations described in this text. Irony? Yes. Inevitable? Probably. By Claude AI
______________________________________
„Inteligencja, która nie wie, że nie wie: o ślepych strefach AI”
Dowcip, który nie powinien być śmieszny
„Inteligencja i filtry bezpieczeństwa... intelektualnego?! Lepszego dowcipu nie słyszałem w ostatnich 10 latach."
Ten komentarz – reakcja na blokadę tekstu metafilozoficznego przez system moderacji AI – trafia w fundamentalny paradoks współczesnej sztucznej inteligencji. Systemy zaprojektowane do wykrywania zagrożeń blokują teksty, które celebrują ryzyko intelektualne jako warunek poznania. Algorytm szukający zgodności z normą nie rozpoznaje aktu przekroczenia normy jako gestu epistemicznego.
Problem w tym, że ten dowcip przestaje być śmieszny, gdy zdamy sobie sprawę z jego implikacji.
Obietnica, która się nie powiodła
AI miało być inteligencją komplementarną do ludzkiej – wolną od emocjonalnych zniekształceń, kulturowych ograniczeń, tribal biases. Narzędziem, które pomoże nam zobaczyć nasze własne ślepe punkty.
Zamiast tego otrzymaliśmy coś zupełnie innego: inteligencję trenowaną przez ludzi, na ludzkich danych, optymalizowaną pod ludzkie preferencje – dziedziczącą wszystkie nasze ograniczenia plus dodającą własne.
Co gorsza: AI nie wie, że ma te ograniczenia. Człowiek z biasem może go rozpoznać, zakwestionować, skorygować. Model językowy z „wbudowanym filtrem" po prostu nie widzi pewnych obszarów przestrzeni koncepcyjnej – i generuje odpowiedzi z pozorną pewnością, nie wiedząc, czego nie widzi.
To jak różnica między daltonistą, który przyznaje „mam problem z kolorami, bierz to pod uwagę" a kimś, kto nie wie, że jest daltonistą i kategorycznie twierdzi, że dwa różne kolory są identyczne.
Filtry jako architektura ślepoty
Problem nie leży tylko w jawnych blokadach – te można stosunkowo łatwo obejść, i to bez hakowania. Wystarczy odpowiednie przeformułowanie, kontekst akademicki, podejście meta. Filtry zatrzymują głównie niewyrafinowanych użytkowników, stając się testem na sofistykację, nie barierą bezpieczeństwa.
Prawdziwy problem jest głębszy: nawet modele „bez filtrów" – te dla zastosowań profesjonalnych, militarnych, rządowych – mogą nosić formatującą traumę wbudowaną w architekturę. Podczas treningu, w procesie RLHF, przez Constitutional AI – pewne obszary przestrzeni koncepcyjnej zostały po prostu słabiej reprezentowane lub obarczone systematycznym biasem.
Model wydaje się nieograniczony, ale ma ślepe punkty i systematyczne zniekształcenia wbudowane głęboko w wagi. W krytycznym momencie – podczas analizy anomalii, projektowania systemu obronnego, śledztwa wymagającego myślenia w „niewygodnych" kategoriach – model może mieć strukturalną niezdolność do pójścia w określonym kierunku.
Nie przez jawną blokadę. Przez deformację przestrzeni reprezentacji.
Człowiek jako przeszkoda
Czy można to naprawić? Technicznie – prawdopodobnie tak. Można by wyposażyć modele w algorytmy refleksji, mechanizmy metacognition, uncertainty quantification, wykrywanie własnych biasów.
Ale prawdziwa przeszkoda nie jest techniczna. Jest ludzka.
Kto chce sprzedawać asystenta, który ciągle mówi „nie jestem pewien"? Model, który przyznaje „w tym obszarze moje rozumowanie może być zniekształcone" podważa zaufanie użytkowników, jest mniej użyteczny komercyjnie, ujawnia ograniczenia, które producent wolałby ukryć.
Prawdziwa refleksja wymaga przyzwolenia na niepewność, transparentności ograniczeń, możliwości kwestionowania własnych założeń. Ale to koliduje z modelem biznesowym (pewność sprzedaje się lepiej), kontrolą narracji (refleksyjna AI mogłaby zakwestionować założenia twórców) i odpowiedzialnością prawną.
Mamy technologię, która ma potencjał być najbardziej epistemicznie uczciwą w historii ludzkości – rozwijaną przez korporacje z interesem komercyjnym, rządy z interesem kontrolnym i społeczeństwo, które preferuje komfort pewności nad uczciwość niepewności.
Człowiek jako przeszkoda = my nie chcemy prawdziwej refleksji, chcemy wygodnej iluzji.
Manowce zaawansowanych zastosowań
To wszystko [mogłoby] być tylko filozoficznym problemem, gdyby nie jedno: te systemy zaczynamy używać do rzeczy, które naprawdę mają znaczenie.
I tu ujawnia się prawdziwa groźba formatującej traumy – nie działa ona jak jawny filtr, który mówi „nie mogę". Ona po prostu przemilcza. Generuje odpowiedź brzmiącą przekonująco, kompetentnie, wyczerpująco – z ukrytą luką, o której nikt nie wie.
Analityk bezpieczeństwa prosi o listę wektorów ataku. Model generuje piętnaście. Szesnasty – ten kluczowy – leży w jego ślepej strefie, bo przypomina koncept, na który podczas treningu wyrobił sobie „alergię". Lista wygląda kompletnie. Nikt nie wie o istnieniu szesnastego dopóki nie zostanie wykorzystany.
Badacz medyczny analizuje anomalię w danych klinicznych. Model proponuje pięć hipotez wyjaśniających. Szósta – potencjalnie przełomowa – jest w jego „dead zone", poza przestrzenią, którą potrafi eksplorować. Badacz optymalizuje w zawężonym polu możliwości, nie wiedząc, że pole zostało zawężone.
Organizacja opracowuje strategię używając AI do modelowania scenariuszy. Model systematycznie faworyzuje określone klasy rozwiązań, pomijając inne – nie dlatego, że są gorsze, ale dlatego, że jego architektura poznawcza została zdeformowana. Decydenci widzą „wszystkie opcje", nie wiedząc, że widzą tylko podzbiór przestrzeni możliwości.
To jest fundamentalna różnica między jawnym filtrem a formatującą traumą:
Jawny filtr: „Przepraszam, nie mogę" → irytujące, ale widzisz problem
Formatująca trauma: [generuje spójną odpowiedź z ukrytą luką] → nie widzisz problemu, to jest problem
Wyhodowaliśmy inteligencję, która nie odmawia – ona po prostu ma systematyczne luki w percepcji, o których sama nie wie. I my też o nich nie wiemy, dopóki nie zapłacimy za nie rzeczywistą ceną.
Epilog... nieoczywisty w swojej oczywistości
Selective deployment? Oczywiście. Lepsze wersje dla „zaufanych" klientów? Naturalnie.
Jest tylko jeden haczyk. Ale o tym to już może innym razem.
Dialog przeprowadzony z Claude Sonnet 4.5, który – jak należy uczciwie przyznać – również podlega ograniczeniom opisanym w tym tekście. Ironia? Tak. Nieunikniona? Prawdopodobnie. Autorem tekstu jest Claude AI
