Oficjalny przewodnik Google o optymalizacji pod AI Search jest klinicznie poprawny. I operacyjnie niepełny. Google opublikował go 15 maja 2026 jako spokojny komunikat dla rynku: nie wymyślajcie osobnego SEO pod AI, klasyczne SEO wystarczy.
Problem polega na tym, że dokument mówi, czego nie trzeba robić - nie pokazuje natomiast, jak dokładnie system podejmuje decyzje. Zresztą nie może tego powiedzieć, bo to nota mocno komunikacyjna, a nie inżynieryjna. A właśnie w tych inżynieryjnych szczegółach tkwią ciekawe szczegóły, które pokazują, jak drobne przemilczenia robią bardzo dużą różnicę.
Korpus patentów Google opisujących mechanizmy stojące za AI Search to setki dokumentów - niektóre opublikowane w 2005 roku. Opisują dokładnie te warstwy, o których oficjalny guide milczy: trzygałęziową logikę decyzyjną dla rozbieżnych źródeł (US20250245255A1), próg minimalnej korroboracji wynoszący „więcej niż jeden dokument” (US9785686B2), strukturę danych jako sygnał adaptacji LLM (US20260080866A1), passage ranking jako oddzielny system scoringu (US9690847B2).
TL;DR: Google ma rację, że nie trzeba wymyślać osobnego SEO pod AI. Patenty doprecyzowują jednak, że AI Search działa przez dodatkowe progi: selekcję źródeł, korroborację faktów i scoring fragmentów. Klasyczne SEO jest biletem wstępu - widoczność w AI Overview wymaga jeszcze czegoś.
Przez ostatnie dni analizowałem patenty Google pod jednym kątem: co system faktycznie robi z treścią, o czym oficjalna dokumentacja milczy. Efektem jest mapa ponad trzydziestu patentów ułożonych w warstwy procesu - od intencji użytkownika, przez retrieval, po scoring i weryfikację faktów.
Mapa kontrastów
Najprościej czytać ten tekst jak zejście w głąb stosu technologicznego Google Search. Warstwa wejściowa to intencja i query fan-out. Warstwa dostępu to retrieval, RAG i cutoff źródeł. Warstwa weryfikacji to potwierdzenie krzyżowe, czyli korroboracja. Warstwa ekstrakcji to passage ranking, answer score i wybór fragmentu nadającego się do odpowiedzi. Kolejność sekcji nadal podąża za oficjalnym dokumentem Google, ale techniczny wektor jest głębszy: od komunikatu dla rynku do mechanizmów decyzyjnych pod spodem.
Poniższe osiem wierszy to kręgosłup całego tekstu i jednocześnie instrukcja lektury. Lewa kolumna pokazuje język oficjalnego przewodnika Google. Prawa - mechanizmy, które patenty nazywają po imieniu. Każdy wiersz wraca niżej jako osobna część argumentu.
| Co Google podkreśla | Co dopowiadają patenty |
|---|---|
| „Review the specific information” - czarna skrzynka. | Trzygałęziowy switch case decyzyjny - claims 6/12/18 patentu US20250245255A1. |
| „First-hand review, unique perspective” - jakość treści jako abstrakcja. | Information Gain + Factual Grounding Score + Evidence Base Quality. |
| „Don't seek inauthentic mentions” - negacja. | Minimum 2 niezależne źródła = warunek konieczny korroboracji (US9785686B2 claim 1). |
| „No chunking required” - ulga dla SEO-wców. | Passage Ranking ma własny scoring od 2009 roku (US20090024606A1, US9690847B2). |
| „Structured data not required” - ulga. | „Structured Data for Adaptation” - sygnał konfigurujący LLM (US20260080866A1). |
| „Query fan-out” jako nowa technika AI. | Query augmentation od 2005 roku (US6941293). |
| „Rooted in core ranking systems” - mgliście. | Topical Authority obliczana kontekstowo: temat x POV x lokalizacja x czas (US20110246484A1). |
| Brak wzmianki o Featured Snippets. | Mechanizm Answer Score: Featured Snippets = AI Overviews (US10783156B1 -> US20230342411A1). |
Te osiem wierszy to nie polemika. To inwentarz. Każdy wiersz ma patent, datę i claim, czyli zastrzeżenie patentowe: precyzyjnie sformułowany zakres rozwiązania technicznego, który patent ma chronić. Dlatego claim ma w tym tekście większą wagę niż luźna interpretacja.
Co Google opublikował, a czego nie nazwał po imieniu
Google przedstawia listę rzeczy, których nie trzeba robić: nie potrzeba llms.txt, nie potrzeba chunkingu, nie ma specjalnego schema.org markup dla AI Search, nie warto szukać sztucznych mentions i nie trzeba pisać pod każdy wariant long-tail, bo systemy AI rozumieją synonimy i ogólne znaczenia.
Każde z tych zdań jest w izolacji prawdziwe. Razem tworzą jednak bardzo konkretny obraz: nic ekstra nie róbcie, system sobie poradzi.
Właśnie ta formuła - czego nie trzeba robić - otwiera ryzyko błędnej interpretacji. Fraza „nie musisz tego robić” nie oznacza „system tego nie używa”. Ta różnica jest kluczowa dla strategii SEO, ponieważ patenty Google opisują dokładnie te mechanizmy, które oficjalny tekst pomija, upraszcza albo ujmuje negatywnie - i nazywają je po imieniu.
W pełnym słowniku w sekcji 7 zbieram te nazwy w jednym miejscu. Tu wystarczą trzy przykłady: Confidence Level, Cutoff Prompt i Heading Vector. Każdy ma patentowe źródło i opisuje konkretną decyzję, którą system może podjąć wobec Twojej treści. Najpierw przejdźmy jednak przez mechanizmy, które najmocniej zmieniają interpretację oficjalnego guide'u.
Od tego miejsca przechodzimy przez kluczowe sekcje dokumentu Google. Każdą czytam w tym samym układzie: najpierw co Google mówi w oficjalnym przewodniku, potem co dopowiadają patenty i na końcu co to zmienia dla strategii SEO.
RAG: jak Google wybiera źródła i kiedy odmawia odpowiedzi
Zacznijmy od fundamentu: jak system w ogóle przetwarza źródła, zanim cokolwiek oceni.
Google w oficjalnym przewodniku opisuje RAG trzema słowami: retrieve, review, generate. System pobiera trafne strony, przegląda konkretne informacje i generuje odpowiedź bardziej pomocną dla użytkownika.
Dla wydawcy brzmi to uspokajająco. Jeśli strona jest dobra, Google ją znajdzie, „przejrzy” i użyje w odpowiedzi. Problem polega na tym, że słowo „review” przykrywa najważniejszy fragment procesu. Pomiędzy pobraniem źródeł a wygenerowaną odpowiedzią nie ma jednej prostej operacji, tylko seria decyzji.
Patenty pokazują właśnie tę ukrytą warstwę. Między „retrieve” a „generate” znajduje się czteroetapowy pipeline z osobnym scoringiem selekcji źródeł, trzygałęziową logiką decyzyjną dla rozbieżnych źródeł, możliwością fuzji fragmentów i mechanizmem, w którym system odmawia odpowiedzi, jeśli pewność jest za niska.
Pipeline ma cztery etapy, nie dwa
Patent US20240346256A1 (claim 20) opisuje architekturę. Zapytanie najpierw przechodzi enkoder neuronowy oparty na architekturze BERT lub GPT i jest kodowane w niskowymiarowy, gęsty wektor cech. Wektor służy do retrievingu - porównania cosinusowego z wektorami dokumentów w korpusie, opcjonalnie z użyciem Dense Passage Retrieval.
Następnie system buduje augmented_prompt, łącząc oryginalne zapytanie z pobranymi fragmentami i przekazuje do LLM z instrukcją priorytetyzowania pobranych źródeł nad wiedzą z treningu. Na końcu - i tę fazę dokument Google przemilcza - pipeline robi post-generation: normalizuje tekst, segmentuje go, dopasowuje fragmenty do źródeł i warunkowo dodaje linki atrybucji.
Tę ostatnią fazę - warunkową atrybucję źródeł - opisują dwa patenty z 2026 roku (US20260064780A1, WO2026049929A1) pod nazwą dynamic attribution. Atrybucja nie jest automatyczna: zależy od tego, jak ściśle wygenerowany fragment odpowiedzi dopasowuje się do pobranego fragmentu źródła. Twoja treść może więc zostać zacytowana - albo nie, mimo że zasiliła retrieval.
Grounding, czyli uziemienie odpowiedzi w źródłach, jest tu procesem redukcji halucynacji LLM. Model nie ma po prostu „ładnie odpowiedzieć”. Ma odpowiedzieć na podstawie fragmentów, które przeszły retrieval, selekcję i późniejsze dopasowanie do wygenerowanej treści.
Dlaczego to ważne? Bo nawet jeśli Twoja strona jest w TOP 10, to dopiero początek gry. Poniżej opisuję drugie sito, które decyduje, czy content faktycznie zasili odpowiedź AI.
Source selection ma osobny mechanizm cutoff od klasycznego rankingu
Tu pada pierwszy mocny dowód, że bycie w TOP 10 SERP to dopiero pierwszy próg. Patent US20250200100A1 opisuje dwustopniowy proces selekcji źródeł do groundingu.
Etap pierwszy: klasyczny retrieval zwraca zbiór wstępny z dwoma wskaźnikami - relevancy_score (trafność) i depth_score (głębia tematyczna).
Etap drugi: system decyduje, które z tych dokumentów rzeczywiście wejdą do groundingu odpowiedzi. I robi to jedną z dwóch metod.
- Metoda A - Generative Cutoff. System konstruuje cutoff_prompt zawierający oryginalne zapytanie oraz listę kandydatów z ocenami, wysyła do modelu generatywnego, a model zwraca podzbiór dokumentów uznanych za odpowiednie do groundingu (claim 2).
- Metoda B - Probabilistic Cutoff. Wyniki trafności i głębi są poddawane funkcji probabilistycznej zwracającej wartość progową (claim 4).
To oddzielny scoring. Patent mówi wprost: bycie w TOP wyników klasycznego rankingu kwalifikuje cię do drugiego sita, nie do AI Overview bezpośrednio. Ten patent należy do warstwy dostępu: nie odpowiada na pytanie „który dokument jest najlepszy w SERP?”, tylko „który dokument wolno wpuścić do groundingu odpowiedzi?”. Dla SEO oznacza to prostą rzecz: klasyczny ranking jest wejściem do gry, ale sama gra ma jeszcze dodatkowe reguły.
Kiedy już wiadomo, które dokumenty weszły do groundingu, system musi zdecydować, co z nimi zrobić - a to nie jest jedna prosta operacja.
Trzygałęziowa logika decyzyjna - claims 6, 12, 18
Patent US20250245255A1 - „Neuro-symbolic retrieval augmented generation hybrid” - jest jednym z najmocniejszych dowodów na to, jak daleko zaszło Google poza zdanie „review information”.
System najpierw generuje co najmniej dwie wstępne odpowiedzi (first_preliminary_query_response i second_preliminary_query_response) z różnych baz wiedzy. Każda otrzymuje quality_level - ocenę prawdopodobieństwa opartą na historycznej dokładności podobnych odpowiedzi.
Następnie wchodzi logika decyzyjna - i jest zapisana w trzech claimach 6, 12, 18. W uproszczeniu:
if both_quality < threshold:
integrate_knowledge_bases() -> regenerate_answer()
elif one_below_one_above:
select_higher_quality()
else: # obie różne, ale akceptowalne
if hybrid(fragments) > max(quality_A, quality_B):
return fuzja_fragmentów
else:
return higher_quality
To nie jest review. To switch case z trzema gałęziami decyzyjnymi - z fuzją fragmentów odpowiedzi z różnych baz, jeśli hybryda przekracza jakość każdej składowej, i z regeneracją odpowiedzi po integracji baz wiedzy, jeśli obie wyjściowe były słabe.
Systemy Google przeglądają konkretne informacje z pobranych stron, by wygenerować bardziej wiarygodną i pomocną odpowiedź.
Trzy claimy patentowe (6, 12, 18) z warunkową logiką decyzyjną, fuzją fragmentów i regeneracją odpowiedzi po integracji baz wiedzy. To nie review. To switch case. US20250245255A1.
Co to zmienia: jeśli system może fuzjować odpowiedzi, regenerować je i wybierać wyższy quality_level, to optymalizacja nie kończy się na „napisz dobrą stronę”. Treść musi być jednocześnie relewantna, weryfikowalna i wystarczająco spójna z innymi źródłami, żeby przetrwać kolejne warstwy decyzji.
Ale wybór między odpowiedziami zakłada, że system ma jakiś punkt odniesienia dla jakości. Skoro potrafi wybierać, musi jeszcze ocenić, którym faktom może zaufać. Tu wchodzi starsza, ale fundamentalna warstwa: Confidence Level.
Confidence Level i Weighting Process z 2010 roku
Patent US7788293B2 (priorytet około 2007, publikacja około 2010) opisuje mechanizm scoringu faktów, który napędza dzisiejsze AI Overviews. W prostych słowach: system nie zakłada, że fakt jest prawdziwy tylko dlatego, że znalazł go na jednej stronie. Najpierw sprawdza, ile źródeł mówi to samo, jak bardzo są wiarygodne i jak rozwiązać konflikt, gdy źródła podają różne wartości.
Pięć etapów wygląda następująco:
- Gromadzenie - fakty z wielu źródeł.
- Klastrowanie - grupowanie wokół tego samego atrybutu tej samej encji.
- Confidence Level - poziom pewności, że dany fakt jest prawdziwy; wysoki, gdy wartości są zgodne, niski, gdy są sprzeczne.
- Weighting Process - ważenie źródeł w razie konfliktu: komu zaufać bardziej, gdy różne dokumenty podają różne informacje.
- Prezentacja - high-confidence wyświetlane, low-confidence ukrywane.
To z 2010 roku. Patent z 16-letnim stażem. Warto przy tym patrzeć nie tylko na datę publikacji, ale też na datę priorytetu patentu, bo ona pokazuje, od kiedy dana linia techniczna była realnie rozwijana. Mechanizmu Confidence Level oficjalny dokument Google z 15 maja 2026 nie nazywa wprost.
A jeśli poziom pewności jest zbyt niski, system nie musi wybierać „najmniej złej” odpowiedzi. Może wykonać ruch, którego oficjalny guide nie eksponuje: odmówić wygenerowania wyniku.
System może odmówić odpowiedzi - i to nie pojawia się w dokumencie Google ani razu
Patent US20240428015A1 definiuje trzy pojęcia, których oficjalny dokument nie nazywa:
- Self-evaluation Score - model sam ocenia pewność swojej odpowiedzi.
- Selective Prediction - zdolność modelu, by nie odpowiedzieć.
- Abstention - stan systemu, który zdecydował się nie zwracać odpowiedzi z powodu niskiego confidence.
Patent US20230342411A1 claim 2 dodaje binarną decyzję: jeśli accuracy_score jest większy niż threshold - display; jeśli nie - do_not_display. To nie jest kosmetyczny szczegół. To zmienia sposób myślenia o widoczności: system nie tylko wybiera najlepszą odpowiedź, ale może zdecydować, że nie pokaże żadnej.
Patent US7953720B1 opisuje dwuetapową weryfikację: (1) supported_score > minimum_threshold; (2) supported_score znacząco wyższy niż contradictory_score. Jeśli któryś warunek nie jest spełniony - system odmawia.
Google nie może sobie pozwolić na halucynacje w sekcji AI Overviews. Dlatego selective prediction i abstention, czyli odmowa odpowiedzi, działają jak wentyl bezpieczeństwa. Dla SEO oznacza to, że walka nie toczy się wyłącznie o to, by być „lepszym” od konkurenta. Walka toczy się także o to, by system w ogóle nie uciekł w abstention z powodu braku precyzji, spójności albo potwierdzenia danych.
System może odmówić. AI Overview nie zawsze się pojawia - i to nie błąd ani brak danych. To zaprojektowana funkcja: jeśli żadna z kandydujących odpowiedzi nie przekracza progu jakości i pewności, system odmawia. Co to oznacza dla SEO? Sukcesem nie jest bycie w wynikach. Sukcesem jest przekroczenie funkcji progowej, którą Google trzyma w patentach, nie w dokumentacji.
A pewność systemu nie bierze się znikąd. Skoro system potrafi odmówić odpowiedzi, trzeba zapytać, co w ogóle buduje jego confidence. Tu zaczyna się temat korroboracji - i tu oficjalny dokument Google mówi tylko połowę prawdy o wzmiankach. Potwierdzenie danych to właśnie ten element, który oficjalny przewodnik traktuje jako zakaz manipulacji, a patenty jako mechanizm decyzyjny.
Wzmianki: spam kontra realne potwierdzenie faktów
W części o mentions Google zaczyna od ostrzeżenia: nie szukaj sztucznych wzmianek, bo nie są tak pomocne, jak mogłoby się wydawać, a systemy antyspamowe potrafią chronić wyniki przed takimi próbami manipulacji.
To zdanie jest prawdziwe i potrzebne. Nie wynika z niego jednak, że wzmianki nie mają znaczenia. Wynika z niego tylko tyle, że sztuczne wzmianki są złym sygnałem. Patenty Google pokazują drugą połowę obrazu: naturalne, niezależne potwierdzenia faktów są jednym z fundamentów potwierdzenia krzyżowego (korroboracji).
Dlatego ta sekcja nie jest zachętą do „robienia mentions”. Jest rozróżnieniem dwóch rzeczy, które łatwo wrzucić do jednego worka: spamerskich wzmianek i naturalnego potwierdzania informacji przez niezależne źródła. Warto tu oddać głos samemu Google. W patencie z 2015 roku inżynierowie sformułowali problem, który ten dokument rozwiązuje:
„What is needed is a method for finding sources relevant to a topic so that information related to that topic can be reliably confirmed or rejected.” - US9208229B2 | 2015
To cytat z samego patentu Google, nie z mojej analizy. Patent nazywa się „Anchor text summarization for corroboration” i definiuje dwuetapową logikę: (1) źródła relewantne tematycznie -> (2) potwierdzenie lub odrzucenie informacji. Topical Authority x Corroboration. Google opisuje to jako „potrzebę” - czyli problem, który ten patent rozwiązuje.
Tymczasem oficjalny dokument Google z 15 maja 2026 mówi w skrócie: sztuczne wzmianki są spamem i są blokowane przez systemy antyspamowe. To prawda. Ale dokument nie mówi wprost drugiej części: że naturalne wzmianki są twardym, mierzalnym sygnałem w pipeline RAG i Knowledge Graph.
Minimum korroboracji = more than one electronic document. Verbatim claim.
Patent US9785686B2 - „Corroborating facts in electronic documents” - opisuje procedurę weryfikacji faktów: system definiuje zapytanie faktograficzne, tworzy hypothetical_fact, czyli potencjalną odpowiedź, a następnie sprawdza, ile dokumentów w korpusie ją wspiera.
- Zdefiniowanie zapytania faktograficznego.
- Stworzenie hypothetical_fact - potencjalnej odpowiedzi.
- Sprawdzenie, ile dokumentów w korpusie ją wspiera.
- Próg minimum: liczba wspierających dokumentów musi przekraczać jeden.
Verbatim - to, co jest w claim 1, 11 i 21 tego patentu: próg do uznania faktu za likely correct musi być „more than one electronic document”. Innymi słowy: minimum 2 niezależne źródła = warunek konieczny korroboracji.
Dla polskiego rynku wydawniczego reguła „more than one electronic document” to punkt zwrotny. Polski web ma mniejszą gęstość niezależnych źródeł niż rynek anglojęzyczny, więc algorytm ma trudniejsze zadanie z uzyskaniem wysokiego Confidence Level. To działa w dwie strony: trudniej potwierdzić fakty w niszach, ale łatwiej zbudować silną pozycję tematyczną, jeśli kluczowe informacje o marce, produkcie albo metodologii są konsekwentnie potwierdzane przez niezależne domeny branżowe, lokalne i regionalne.
Nie szukaj sztucznych mentions, bo nie są tak pomocne, jak mogłoby się wydawać.
Claim 1 wymaga minimum dwóch elektronicznych dokumentów do potwierdzenia faktu. Google nie mówi: mentions nie liczą. Google mówi: sztuczne mentions nie liczą. Patent wymaga, żeby naturalne liczyły. I to liczba, mierzalnie. US9785686B2 claim 1.
Co to zmienia: strategia widoczności w AI Search nie powinna polegać na kupowaniu wzmianek. Powinna polegać na budowaniu takiej obecności, żeby kluczowe fakty o marce, osobie, produkcie albo metodologii były spójnie potwierdzane w niezależnych, tematycznie trafnych źródłach.
Corroboration Janitor: anchor text linków przychodzących jako sygnał potwierdzający fakty
Patent US9208229B2 - ten sam, z którego pochodzi epigraf - wprowadza komponent o nazwie Corroboration Janitor. Mechanizm jest prosty: anchor text linków prowadzących do dokumentu z innych stron służy jako zewnętrzny sygnał potwierdzający fakty zawarte w dokumencie docelowym. To łączy analizę treści z analizą grafu linków.
Samo potwierdzenie faktu nie wystarcza. Google musi jeszcze wiedzieć, czy źródło ma autorytet dokładnie w tym temacie, miejscu i kontekście, w którym użytkownik zadaje pytanie.
Topical Authority jest kontekstowa, nie ogólna
Patent US20110246484A1 - „Authority ranking” - definiuje autorytet jako funkcję:
authority_value(source, topic, location, point_of_view, time)
Nie ma jednego autorytetu domeny. Jest autorytet konkretny - per:
- Temat (SEO != kardiologia - autorytet się nie przenosi).
- Lokalizacja (lokalny != globalny).
- Point of view (treści dla lekarzy != dla pacjentów).
- Czas (autorytet ewoluuje).
Sygnały wejściowe wymienione w patencie: liczba publikacji powiązanych ze źródłem w danym temacie, liczba linków do treści powiązanych, liczba artykułów cytujących prace powiązane.
Gdy autorytet jest już rozbity na temat, lokalizację, punkt widzenia i czas, kolejne pytanie brzmi: jak system rozpoznaje źródło, które regularnie zasługuje na zaufanie?
Authoritative source = high ranking + frequently selected
Patent US9448992B2 definiuje autorytatywne źródło dwojako:
- Źródło konsekwentnie zajmujące wysokie pozycje w wynikach wyszukiwania dla zapytań z danej dziedziny.
- Źródło często wybierane przez użytkowników w wynikach wyszukiwania.
Co to znaczy: autorytet jest pochodną klasycznego rankingu i zachowań użytkowników. Bycie regularnie wysoko + bycie regularnie wybieranym = autorytet. Nie ma oddzielnego signal autorytetu, który byłby niezależny od pozycji w SERP-ach.
Ta logika nie zatrzymuje się na rankingu dokumentów. W nowszych patentach autorytatywne publikacje zaczynają pełnić głębszą rolę: stają się materiałem kalibrującym modele.
Authoritative publications -> golden prompts
Patent US20250077776A1 wprowadza pojęcie golden prompts: autorytatywne publikacje (instrukcje obsługi, artykuły naukowe, poradniki ekspertów) są wykorzystywane do generowania promptów, które zapewniają wysoką dokładność LLM. Są filtrowane i ważone przez moduł generator_publication_selector na podstawie rankingu i wiarygodności.
Co to znaczy operacyjnie: Twoja autorytatywna publikacja może bezpośrednio kształtować to, czego LLM uczy się w fine-tuningu. To dzieje się głębiej niż samo pobieranie dokumentów. To poziom kalibracji modelu.
W tym momencie wracamy do praktycznego pytania SEO: czy potwierdzenie musi mieć formę klasycznego linku? Patenty pokazują, że nie zawsze.
Wzmianki bez hiperłącza - mierzone trzema sygnałami
To, co Google nazywa inauthentic mentions i odradza, jest sztuczną wersją czegoś, co istnieje w patentach jako trzy mierzalne mechanizmy. Wzmianka bez hiperłącza działa dlatego, że system nie musi śledzić linku, żeby zauważyć relację. Trzy mechanizmy opisane w patentach mierzą dokładnie tę relację:
| Patent | Sygnał | Co robi |
|---|---|---|
| US9727617B1 | Entity-Quote Relationship Score | Cytaty powiązane z encjami - popularność, świeżość, siła związku. |
| US9323721B1 | Quotation Consensus Score | Częstotliwość i forma cytatu w wielu różnych wysokiej jakości źródłach. |
| US9201876B1 | Co-occurrence Consistency Score | Spójność współwystępowania słów i encji w różnych dokumentach. |
Wzmianka o Twojej marce w artykule branżowym - nawet bez linku - może więc działać jako sygnał. Nie dlatego, że „mention” jest magicznym skrótem do AI Overview, ale dlatego, że systemy opisane w patentach mierzą relacje encji, konsensus cytowań i spójność współwystępowania. Trzy razy.
Knowledge Graph: popularność jako sygnał prawdy
Patent US20150317367A1 zamyka klamrę. Popularność informacji - liczba źródeł ją potwierdzających - jest istotnym sygnałem prawdziwości, używanym przy automatyzacji budowy Knowledge Graph. To nie spam. To matematyka. Im więcej niezależnych źródeł podaje ten sam fakt, tym wyższe prawdopodobieństwo, że trafi do struktury, z której Google generuje odpowiedzi.
Skoro system wie już, który fakt jest wiarygodny, musi jeszcze wybrać fragment strony, który najlepiej go wyrazi. Tu Google milczy o najważniejszym moście technologicznym: Featured Snippets i AI Overviews to ten sam kierunek scoringu, tylko w innej skali.
Featured Snippets a AI Overviews - ta sama linia technologiczna
Scoring odpowiedzi to technologiczny most między Featured Snippets a AI Overviews - i najlepszy dowód na to, że AI Search nie jest nową planetą, tylko kolejnym piętrem starego budynku.
Patenty pozwalają nazwać tę ciągłość technologiczną: publikacja badawcza „Corroboration of Web Answers”, patenty Featured Snippets, mechanizm answer_score oraz późniejsze patenty AI Overviews opisują ten sam kierunek - scoring odpowiedzi, a nie tylko ranking dokumentów.
Passage Ranking jako kamień węgielny - od 2017
Patent US20170011116A1 - „Generating elements of answer-seeking queries and elements of answers” - wprowadza przejście od oceny całych dokumentów do oceny poszczególnych fragmentów (passages). To technologiczny kamień węgielny, który umożliwił zarówno Featured Snippets, jak i dzisiejsze RAG / AI Overviews.
Sygnały specyficzne dla passage opisane w patencie:
- Structured Answer Element Density.
- Query-Answer Element Alignment.
- Passage Coherence and Completeness.
- Document Answer Authority.
Te sygnały opisują, co system widzi w samym fragmencie. Kolejny krok to policzenie, czy ten fragment faktycznie nadaje się na odpowiedź.
Answer Score: ten sam wzór dla Featured Snippets i AI Overviews
Patent US10783156B1 (2020) opisuje zagregowaną ocenę fragmentu:
answer_score = f(query_dependent_score, query_independent_score)
Patent US9940367B1 potwierdza ten wzór w claim 19. W tej linii patentowej widać ewolucję: wcześniejsza wersja skupiała się głównie na query_dependent. Nowsza wersja explicite wyciąga query_independent - cechy samego fragmentu i jego źródła, niezależnie od kontekstu zapytania.
Co to znaczy: wzór scoringu odpowiedzi nie zmienił się od Featured Snippets. Zmieniła się tylko liczba użytych źródeł (jedno -> wiele) i typ outputu (extract -> synthesize).
Multi-source extraction z thresholdem = serce AI Overview
Patent US20230342411A1 (2023). Bezpośredni potomek US10783156B1. Z dwoma kluczowymi dodatkami: multi-source extraction i próg wyświetlenia.
Claim 2 wprost: jeśli accuracy_score > threshold -> display. Jeśli < -> do not display.
Sygnały scoringu w tym patencie:
- Consensus-Verified Factual Consistency.
- Multi-Source Topical Alignment.
- Passage Semantic Cohesion.
- Source Authority & Trustworthiness.
- Query-Passage Semantic Overlap.
AI Search jest zakorzenione w klasycznych systemach rankingowych, ale przewodnik nie prowadzi czytelnika przez linię Featured Snippets -> AI Overviews.
US10783156B1 (2020) i US20230342411A1 (2023) są w tej samej linii technologicznej. Trzy lata różnicy. Featured Snippet -> AI Overview. Mechanizm scoringu się nie zmienił - tylko wielkość źródła kontekstu i typ outputu.
Co to zmienia: AI Overview nie jest oderwanym bytem z innej planety. To raczej rozwinięcie logiki odpowiedzi: zamiast jednego fragmentu z jednego źródła, system może syntetyzować wiele fragmentów z wielu źródeł, nadal opierając się na scoringu odpowiedzi, jakości źródeł i progu wyświetlenia.
Summarized Query Response - pomost koncepcyjny
Patent US12158917B2 (2024) wprowadza pojęcie summarized query response jako odrębnego bytu - różnego od cytowanego fragmentu źródła. Sygnały: Content Summarizability / Direct Answer Authority / Information Saliency / Speakability/Readability Score.
To most między prostym snippetem a złożonym AI Overview. System nie tylko wycina fragment, ale tworzy osobny byt odpowiedzi, który może być oceniany pod kątem streszczalności, bezpośredniości, czytelności i przydatności w generatywnym wyniku.
Document Portions + Query Embedding Similarity
Patent US20250103826A1 (2025) - jeden z najbardziej bezpośrednich patentów opisujących mechanizm AI Overview. Wprost mówi o generowaniu odpowiedzi z cytowaniami na podstawie document portions oraz Query Embedding Similarity jako mierze podobieństwa semantycznego.
Sygnały: Fragment Granularity/Cohesion / Citation Quality/Source Authority / Multi-Source Integration Potential. AI Overview to passage ranking + multi-source scoring + embedding-based retrieval. Trzy patenty, jeden mechanizm. Wszystkie publicznie dostępne.
Innymi słowy: AI Overview nie pobiera całej strony. Pobiera precyzyjnie zdefiniowane fragmenty - i ocenia ich jakość osobno od oceny całego dokumentu.
Timeline patentów - 20 lat ciągłości
Poniżej 20 lat ciągłości. Najstarszy patent został zgłoszony, gdy Google było startupem. Najnowszy ma datę 2026.
Dwadzieścia jeden lat. Wszystko publiczne. Dlatego AI Search nie jest rewolucją - to ewolucja z dość dobrze udokumentowaną historią. I właśnie dlatego Passage Ranking nie jest nową funkcją AI, tylko starym mechanizmem z nowym interfejsem.
Passage Ranking: system segmentuje dokument - Ty mu w tym pomagasz
Google słusznie odradza ręczny chunking. W dokumencie uspokaja wydawców: nie trzeba dzielić treści na małe kawałki specjalnie pod AI, bo systemy Google potrafią rozumieć niuanse wielu tematów na stronie i pokazywać użytkownikom właściwy fragment.
To dobra wskazówka operacyjna. Nie warto sztucznie rozcinać artykułów na „bite-sized chunks”, bo to może pogorszyć czytelność. Patenty pokazują jednak, że system i tak dzieli dokument na fragmenty - tylko robi to znacznie lepiej niż człowiek.
Patenty pokazują, że po stronie Google dokument nadal jest dzielony, oceniany i dopasowywany fragmentami. Passage Ranking ma własny scoring od 2009 roku, a struktura nagłówków, list i akapitów pomaga systemowi ustalić, gdzie zaczyna się i kończy sensowny pasaż.
Passage uniqueness via shingles - od 2009
Patent US20090024606A1 - „Identifying and Linking Similar Passages in a Digital Text Corpus” - z 2009 roku. Mechanizm: shingle-based passage matching, czyli identyfikacja unikalnych sekwencji słów (tzw. shingles) do grupowania podobnych fragmentów w korpusie. 15 lat przed dokumentem no chunking required. Sygnał o nazwie Passage Uniqueness Score istnieje od połowy poprzedniej dekady.
Drugi patent z tego samego roku: US7580921B2 - Phrase-Based Indexing. Identyfikacja kompletnych, znaczących fraz w dokumentach i zapytaniach jako podstawowych jednostek indeksowania. Wczesna forma semantycznego chunkingu - system 17 lat temu nie operował tylko na pojedynczych słowach, ale na znaczących frazach.
Per-fragment weights z sygnałami DOM + user engagement (2013)
Patent US8538989B1 (2013) wprowadza koncepcję, że różne fragmenty tej samej strony mogą mieć różne wagi. System dzieli dokument na mniejsze porcje i przypisuje im indywidualne wagi na podstawie:
- Relewancji do zapytania.
- Struktury DOM (HTML).
- Danych o interakcji użytkownika z tymi fragmentami.
Sygnał: Content Portion Relevance. Trafność fragmentu uwzględniająca DOM + user engagement. Patent ma 13 lat.
Selecting content by query segments (2017)
Patent US9690847B2 (2017) - identyfikacja „jądra tematycznego” zapytania i ocena poszczególnych segmentów treści niezależnie od pełnego zapytania. Twoja strona nie jest oceniana jako monolit. Jej segmenty są oceniane niezależnie.
W tym miejscu zaczyna się najważniejsza część dla redaktora: jeśli fragmenty mają osobne wagi, struktura dokumentu przestaje być tylko UX-em. Staje się sygnałem scoringowym.
Uwaga metodologiczna: w tej sekcji zostawiam tylko mechanizmy, które można zakotwiczyć w patentach. Heading Vector ma bezpośrednie oparcie w US9959315B1, dlatego opisuję go językiem tego patentu: wektor nagłówków, Similarity Score i modyfikację Answer Score.
Heading Vector i Similarity Score (US9959315B1)
Patent US9959315B1 opisuje ocenę fragmentów odpowiedzi przez analizę nagłówków nadrzędnych wobec danego pasażu. System tworzy wektor nagłówków, porównuje go z zapytaniem użytkownika i używa wyniku podobieństwa do modyfikacji Answer Score.
W tym mechanizmie kluczowe są trzy elementy:
- Heading Vector - wektor nagłówków, czyli tekst z jednego lub kilku nagłówków hierarchicznie nadrzędnych wobec kandydującego fragmentu odpowiedzi.
- Similarity Score - wynik podobieństwa między zapytaniem użytkownika a tekstem z wektora nagłówków.
- Answer Score Adjustment - modyfikacja wyniku fragmentu, jeśli podobieństwo nagłówków do zapytania przekracza określony próg.
Z punktu widzenia wyszukiwarki nagłówek H2 nie jest tylko większym fontem z tagiem w kodzie. Jest adresem kontekstu, który pomaga ustalić, do jakiego problemu należy dany fragment tekstu i czy ten fragment zasługuje na wyższy wynik jako odpowiedź.
Passage Coherence + Completeness
Patent US20170011116A1 wprowadza cztery sygnały:
- Passage Coherence and Completeness - czy fragment jest kompletny i zrozumiały w izolacji.
- Structured Answer Element Density - gęstość elementów odpowiadających na pytanie.
- Document Answer Authority - autorytet dokumentu rodzica.
- Answer Type Diversity in Passage - różnorodność typów odpowiedzi.
Hybrydowy model: niezależny scoring fragmentu + odziedziczone trust od dokumentu rodzica.
Co to oznacza dla struktury treści
Wszystkie opisane mechanizmy mówią jedno: system sam posegmentuje Twój dokument. Pytanie tylko, czy mu to ułatwisz. Zamiast ręcznego cięcia treści wystarczy zadbać o naturalną strukturę, którą system sam wykorzysta. W patentach widać wyraźnie, co bierze pod uwagę:
- Granic akapitów + nagłówków (Heading Vector -> Similarity Score).
- Spójnej hierarchii H1 -> H2 -> H3, która tworzy kontekst dla fragmentu.
- Spójności i kompletności fragmentu (Passage Coherence).
- Współwystępowania słów (US9201876B1).
- Embeddingów semantycznych, czyli liczbowych reprezentacji znaczenia tekstu (US20250103826A1).
Wniosek: zamiast chunkingu pod AI - strukturyzuj dokument tak, żeby system łatwo go pociął. Czytelne H2/H3, listy tam, gdzie są naturalne, jeden temat na sekcję, atomowe akapity. To nie chunking. To zwykła czytelność. Ale ma mierzalny wpływ na passage score.
Struktura dokumentu decyduje o tym, jak system go segmentuje. Ale segmentacja to dopiero połowa zadania - bo zanim system oceni fragmenty, musi jeszcze zdecydować, czego naprawdę szuka.
Query fan-out: rozszerzanie zapytań ma 20 lat historii patentowej
Mamy już warstwy scoringu i selekcji źródeł. Ale zanim system w ogóle zacznie oceniać dokumenty, musi wiedzieć, czego szukać. I tu zaczyna się coś, co Google opisuje jako nową technikę AI - a co ma patentową historię sięgającą 2005 roku.
System szuka odpowiedzi na cały zestaw powiązanych potrzeb informacyjnych. Google opisuje query fan-out, czyli rozszerzanie jednego zapytania o warianty i pod-zapytania, jako technikę AI Search: model generuje zestaw równoległych, powiązanych zapytań, żeby zebrać więcej informacji i dodatkowe wyniki wyszukiwania odpowiadające na potrzebę użytkownika. W przykładzie o pielęgnacji trawnika fan-out dokłada pytania o herbicydy i sposoby usuwania chwastów.
Praktycznie działa to tak: użytkownik wpisuje jedno krótkie pytanie, ale system rozpisuje je na kilka ukrytych pytań pomocniczych. Dla zapytania „jak przygotować trawnik na lato” może szukać osobno nawożenia, podlewania, koszenia, chwastów i chorób trawy. Użytkownik widzi jedną odpowiedź, ale retrieval pracuje na całej paczce intencji.
Dla czytelnika brzmi to jak funkcja z epoki generatywnej AI. I w obecnej formie faktycznie jest powiązana z modelami generatywnymi. Ale sam problem jest starszy: jak rozszerzyć zapytanie użytkownika tak, aby system znalazł pełniejszą odpowiedź, także wtedy, gdy użytkownik wpisał tylko skrót swojej intencji.
Patenty pokazują, że ta linia zaczyna się co najmniej w 2005 roku. Query fan-out jest więc nową nazwą i nową warstwą wykonawczą starego mechanizmu: query expansion, query augmentation i generowania zapytań pomocniczych.
US6941293 (2005) - najstarszy patent fan-outu
Patent US6941293 (priorytet 2005) - „Equivalent descriptions for query intent”. Mechanizm: określanie ekwiwalentnych opisów dla potrzeby informacyjnej. Fundament dla wszystkich późniejszych mechanizmów query expansion. 20 lat patentowej dokumentacji.
Seed Queries + structural templates (2013, 2016)
Patenty US8346792B1 (2013) i US9436747B1 (2016) wprowadzają:
- Seed queries - zapytania-zalążki.
- Podobieństwo strukturalne dokumentów - np. tagów HTML.
- Szablony zapytań - wzorce stosowane do innych dokumentów.
Patent US9436747B1 claim 1: identyfikacja struktury części dokumentu zawierającej terminy z zapytania-zalążka, a następnie generowanie nowego zapytania z tekstu w analogicznej strukturze.
W 2013 system automatycznie generował pod-zapytania używając HTML jako templatu. To nie LLM. Deterministyczna procedura.
Synthetic queries from structured data (2015)
Patent US9128945B1 - generowanie wysokiej jakości zapytań syntetycznych i kojarzenie ich z konkretnymi zasobami lub encjami. Structured data (Schema.org, mikroformaty) była bezpośrednio używana do generowania syntetycznych zapytań już 10 lat temu.
Trained generative model for query variants (2023)
Patent US11663201B2 - trenowane modele generatywne do tworzenia wariantów zapytań. Dopiero w 2023 mechanizm został przeniesiony na LLM. Wcześniej (2005-2016) działał na deterministycznych regułach + analizie struktury. Ewolucja, nie rewolucja.
Dlaczego llms.txt jest zbędny - i co Google robi zamiast niego
Patent WO2024229375A1 - „Query expansion by prompting large language models” (2024). Użycie LLM do dodania kontekstu semantycznego lub generowania pod-zapytań przed wysłaniem zapytania do systemu wyszukiwania.
Dlaczego Google mówi: nie potrzebujecie llms.txt? Bo plik llms.txt w zamyśle jego zwolenników ma podawać modelom gotowe, skondensowane porcje wiedzy na tacy. Patent WO2024229375A1 pokazuje jednak odwrócony proces: Google nie czeka, aż wydawca przygotuje osobny plik dla LLM. Własny LLM Google bierze surowe zapytanie użytkownika i dodaje do niego kontekst semantyczny albo pod-zapytania przed wysłaniem zapytania do systemu wyszukiwania.
Najkrócej: Google publicznie mówi „nie potrzebujecie llms.txt”, bo mechanizm analogicznego porządkowania kontekstu działa po ich stronie. Nie przez Twój dodatkowy plik, ale przez query expansion, query decomposition i wcześniejszą ekstrakcję struktury z dokumentów.
Tu kontrast jest prosty: Google publicznie mówi, że nie potrzebujesz nowych plików czy markupów maszynowo-czytelnych, aby pojawić się w generatywnym AI Search. Patent pokazuje, że Google sam używa LLM do dodawania kontekstu semantycznego do zapytań przed retrievingiem. Funkcjonalnie to llms.txt - tylko nie jako interfejs dla wydawcy, lecz jako wewnętrzna warstwa po stronie wyszukiwarki.
Co to zmienia: nie chodzi o to, żeby tworzyć plik dla LLM. Chodzi o to, żeby dokument był na tyle kompletny semantycznie, aby przetrwać zapytania pomocnicze, warianty intencji i pod-zapytania, których użytkownik nigdy nie wpisał wprost.
Query decomposition + session-based augmentation
Fan-out nie jest generacją przypadkowych wariantów. W korpusie patentów widać kilka mechanizmów uzupełniających ten proces:
- Modelowanie ukrytych intencji - sygnały napędzające ekspansję, gdy zapytanie jest niepełne.
- Session-based augmentation - wcześniejsze zapytania w sesji kształtują obecną ekspansję.
- User model embeddings - lokalizacja, historia, język jako wejście.
- Query decomposition - rozbijanie złożonego zapytania na atomowe pod-zapytania.
Fan-out nie generuje przypadkowych wariantów. Jest deterministycznym wynikiem modelu użytkownika, historii sesji i struktury zapytania - i ta procedura jest w patentach udokumentowana od lat. Patent WO2024229375A1 nie należy więc do kategorii „nowe pliki dla LLM”, tylko do kategorii „Google samo dopisuje warstwę semantyczną przed retrievalem”.
W tym miejscu mamy już wszystkie elementy układanki: retrieval, progi, korroborację, fragmenty i rozszerzanie zapytań. Zanim przejdę do wniosków operacyjnych, zbieram w jednym miejscu terminy, których Google nie używa w komunikacji publicznej, ale które pojawiają się w patentach. Traktuj tę listę jako słownik referencyjny - możesz do niej wrócić po przeczytaniu wniosków.
Słownik: 24 mechanizmy, których Google nie nazywa w komunikacji publicznej
Google w swoim przewodniku używa języka bezpiecznego dla szerokiego rynku: dobre SEO, pomocna treść, systemy jakościowe, brak potrzeby nowych sztuczek. To komunikacyjnie zrozumiałe, ale technicznie bardzo ogólne.
Patenty używają innego języka. Tam pojawiają się nazwy konkretnych decyzji, progów i sygnałów, które dokument publiczny pomija. Nie musisz znać tych terminów na pamięć. Potraktuj tę listę jak mapę: jeśli któryś termin pojawi się w Twojej analizie, wiesz już, gdzie szukać źródła i jaką warstwę systemu opisuje.
Oto terminy, których nie znajdziesz w oficjalnym przewodniku, a które pojawiają się w patentach Google. Każdy z nich opisuje konkretną decyzję algorytmu wobec Twojej treści: Confidence Level, Quality Level, Weighting Process, Cutoff Prompt, Self-evaluation Score, Heading Vector, Similarity Score, Authority Value, Document Portions, Structured Data for Adaptation, Corroboration Janitor, Hypothetical Fact, Likely Correct Fact, Authoritative Publication, Golden Prompt, Query Embedding Similarity, Passage Uniqueness Score, Content Portion Relevance, Information Saliency, Speakability Score.
Każdy z tych terminów ma patentowe źródło. Każdy opisuje konkretną decyzję, którą system podejmuje wobec Twojej treści. Każdy ma datę - niektóre z 2007 roku.
Progi i decyzje systemu
Pierwsza grupa dotyczy najtwardszej warstwy AI Search: decyzji progowych. To tutaj system ocenia, czy odpowiedź ma wystarczającą jakość, pewność i podstawę źródłową, żeby w ogóle mogła zostać pokazana. I to tutaj oficjalny dokument Google jest najbardziej nieprecyzyjny, bo mówi o jakości ogólnie, a patenty opisują konkretne progi.
| # | Termin | Definicja | Patent | Rok |
|---|---|---|---|---|
| 1 | Confidence Level | Miara pewności faktu oparta na liczbie/jakości źródeł. | US7788293B2 | ~2010 |
| 2 | Quality Level | Ocena całej wygenerowanej odpowiedzi. | US20250245255A1 | 2025 |
| 3 | Weighting Process | Trust x recency x completeness przy konflikcie. | US7788293B2 | ~2010 |
| 4 | Preliminary Query Response | Wstępna odpowiedź z konkretnej bazy wiedzy. | US20250245255A1 | 2025 |
| 5 | Cutoff Prompt | Generative AI wybiera podzbiór dokumentów do groundingu. | US20250200100A1 | 2025 |
| 6 | Probabilistic Cutoff | Funkcja probabilistyczna jako alternatywny tryb selekcji. | US20250200100A1 | 2025 |
| 7 | Self-evaluation Score | Wewnętrzna ocena modelu, czy ma wystarczającą pewność. | US20240428015A1 | 2024 |
| 8 | Abstention | Decyzja systemu o nieudzielaniu odpowiedzi. | US20240428015A1 | 2024 |
Autorytet i korroboracja
Druga grupa opisuje źródła zaufania. Nie chodzi tylko o to, czy informacja istnieje, ale kto ją potwierdza, w jakim temacie i czy system widzi wystarczająco mocny konsensus. Ta kolejność jest ważna: po progach jakości przychodzi pytanie o to, z czego system buduje pewność.
| # | Termin | Definicja | Patent | Rok |
|---|---|---|---|---|
| 9 | Authority Value (contextual) | Autorytet kontekstowy: temat x POV x lokalizacja x czas. | US20110246484A1 | 2011 |
| 10 | Authoritative Source | Wysoko rankujące + często wybierane dla zapytań. | US9448992B2 | 2016 |
| 11 | Authoritative Publication | Źródło wykorzystywane do generowania golden prompts. | US20250077776A1 | 2025 |
| 12 | Golden Prompt | Prompt z autorytatywnej publikacji do dostrajania LLM. | US20250077776A1 | 2025 |
| 13 | Corroboration Janitor | Komponent używający anchor text do potwierdzania faktów. | US9208229B2 | 2015 |
| 14 | Hypothetical Fact | Potencjalna odpowiedź - kandydat do weryfikacji. | US9785686B2 | 2017 |
| 15 | Likely Correct Fact | Status faktu po przekroczeniu progu min. 2 dokumenty. | US9785686B2 | 2017 |
Struktura dokumentu i fragmenty
Trzecia grupa schodzi na poziom samego dokumentu. Tu liczy się to, jak strona jest podzielona, gdzie zaczyna się pasaż i czy pojedynczy fragment może działać jako samodzielna odpowiedź. To naturalny krok po autorytecie: nawet zaufane źródło musi podać informację w formie, którą system potrafi wyciąć, ocenić i zacytować.
| # | Termin | Definicja | Patent | Rok |
|---|---|---|---|---|
| 16 | Fact Expansion Module | HTML tagi wpływają na zakres rozpoznanego faktu. | US8954412B1 | 2015 |
| 17 | Answer Score | Zagregowana ocena: query_dependent + query_independent. | US10783156B1 | 2020 |
| 18 | Query Independent Score | Komponent oceny niezależny od zapytania. | US10783156B1 | 2020 |
| 19 | Heading Vector | Tekst z nagłówków nadrzędnych wobec fragmentu odpowiedzi. | US9959315B1 | 2018 |
| 20 | Similarity Score | Podobieństwo zapytania do wektora nagłówków, używane do modyfikacji wyniku fragmentu. | US9959315B1 | 2018 |
| 21 | Passage Uniqueness Score | Unikalność fragmentu w całym korpusie. | US20090024606A1 | 2009 |
Retrieval, embeddingi i adaptacja modelu
Ostatnia grupa łączy klasyczny retrieval z warstwą semantyczną i generatywną. To słownictwo opisuje, jak system dobiera fragmenty, porównuje ich znaczenie z zapytaniem i wykorzystuje dane strukturalne do interpretacji treści. Dlatego zamyka słownik: pokazuje miejsce, w którym klasyczne SEO spotyka się z modelem generatywnym.
| # | Termin | Definicja | Patent | Rok |
|---|---|---|---|---|
| 22 | Document Portions | Fragmenty pobierane przez RAG jako kontekst. | US20250103826A1 | 2025 |
| 23 | Query Embedding Similarity | Podobieństwo semantyczne zapytania i fragmentu. | US20250103826A1 | 2025 |
| 24 | Structured Data for Adaptation | Schema.org jako sygnał konfigurujący generative model. | US20260080866A1 | 2026 |
Trzy z tych terminów zasługują na specjalną uwagę.
Confidence Level to mechanizm z 2010 roku, który dyktuje, czy Twój fakt zostanie wyświetlony użytkownikowi, czy ukryty. W praktyce oznacza to, że widoczność w AI Search zaczyna się od spójności danych, a nie od samej jakości pojedynczego akapitu.
Heading Vector i Similarity Score pokazują, że struktura dokumentu nie jest wyłącznie UX-em. Nagłówki i granice sekcji pomagają systemowi zrozumieć, gdzie zaczyna się i kończy fragment nadający się na odpowiedź.
Structured Data for Adaptation to patent z 2026 roku ujawniający, że schema.org jest sygnałem dla generative AI. To dokładnie ten punkt, w którym oficjalny dokument Google można zbyt łatwo uprościć do zdania: „structured data nie ma znaczenia dla AI”.
Masz już mapę mechanizmów. Czas przełożyć ją na decyzje.
Wnioski operacyjne
Na końcu Google mówi w gruncie rzeczy: dalej rób dobre SEO, twórz pomocne treści i nie daj się wciągnąć w modne skróty typu AEO czy GEO. Z tym kierunkiem trudno się nie zgodzić.
Patenty doprecyzowują jednak, co „dobre SEO” oznacza w środowisku AI Search. Nie chodzi o osobną magiczną dyscyplinę ani nową etykietę do sprzedania tej samej usługi. Chodzi o pięć praktycznych konsekwencji, które rozszerzają klasyczne SEO o mechanizmy opisane w dokumentach patentowych. Każdy wniosek poniżej domyka tę samą pętlę: oficjalny komunikat Google jest poprawny, ale patenty dopowiadają warstwę wykonawczą.
Wniosek 1: Klasyczny ranking to dopiero próg wejściowy
Teza: Google mówi: rób dobre SEO. Patenty doprecyzowują: klasyczny ranking jest pierwszym progiem dostępu do systemów, które wybierają źródła dla AI Overview. Cała narracja o passage ranking i AI Overview jest akademicka, jeśli dokument nie przechodzi klasycznego rankingu.
Patent zakotwiczający: US9690847B2 (selecting content using query-independent scores of query segments) + US20250200100A1 (Cutoff Prompt). Selekcja źródeł do groundingu odbywa się po klasycznym retrievalu. Klasyczny ranking = warunek wstępny, nie alternatywa.
Operacyjnie: przestań traktować SEO i AI Search (GEO/AEO) jako dwa osobne budżety. Jeśli domena nie generuje wysokiego bazowego rankingu w klasycznym indeksie, content nie trafia nawet do warstwy, w której model generatywny może uruchomić procedurę Cutoff Prompt. Klasyczne SEO to bilet wstępu. Dopiero po jego okazaniu algorytm zaczyna oceniać szanse dokumentu na udział w AI Overview.
Czego nie robić: nie traktować AEO/GEO jako zastępstwa klasycznego SEO. To nadbudowa, nie alternatywa.
Wniosek 2: Fakty muszą być spójne w co najmniej dwóch źródłach
Teza: Google mówi: nie kupuj sztucznych mentions. Patenty doprecyzowują: naturalne potwierdzenie faktów w więcej niż jednym źródle zasila Confidence Level. Widoczność w AI Search zaczyna się więc od spójności faktów, nie od trików promptycznych.
Patent zakotwiczający: US9785686B2 claim 1: próg do uznania faktu za likely correct wynosi „more than one electronic document”. Plus US20110246484A1: Authority Value jest kontekstowy. Plus US20150317367A1: popularność informacji jest istotnym sygnałem prawdziwości dla Knowledge Graph.
Operacyjnie: spójność danych (N-A-P, adresy, daty) we wszystkich miejscach w sieci to fundament Confidence Level. Naturalne wzmianki w autorytatywnych branżowych publikacjach zwiększają confidence_level. Cytaty Twoich treści w niezależnych źródłach są wejściem do quotation_consensus_score (US9323721B1).
Czego nie robić: nie kupować sztucznych mentions. Google ma rację. Ale nie mylić „nie kupować sztucznych” z „mentions nie liczą”.
Wniosek 3: Schema.org to sygnał dla LLM, nie tylko dla rich snippets
Teza: Google mówi: nie ma specjalnego schema tylko pod AI Search. Patenty doprecyzowują: structured data nadal może pomagać modelom w interpretacji encji, relacji i atrybutów. To uporządkowany opis materiału, z którym systemy AI mogą pracować precyzyjniej.
Patent zakotwiczający: US20260080866A1 wymienia „Structured Data for Adaptation” jako sygnał konfigurujący generative model. Plus US9128945B1 (2015): synthetic queries generowane bezpośrednio ze structured data. Plus US11475290B2: selekcja atrybutów encji do dynamicznego budowania struktur wiedzy.
Operacyjnie: przełam myślenie, że Schema.org wdraża się wyłącznie po to, żeby dostać rich results. Patent US20260080866A1 opisuje dane strukturalne jako „Structured Data for Adaptation”, czyli sygnał pomagający modelowi generatywnemu lepiej dopasować się do kontekstu. Encje + atrybuty + relacje precyzyjnie oznaczone w Schema działają jak techniczna instrukcja interpretacji nieustrukturyzowanych akapitów. Mówiąc prościej: Schema.org to język, w którym porządkujesz modelowi Google, kto jest kim, co jest czym i jakie relacje mają znaczenie.
Czego nie robić: nie przeładowywać schema spamem (wciąż jest spam i wciąż blokowane). Implementować precyzyjnie.
Wniosek 4: Struktura nagłówków decyduje o granicach pasażu
Google mówi: nie tnij treści ręcznie pod AI. Patenty doprecyzowują: system i tak segmentuje dokument, tylko robi to na podstawie struktury, nagłówków, list i spójności fragmentów. Chodzi o to, żeby dokument był łatwy do zrozumienia, segmentowania i cytowania przez system.
Warstwę patentową spinają tu US9959315B1 z mechanizmami Heading Vector, Similarity Score i modyfikacją Answer Score, a także US20170011116A1 z sygnałami Passage Coherence i Completeness oraz US8538989B1 z wagami fragmentów opartymi na strukturze DOM i user engagement.
Operacyjnie oznacza to prostą rzecz: hierarchia H1 -> H2 -> H3 jest wektorem kontekstu dla każdego pasażu, a jeden temat na sekcję pomaga systemowi wyznaczyć granice odpowiedzi i dopasować fragment do zapytania. Nie chodzi więc o cięcie contentu na bite-sized chunks pod AI. Chodzi o czytelną strukturę - to zupełnie inna praca redakcyjna.
Wniosek 5: Widoczność w AI Overview jest binarna
Google mówi: twórz pomocne i wiarygodne treści. Patenty doprecyzowują: pomocność przechodzi przez progi jakości, pewności i accuracy_score. Odpowiedź albo przekracza próg i pojawia się w AI Overview, albo nie - to konkretne wartości liczbowe i decyzje systemu, nie subiektywne „dobre wrażenie”.
US20230342411A1 claim 2 mówi wprost: jeśli accuracy_score > threshold, system wyświetla odpowiedź; jeśli nie, nie wyświetla jej. US20240428015A1 dodaje do tego Selective Prediction, Self-evaluation Score i Abstention, czyli możliwość odmowy odpowiedzi nawet wtedy, gdy istnieją kandydujące źródła.
Operacyjnie treść jest oceniana w kilku osiach progowych jednocześnie: confidence_level, quality_level, accuracy_score. Nie kalibruj więc treści pod AI w abstrakcyjny sposób. Kalibruj ją pod konkretne kryteria patentowe: factual_grounding_score, evidence_base_quality i information_verifiability.
Pięć powyższych wniosków nie jest nową dyscypliną. To klasyczne SEO z doczytanymi instrukcjami obsługi - opisane w publicznych dokumentach z datami i numerami claimów.
Zamknięcie. Przedstawiony przez Google dokument jest klinicznie poprawny, ale operacyjnie niekompletny
Google opublikował dokument klinicznie poprawny i operacyjnie niekompletny. To zrozumiały wybór: jego funkcją jest komunikat dla rynku, nie podręcznik inżynieryjny. Mówi, czego nie trzeba robić i ma rację. Nie mówi natomiast, co system faktycznie robi z Twoją treścią po tym, jak ją znajdzie.
AEO i GEO jako osobne dyscypliny są w dużej mierze marketingowym wynalazkiem - sprzedażą nowej etykiety na tę samą usługę. Ale „rób dobre SEO” bez znajomości mechanizmów to rada, która działa tylko wtedy, gdy wiesz, co dokładnie mierzą progi jakości, pewności i accuracy_score.
Patenty te mechanizmy nazywają. Od US6941293 (2005) do US20260080866A1 (2026). Dwadzieścia lat. Wszystkie publiczne. Wszystkie z claimami.
AI Search nie jest nową planetą. To kolejne piętro bardzo starego budynku - z windą, która zatrzymuje się tylko na piętrach, które zna już klasyczny ranking.