← Powrót do bloga

Patent US8886662B1: Analiza wspólnych sufiksów

Rafał Borowiec

• 19 czerwca 2026 • 8 min czytania

Abstrakcyjna sieć modularnych komponentów z centralnym hubem łączącym się z mniejszymi modułami eleganckimi liniami.

Praktyczny przewodnik dla specjalistów SEO - jak Google buduje podpowiedzi long-tail i co z tym zrobić

„Generating word completions based on shared suffix analysis” · Google LLC · priorytet 2011-07-11 · przyznany 2014-11-11 Wynalazcy: Lev Finkelstein, Eddo Kim, Ari Shotland

Przejrzysta, wielowarstwowa struktura architektoniczna prezentująca uporządkowane sekcje wiedzy i narzędzi.

Co znajdziesz w środku

TL;DR - 60 sekund i wiesz, czy to dla Ciebie
Zanim wdrożysz: poziom pewności (czytaj uważnie)
Co patent robi naprawdę - mechanizm w 7 krokach
Trzy nieoczywiste wnioski (których nie ma w patencie)
Kto zyskuje, kto traci
Plan działania - od najtańszego do najbardziej zaawansowanego
Sygnały rankingowe i jak je realnie zmierzyć
Gotowe artefakty do skopiowania (JSON-LD, GA4, prompt audytowy)
Pytania audytowe - odpal na koncie klienta
Kiedy odpuścić - sygnały STOP

Odkrywanie ukrytej wartości na samym końcu długiego łańcucha danych.

1. TL;DR - 60 sekund

Co opisuje patent: silnik podpowiedzi (autocomplete) Google, który dobiera uzupełnienia zapytań nie po prefiksie, lecz po wspólnym sufiksie - czyli po końcówce frazy. Kandydatów waży popularnością z logów (completion_score).

Co zmienia dla Ciebie: nie ranking treści wprost, lecz to, jakie frazy long-tail użytkownicy w ogóle formułują. To przesuwa rozkład impresji i CTR w stronę stron pokrywających popularne końcówki zapytań.

Kto zyskuje: e-commerce z rozbudowanym long-tailem produktowym i serwisy FAQ/poradnikowe pokrywające częste sufiksy.

Kto traci: strony żyjące z unikalnych, rzadkich fraz, których nie ma w logach popularności.

Jedna akcja na dziś: wyciągnij z logów wyszukiwarki wewnętrznej top sufiksy (2-4 termy), zmapuj top 20% do istniejących URL-i i znajdź luki. To najtańszy ruch o najwyższym zwrocie.

Solidna podstawa mechanizmu kontrastująca z niepewną platformą wdrożenia.

2. Zanim wdrożysz: poziom pewności

Uczciwie, zanim wydasz budżet. W tym patencie rozdzielam dwie rzeczy, bo mają różną wagę dowodową:

Mechanizm = HIGH. To, jak działa algorytm, jest wprost w zastrzeżeniach. Segmentacja claimów OK, pokrycie evidence 95/100, 6 zastrzeżeń niezależnych + 17 zależnych. Tu nie zgaduję - to czytam.
Wdrożenie = LOW. Czy Google realnie tego używa w produkcie - tego nie wiemy. Reconciler zwrócił rozbieżność: warstwa LLM oceniła wdrożenie na HIGH, warstwa deterministyczna na LOW (deployment evidence 2/5, brak publicznego potwierdzenia). W takim konflikcie trzymamy się deterministyki: LOW.
Nowość = INCREMENTAL (36/100). To ewolucja autocomplete sprzed ery LLM (priorytet 2011), nie przełom. Najbliższy prior art: US7260568B2, US7487145B1, US7836044.

Wniosek operacyjny: traktuj to jako strategię pokrycia long-tail opartą na mechanizmie, a NIE jako potwierdzony czynnik rankingowy. Dobra wiadomość: wszystkie rekomendacje poniżej to solidne SEO niezależnie od tego, czy Google wdrożył dokładnie ten algorytm. Nie ryzykujesz budżetu na hipotezę - robisz rzeczy, które bronią się same.

Wiele pozornie różnych ścieżek, które ostatecznie zbiegają się w jednym, wspólnym celu.

3. Co patent robi naprawdę - mechanizm w 7 krokach

Na wejściu: partial query (to, co user wpisuje), zbiór unikatowych zapytań z logów oraz ich popularność. Na wyjściu: ranking podpowiedzi z przypisanym completion_score. Po drodze:

Rozbicie na prefix i suffix - tokenizacja, z obsługą niekompletnego ostatniego termu (np. user wpisał „naj”).
Pierwszy zbiór kandydatów - zapytania z logów, których sufiks ma co najmniej 3 wspólne termy, a prefiks NIE zawiera prefiksu partial query jako podciąg.
Fallback - jeśli pusto, obniż próg do 2 wspólnych termów w sufiksie.
Suffix similarity score - miara zgodności końcówek, z uwzględnieniem kolejności termów i dopasowań niekompletnego tokenu.
Selekcja i grupowanie po unikatowych sufiksach (de-dup).
Completion score - agregacja: popularność źródłowych zapytań ważona podobieństwem sufiksu, plus normalizacja → ranking.
Obsługa niekompletnego tokenu + telemetria do dalszego strojenia progów.

Najważniejszy, kontrintuicyjny szczegół

System odrzuca kandydatów, których prefiks zawiera prefiks zapytania użytkownika. To odwrotność klasycznego autocomplete. Efekt: zamiast prostego „dokończ początek”, Google proaktywnie sugeruje inaczej rozpoczęte, ale podobnie zakończone frazy - czyli kieruje usera w stronę bogatszych wzorców intencji wykrytych w sufiksie. Dlatego strategia „dopchnij początek frazy słowem kluczowym” jest tu nieskuteczna - liczy się końcówka.

Twardy próg 3/2 termów to świadomy wybór Google: precyzja ponad „fuzzy” dopasowanie modeli. W krytycznym dla UX momencie podpowiedzi system woli pewny, popularny sufiks niż kreatywne zgadywanie.

4. Trzy nieoczywiste wnioski

Wniosek 1 - Google premiuje sufiks, nie prefiks

Skoro kandydaci z tym samym początkiem są aktywnie odrzucani, optymalizacja pod „początek frazy + keyword” nie łapie się w ten mechanizm. Targetuj całe, częste końcówki (2-4 termy), np. „…do 2000 zł opinie”, „…na asfalt”, „…u dziecka”. To one są nośnikiem intencji.

Wniosek 2 - popularność z logów jest nie do zastąpienia

Mimo ery LLM rdzeń rankingu to wciąż query popularity. Semantyka kontekstualizuje, ale ostateczną wagę dostaje to, co ludzie faktycznie wpisywali. Konsekwencja: fraza bez popytu w logach = niski exposure, choćby była „semantycznie idealna”. Najpierw dowód popytu, potem produkcja treści.

Wniosek 3 - to gra o dystrybucję zapytań, nie o pozycję #1

Patent zmienia, JAK formułowane są zapytania, więc wpływ widać w rozkładzie impresji/CTR, nie w skoku jednej pozycji. Mierz grupami sufiksów, nie pojedynczym keywordem - inaczej przegapisz efekt.

Strumień danych przepływający przez system selektywnych kolektorów, przechwytujących część elementów.

5. Kto zyskuje, kto traci

Zyskują

E-commerce z osobnymi stronami pod długie, transakcyjne frazy (rozbudowany long-tail produktowy).
Agregatory, FAQ, poradniki i przepisy korzystające z częstych, powtarzalnych sufiksów.
Lokalni gracze z wariantami „usługa + dzielnica” oraz frazami „near me” (niekompletne tokeny).

Tracą

Serwisy oparte na unikalnych, niepopularnych frazach - mały query popularity = niższy exposure.
Strony o słabej reputacji / niskiej obecności w logach, które nie pojawiają się jako kandydaci.
Treść top-of-funnel produkowana masowo bez sprawdzenia popytu na konkretne końcówki.

Skala wpływu: INCREMENTAL - pojedyncze przesunięcie jest małe, ale kumuluje się w czasie. Powierzchnie najbardziej dotknięte: Google Search (organic, HIGH), AI Overviews (MEDIUM, przez wariant zapytania wejściowego), YouTube Search (MEDIUM).

Elegancka, segmentowana ścieżka prowadząca do jasno określonego celu, symbolizująca plan działania.

6. Plan działania

Kolejność od najtańszego i najszybszego ruchu do najbardziej zaawansowanego. Każdy krok ma kryterium weryfikacji - odhaczasz audytowo. Szacunki efektu są zakresowe, nie gwarancją.

Wyciągnij sufiksy z logów. Z wyszukiwarki wewnętrznej i logów serwera zbierz unikatowe zapytania, zgrupuj po sufiksach (2-4 termy), policz popularność. Sprawdź: CSV z top 500 sufiksów + liczność, ≥95% rekordów ma niepuste tokeny.
Zmapuj sufiksy do stron. Top 20% sufiksów (wg popularności) sparuj z istniejącymi URL-ami i zaznacz luki. Sprawdź: ≥80% top sufiksów ma przypisany URL albo flagę „brak”.
Dostrój title / H1 / pierwszy akapit na stronach priorytetowych tak, by naturalnie zawierały popularne końcówki (bez łamania E-E-A-T). Sprawdź: tytuł i H1 zawierają sufiks w pierwszych 100 znakach dla próbki 50 URL (≥80%).
Zbuduj content huby wokół klastrów sufiksów i połącz warianty internal linkingiem. Sprawdź: hub + linki do powiązanych URL dla ≥80% top 50 sufiksów.
Twórz dedykowane long-tail landing pages pod popularne sufiksy - ale dopiero po potwierdzeniu popytu w logach. Sprawdź: lista nowych landingów + udokumentowany proces produkcji.
Włącz anonimizowane logowanie niekompletnych tokenów we front-endzie (RODO-friendly). Sprawdź: GA4 event partial_input_capture z rozkładem prefiksów.
(Zaawansowane) Odtwórz suffix_similarity i completion_score na własnych logach. Sprawdź: zgodność top-5 z offline recreation ≥75%.
Postaw dashboard completion_score z alertem przy >20% przesunięcia w top-10 sufiksów. Sprawdź: dzienny rozkład + test alertu na 30-dniowym oknie.
Mierz efekt grupami sufiksów w GSC (impresje + CTR), nie pojedynczym keywordem. Sprawdź: raport miesięczny z deltą impresji/avg position.

Najtańszy ruch o najwyższym zwrocie: kroki 1 + 2. Zacznij od nich - mapowanie luk sufiksowych daje najszybszą listę okazji do taniej produkcji long-tail.

Prześwietlanie powierzchni danych w celu odkrycia ukrytych mechanizmów rankingowych.

7. Sygnały rankingowe i jak je realnie zmierzyć

Trzy sygnały Tier 1 sterują podpowiedziami. Żaden nie jest widoczny wprost w Ahrefs/SEMrush - potrzebujesz danych log-level. Proxy poniżej.

completion_score (Tier 1)

łączna ocena sufiksu: similarity × popularność źródłowych zapytań; steruje pozycją podpowiedzi. Proxy: GSC - delta impresji/CTR dla zapytań sugerowanych vs poprzedni okres + wewnętrzne logi (unique queries) do odtworzenia.

query_popularity_weight (Tier 1)

częstotliwość kandydujących zapytań w logach; waga w completion_score. Proxy: GSC → Queries (impressions) + Ahrefs Organic Keywords (volume delta) + log-level frequency per sekwencja termów.

suffix_similarity_score (Tier 1)

zgodność końcówki kandydata z sufiksem partial query (kolejność termów, niekompletny token). Proxy: tokenizacja logów (Screaming Frog custom extraction + logi serwera), odtworzenie metryki; porównanie z GA4 query_submit.

incomplete_token_match_rate (Tier 2)

udział kandydatów dopasowanych przez prefiks niekompletnego ostatniego tokenu. Proxy: GA4 custom event partial_input_submit + log-level frakcja podpowiedzi dopasowanych prefiksem tokenu.

time_decay_of_popularity (Tier 2)

świeżość popularności (trendy) przy liczeniu completion_score. Proxy: GSC z segmentacją po dacie + wewnętrzny time-series częstotliwości; Ahrefs Trending Keywords.

Zestaw identycznych, uporządkowanych szablonów, gotowych do powielenia i wypełnienia.

8. Gotowe artefakty do skopiowania

Podstaw własne wartości w miejsce {URL}, {TITLE}, {AUTOR}.

JSON-LD (SearchAction) - wklej w `<head>`

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "WebSite",
  "url": "{URL}",
  "name": "{TITLE}",
  "publisher": {
    "@type": "Organization",
    "name": "{AUTOR}"
  },
  "potentialAction": {
    "@type": "SearchAction",
    "target": "{URL}/search?q={search_term_string}",
    "query-input": "required name=search_term_string"
  }
}
</script>

Zdarzenia GA4 / GTM

suggestion_shown

wyświetlenie listy podpowiedzi. Parametry: session_id, page_url, partial_query, suggestion_list_ids.

suggestion_clicked

kliknięcie podpowiedzi. Parametry: suggestion_id, clicked_text, position, page_url.

partial_query_captured

anonimowy zapis częściowego tokenu do analizy sufiksów. Parametry: anon_user_id, partial_query, timestamp, device_type.

suffix_cluster_update

aktualizacja klastrów w ETL. Parametry: cluster_id, top_suffix_terms, total_query_count.

Prompt audytowy (wklej do Claude/GPT, podstaw `{URL}`)

Oceń stronę {URL} pod kątem patentu US8886662B1
(shared suffix analysis) i przygotuj raport optymalizacji:

1. Czy serwer/FE rejestruje unikatowe query i partial queries
   (niekompletny ostatni term)?
2. Top 100 sufiksów (2-4 termy) z logów za 90 dni?
3. Ile z nich ma dedykowane strony/FAQ i jaki mają
   impressions/CTR?
4. Czy title/H1/pierwszy akapit odpowiadają na wykryte sufiksy?
5. Czy telemetria zawiera query_popularity i jak jest ważona?
6. Jakie progi (>=3 vs >=2 termy) i czy są optymalne?
7. Zabezpieczenia przed manipulacją (syntetyczne logi, boty)?
8. Coverage sufiksów w pipeline + 5 zmian priorytetowych na 6 tyg.

Checklista (np. do Obsidian / Asana)

[ ] Ekstrakcja top N sufiksów (2-4 termy) z logów za 90 dni
[ ] Oznaczenie niekompletnych tokenów w telemetrii front-end
[ ] Mapowanie sufiks → strona; przypisanie ownerów treści do luk
[ ] Aktualizacja title/H1 dla top 20 sufiksów
[ ] Uruchomienie A/B testu podpowiedzi (suffix-weighted vs control)
[ ] Wdrożenie eventów GA4 (suggestion_shown / _clicked / partial_query_captured)
[ ] Tygodniowy monitoring anomalii velocity sufiksów
[ ] Publikacja 10 stron FAQ pod fallback 2-term sufiksy
[ ] Rewizja progów similarity (>=3 vs >=2) na podstawie wyników A/B

Minimalistyczna struktura architektoniczna z wyraźnymi lukami po brakujących blokach.

9. Pytania audytowe - odpal na koncie klienta

Jeśli na któreś odpowiesz „nie”, masz lukę do zamknięcia przed jakąkolwiek produkcją treści.

Czy logi rejestrują pełne i częściowe (incomplete token) zapytania? Bez tego nie odtworzysz candidate setów.
Czy masz metrykę query_popularity dla unikatowych zapytań i jak często ją agregujesz? Bez wiarygodnej popularności = błędne rankingi.
Czy istnieje mapa sufiksów (2-4 termy) → strona? Bez niej nie wykorzystasz potencjału autosugestii w ruchu organicznym.
Czy title/H1/pierwszy akapit stron priorytetowych zawierają naturalne sufiksy z logów?
Czy masz wdrożony SearchAction / schema.org dla wyszukiwarki wewnętrznej?