SEO

Log file analyse til SEO: Forstå hvordan Google crawler dit site

Google Search Console viser, hvad Google ved om dit site. Log file analyse viser, hvad Google faktisk gør. Der er forskel.

Logfiler er rå serverdata, der registrerer hvert eneste request til dit site. Også dem fra Googlebot. Ved at analysere disse data kan du se præcis, hvilke sider Google crawler, hvor ofte, og om der er problemer, du ikke fanger andre steder.

Hvad er en logfil?

Hver gang en bruger eller en bot besøger en side på dit site, logger webserveren et request. En typisk logfil-entry indeholder:

  • IP-adresse: Hvem der lavede requestet.
  • Tidsstempel: Hvornår requestet skete.
  • URL: Hvilken side der blev requestet.
  • Status-kode: Serverens svar (200, 301, 404, 500 osv.).
  • User-agent: Hvem der lavede requestet (fx Googlebot, Bingbot, eller en browser).
  • Størrelse: Hvor mange bytes serveren returnerede.

Logfiler ligger typisk i Apache Combined Log Format eller Nginx-format. De er store tekstfiler, der kræver værktøjer til at analysere effektivt.

Hvad kan log file analyse afsløre?

Crawl-fordeling

Du kan se, hvilke sektioner af dit site Google bruger mest tid på. Crawler Google dine vigtige produktsider? Eller spilder den tid på filtrerede URL’er, pagineringssider eller parameter-URL’er?

Denne indsigt er direkte relateret til crawl budget-optimering. Bruger Googlebot sit crawl budget på irrelevante sider, bliver dine vigtige sider crawlet sjældnere.

Crawl-frekvens

Hvor ofte besøger Google dine vigtigste sider? Dagligt? Ugentligt? Månedligt? Sider der crawles sjældent, bliver også opdateret langsommere i Googles indeks.

Status-koder i praksis

Logfiler viser, hvilke status-koder Google faktisk modtager. Det er ikke altid, hvad du forventer. Du kan finde:

  • 301/302-redirects, der skaber kæder.
  • 404-fejl på sider, du troede eksisterede.
  • 500-fejl, der kun opstår under høj belastning (når Googlebot crawler aggressivt).
  • Soft 404’ere, der returnerer 200 men viser en fejlside.

Orphan pages

Sider der crawles af Google, men som ikke findes i dit sitemap eller din interne linkstruktur. Disse “forældreløse” sider kan indikere problemer med din informationsarkitektur.

Crawl af ressourcer

Googlebot crawler ikke kun HTML-sider. Den henter også CSS, JavaScript, billeder og andre ressourcer. Logfiler viser, om Google kan tilgå alle de ressourcer, der er nødvendige for at rendere dine sider korrekt.

Sådan laver du en log file analyse

1. Få adgang til logfilerne

Kontakt din hosting-udbyder eller server-administrator. Logfiler skal typisk aktiveres eksplicit og opbevares i en bestemt periode. Bed om minimum 30 dages data for et meningsfuldt datasæt.

For store sites kan logfiler fylde gigabytes per dag. Overvej at sætte logrotation op og kun gemme de relevante felter.

2. Filtrér Googlebot-trafik

Det første skridt er at isolere Googlebot-requests. Filtrér på user-agent der indeholder “Googlebot.” Verificer at IP-adresserne tilhører Google via reverse DNS lookup. Det udelukker falske bots, der udgiver sig for at være Googlebot.

Spoofed Googlebots er et reelt problem. Mange bots bruger “Googlebot” som user-agent for at omgå rate limiting og robots.txt-regler. Verifikation kræver to skridt: (1) reverse DNS lookup på IP-adressen, som skal returnere et .googlebot.com- eller .google.com-domæne, og (2) forward DNS lookup på det returnerede domæne for at bekræfte, at det peger tilbage til den originale IP. Uden denne dobbelte verifikation risikerer du at inkludere trafik fra scrapers og spam-bots i din analyse.

3. Analysér med de rette værktøjer

Du kan ikke læse logfiler manuelt i praksis. Brug et af disse værktøjer:

  • Screaming Frog Log File Analyser: Dedikeret SEO log file-værktøj. God UI, nemt at komme i gang.
  • Splunk: Enterprise-løsning til loganalyse. Kraftfuldt, men dyrt.
  • ELK Stack (Elasticsearch, Logstash, Kibana): Open source-alternativ til Splunk. Kræver teknisk opsætning.
  • Python (Pandas): For dem der foretrækker at scripte deres egne analyser. Fleksibelt, men kræver kodningskompetencer.
  • BigQuery: Google Cloud-løsning til store datasæt. God til sites med enorme mængder trafik.
  • Semrush Log File Analyzer: Cloud-baseret løsning med automatisk Googlebot-identifikation og visualisering. Godt supplement til Semrush-brugere.
  • Botify: Enterprise-platform der kombinerer log file analyse med crawl-data og søgedata i ét interface. Stærk til store sites.

4. Stil de rigtige spørgsmål

Fokuser din analyse på konkrete spørgsmål:

  1. Hvor mange unikke URL’er crawler Google per dag?
  2. Hvilke sektioner af sitet får mest crawl-aktivitet?
  3. Hvilke status-koder returnerer serveren til Googlebot?
  4. Er der URL’er, Google crawler, som ikke burde crawles?
  5. Er der vigtige URL’er, Google slet ikke crawler?
  6. Hvad er den gennemsnitlige crawl-frekvens for top-sider?

AI-bots i dine logfiler

Ud over Googlebot dukker der nu en ny generation af bots op i logfilerne. De vigtigste:

  • GPTBot (OpenAI): Crawler indhold til træning af GPT-modeller. User-agent: GPTBot/1.0.
  • ClaudeBot (Anthropic): Crawler for Anthropics AI-modeller. User-agent: ClaudeBot/1.0.
  • Amazonbot: Bruges til Amazons Alexa og AI-tjenester. User-agent: Amazonbot.

Du finder dem ved at filtrere logfilerne på disse user-agents. Herefter har du tre valg:

  • Tillad: Hvis du ønsker, at dit indhold bruges som kilde i AI-svar (kan give synlighed i AI-drevne søgemaskiner).
  • Bloker: Tilføj dem til robots.txt, hvis du ikke vil have dit indhold brugt til AI-træning.
  • Throttle: Brug rate limiting til at tillade crawling, men begrænse belastningen på din server.

Beslutningen afhænger af din forretningsmodel. Content-sites bør overveje, om AI-crawling kannibaliserer deres trafik. E-commerce sites har typisk mindre risiko.

JavaScript rendering budget

Google allokerer et separat rendering-budget til JavaScript-tunge sites. Det betyder, at selv om Googlebot crawler en side, kan det tage ekstra tid, før JavaScript-indholdet bliver renderet og indekseret.

I logfilerne ser du dette som to separate requests: et initialt HTML-request og et senere request fra Googles Web Rendering Service (WRS). Er afstanden mellem de to stor, har du et rendering-budget-problem. Løsningen er server-side rendering (SSR) eller pre-rendering af kritisk indhold.

Response time og crawl rate

Der er en direkte korrelation mellem din servers svartider og Googlebots crawl rate. Data fra flere studier viser, at servertider over 500ms reducerer crawl rate med ca. 38%.

Tjek TTFB (Time To First Byte) i dine logfiler ved at analysere responstider for Googlebot-requests. Er de konsekvent over 500ms, bør du optimere serverperformance, før du fokuserer på andre crawl-optimeringer.

Real-time log streaming

Klassisk log file analyse er retrospektiv. Du analyserer data fra de seneste dage eller uger. Moderne alternativer giver dig data i realtid:

  • Logstash + Kibana: Open source pipeline der streamer logdata direkte til et dashboard.
  • Fluentd: Letvægtsalternativ til Logstash, populært i cloud-miljøer.

Real-time streaming er særligt nyttigt under site-migreringer, store content-launches eller når du debugger crawl-problemer, der opstår sporadisk.

Typiske fund og handlinger

FundHandling
Google crawler facetterede/filtrerede URL’er massivtBloker via robots.txt eller brug canonical tags
Vigtige sider crawles sjældnere end forventetStyrk intern linking og tilføj til sitemap
Mange 5xx-fejl ved crawlUndersøg serverkapacitet og performance
Google crawler gamle, slettede siderReturnér korrekt 410 Gone status
Crawl af ukendte URL’erIdentificér kilden (gamle sitemaps, eksterne links)

Kombinér med andre datakilder

Log file analyse er mest værdifuld, når du kombinerer den med data fra andre kilder:

  • Google Search Console: Sammenhold crawl-data med indekserings-status for at finde discrepancies.
  • Screaming Frog crawl: Sammenlign hvad du finder ved en teknisk crawl med hvad Googlebot faktisk gør.
  • Sitemap: Identificer sider i dit sitemap, som Google ikke crawler.

Hvornår bør du lave log file analyse?

Log file analyse er relevant for de fleste sites, men det er særligt værdifuldt for:

  • Sites med mere end 10.000 sider.
  • E-commerce sites med mange filtre og varianter.
  • Sites med faldende indeksering eller crawl-problemer.
  • Sites der for nylig har migreret eller ændret URL-struktur.

For mindre sites kan Google Search Console og et standard crawl-værktøj dække de fleste behov. Men ønsker du fuld kontrol over, hvad Google gør på dit site, er logfilerne den ultimative sandhedskilde.

En god linkbuilding-strategi driver nye links og crawl-signaler, men det hjælper kun, hvis Google rent faktisk crawler og indekserer de sider, du vil ranke med. Log file analyse sikrer, at fundamentet er på plads.