Mikä on robots.txt ja miten se vaikuttaa hakukoneisiin?

Robots.txt on pieni tiedosto, joka kertoo hakukoneille mitä sivustosi sisältöä ne saavat indeksoida ja mitä ei. Monelle yrittäjälle tämä tiedosto jää huomiotta, mutta oikein käytettynä se on tehokas työkalu hakukonenäkyvyyden hallintaan ja teknisten ongelmien välttämiseen.

Väärin konfiguroitu robots.txt voi estää kokonaan sivustosi löytymisen Googlesta tai altistaa yksityiset sivut hakukoneille. Toisaalta hyvin suunniteltu robots.txt ohjaa hakukoneiden huomion sivustosi tärkeimpiin osiin ja säästää palvelimen resursseja.

Mitä on robots.txt ja miten se toimii

Robots.txt on yksinkertainen tekstitiedosto, joka sijoitetaan sivustosi juurihakemistoon osoitteeseen www.esimerkki.fi/robots.txt. Se toimii kuin ovimies, joka ohjeistaa hakukonerobotteja siitä, mihin osiin sivustosta ne saavat astua.

Tiedosto perustuu robots exclusion protocol -standardiin, jota kaikki suuret hakukoneet kunnioittavat. On tärkeää ymmärtää, että robots.txt on kohteliaisuusohje, ei turvaratkaisu. Hakukoneet noudattavat sitä vapaaehtoisesti, mutta pahantahtoiset robotit voivat ohittaa sen.

Tyypillinen robots.txt näyttää tältä:

User-agent: *
Disallow: /admin/
Disallow: /wp-content/uploads/
Allow: /wp-content/uploads/*.jpg
Sitemap: https://www.esimerkki.fi/sitemap.xml

Yleisimmät robots.txt-virheet ja niiden seuraukset

Suurin virhe on kirjoittaa robots.txt-tiedostoon ”Disallow: /” koko sivustolle. Tämä estää hakukoneet indeksoimasta mitään sivustosi sisällöstä. Yllättävän moni verkkosivujen rakentaja tekee tämän virheen kehitysvaiheessa ja unohtaa poistaa sen.

Toinen yleinen ongelma on URL-polkujen väärin kirjoittaminen. Robots.txt on erittäin tarkka: ”/Admin/” ja ”/admin/” ovat eri asioita. Pieni kirjoitusvirhe voi avata yksityiset hakemistot hakukoneille tai estää tärkeiden sivujen indeksoinnin.

WordPress-sivustoilla näkee usein robots.txt-tiedostoja, jotka estävät koko wp-content-hakemiston. Tämä on liian kattava, koska se estää myös kuvien ja tyylitiedostojen löytämisen. Parempi ratkaisu on sallia tärkeät tiedostotyypit erikseen.

Kumotaan yksi harhaluulo: robots.txt ei paranna sivuston SEO-arvoja suoraan. Sen tarkoitus on ohjata hakukoneiden resurssit oikeisiin paikkoihin ja estää tarpeettomien sivujen indeksointi.

Mitä robots.txt-tiedostossa kannattaa estää

Älykäs robots.txt estää hakukoneita tuhlaamasta aikaa epäolennaiseen sisältöön. Estä seuraavat elementit:

Hallintasivut ja sisäänkirjautumissivut: /admin/, /login/, /wp-admin/ ja vastaavat. Nämä eivät tuo arvoa hakutuloksissa ja voivat paljastaa sivustosi rakennetta.

Duplikaattisisältöä tuottavat parametrit: Verkkokaupassa tuotesuodattimet ja hakutulossivut luovat usein identtistä sisältöä eri URL-osoitteissa.

Keskeneräiset sivut: /dev/, /staging/, /test/ tai vastaavat kehityshakemistot eivät kuulu hakukoneisiin.

Ylisuuret tiedostot: Videotiedostot ja isot PDF:t voivat kuormittaa sekä palvelintasi että hakukoneiden resursseja tarpeettomasti.

Salli kuitenkin kuvat, CSS-tiedostot ja JavaScript-tiedostot, sillä Google tarvitsee niitä sivujesi oikean renderöinnin vuoksi.

Sitemap-viittauksen merkitys robots.txt:ssä

Lisää aina robots.txt-tiedostoon viittaus sivukarttaasi. Tämä on tehokkain tapa varmistaa, että hakukoneet löytävät kaikki tärkeät sivusi nopeasti.

Sitemap-rivi näyttää tältä:
Sitemap: https://www.sivustosi.fi/sitemap.xml

Voit lisätä useita sivukarttoja, jos sivustollasi on esimerkiksi erillinen kuvasivukartta tai uutissivukartta. Sivukartta tukee robots.txt-tiedostoa hakukoneiden ohjaamisessa oikeisiin sisältöihin.

User-agent-kohtaiset säännöt

Voit antaa erilaisia ohjeita eri hakukoneille käyttämällä User-agent-direktiivejä. Asterisk (*) tarkoittaa kaikkia robotteja, mutta voit myös kohdentaa ohjeita:

User-agent: Googlebot
Disallow: /yksityinen-hakemisto/

User-agent: Bingbot
Disallow: /toinen-hakemisto/

Tämä on hyödyllistä, jos huomaat tiettyjen robottien kuormittavan palvelintasi liikaa tai haluat antaa eri hakukoneille erilaisia käyttöoikeuksia.

Robots.txt:n testaaminen ja seuranta

Google Search Console tarjoaa robots.txt-testerin, joka näyttää onko tiedostosi syntaksiltaan oikein. Käytä tätä työkalua aina tehdessäsi muutoksia.

Seuraa Search Consolesta myös, estääkö robots.txt-tiedostosi vahingossa tärkeiden sivujen indeksoinnin. Crawling-virheet-osiosta näet, jos Googlebot törmää ongelmiin.

Muista, että robots.txt-muutokset vaikuttavat vasta kun hakukoneet seuraavan kerran käyvät sivustollasi. Suurilla sivustoilla muutokset näkyvät nopeammin, pienemmillä saattaa kestää viikkoja.

UKK

Voiko robots.txt estää sivun näkymisen hakutuloksissa kokonaan?
Ei välttämättä. Robots.txt estää sisällön indeksoinnin, mutta jos sivuun on linkkejä muilta sivustoilta, se voi silti näkyä hakutuloksissa pelkän otsikon ja URL:n kera. Täydelliseen estämiseen tarvitset noindex-metatägin.

Mitä tapahtuu jos robots.txt-tiedostoa ei ole ollenkaan?
Hakukoneet tulkitsevat puuttuvan robots.txt-tiedoston niin, että kaikki sivuston sisältö on sallittua indeksoitavaksi. Tämä ei ole välttämättä ongelma pienillä sivustoilla, mutta suuremmilla se voi johtaa resurssien tuhlaamiseen.

Kuinka usein robots.txt-tiedostoa pitää päivittää?
Päivitä robots.txt aina kun sivustosi rakenne muuttuu merkittävästi, lisäät uusia osioita tai huomaat crawling-ongelmia. Perustiedosto toimii usein vuosia ilman muutoksia, mutta aktiivinen seuranta on suositeltavaa.

Oikein konfiguroidtu robots.txt on näkymätön työkalu, joka toimii taustalla tehden sivustostasi hakukoneystävällisemmän. Se ei ole mikään ihmelääke, mutta osana kokonaisuutta se auttaa hakukoneita ymmärtämään sivustoasi paremmin ja keskittämään huomionsa tärkeimpään sisältöön.