Skrevet av: GratisGuide.net
I denne artikkelen skal vi se nærmere på hvordan du kan styre søkemotorenes indekserings-roboter slik at de bare indekserer de delene av nettstedet ditt som du vil at de skal indeksere.
En av de kanskje mest vriene oppgavene til en webmaster er å få besøkende til det nettstedet hun har laget. Det finnes flere måter å ordne det på. Noen av de er:
- Gå med i et lenkebytteprogram.
- Kjøpe reklameplass.
- Tipse om nettstedet til portaler og kataloger.
- Registrere URL-er i søkemotorer.
Her skal vi konsentrere oss om det siste punktet, det å registrere et nettsted i en søkemotor. Eller rettere sagt: forberede en registrering i en søkemotor.
Det finnes mange nettsteder der du kan skrive inn et ord, en setning eller et navn og la nettstedet presentere en liste med hjemmesider som den mener passer det du har søkt på.
For å kunne gjøre det bruker søke-nettstedet en bot (ofte kalt robot, spider og annet, vi kaller det en robot heretter) for å samle inn hjemmesider som den kan analysere, for så å bruke dette til å gi listen med hjemmesider når du gjør et søk.
De fleste søkemotorer lar deg registrere din URL, adressen til ditt nettsted. Roboten vil da besøke denne URL-en, hente ned hjemmesiden og så gå videre til sidene det finnes lenker til. Roboten indekserer hjemmesidene dine ved å analysere teksten på siden.
Problemet med slike roboter er at de ofte indekserer sider du ikke vil de skal indeksere.
For å unngå at en robot henter ned sider du ikke vil den skal indeksere, har du tre muligheter:
1. Stenge hjemmesiden for en robot
Du kan gjøre dette ved å servere roboten en feilside med feilkode 404. For å gjøre det må du ha et skript som sjekker hvem som ber om en side, analysere user agent (nettleser-) informasjonen denne gir og så bestemme om denne får siden eller ikke. En tungvint løsning.
2. Benytte META-merker for å stenge ute alle roboter
Med et robots META-merke kan du la roboter få eller ikke få tilgang til den siden META-merket er på. Det er ikke en fullgod løsning fordi ikke alle roboter tar hensyn til robots META-merket.
3. Benytte robots.txt for å stenge ute en eller flere roboter
Har du ditt egen domenenavn der du kan legge filer på toppnivået (for eksempel http://www.gratisguide.net/) kan du også benytte en robots.txt-fil for å gi eller nekte adgang til underliggende kataloger eller hele nettstedet. Ikke en fullgod løsning, fordi ikke alle roboter tar hensyn til robots.txt-filen, og ikke alle har eget domenenavn slik at de kan legge filen på toppnivået.
Her skal vi konsentrere oss om punkt 2 og 3.
Et META-merke må ligge alltid mellom <HEAD></HEAD>-merkene i HTML-koden på en hjemmeside da de er en del av oppsettet for en hjemmeside, en såkalt header. En header kan fortelle nettleseren om tittelen på dokumentet den får, hva slags tegnsett og språk siden benytter, og også om nettstedet kan indekseres av en robot. Og mye mer.
For å legge til et robots META-merke må du først bestemme deg for hva en robot kan og ikke kan gjøre med siden:
- Kan roboten indeksere siden?
- Kan roboten følge lenker på siden videre?
Et robots META-merke er bygd opp slik:
<META NAME="ROBOTS" CONTENT="DIREKTIV [, DIREKTIV]">
Direktivene du normalt kan gi er følgende:
INDEX - Siden kan indekseres.
NOINDEX - Siden kan ikke indekseres.
FOLLOW - Lenker på siden kan følges videre.
NOFOLLOW - Lenker på siden kan ikke følges videre.
Noen eksempler på META-merker:
<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
Roboten kan ikke indeksere siden, men kan følge lenker videre.
<META NAME="ROBOTS" CONTENT="NOINDEX">
Roboten kan ikke indeksere siden.
Du kan lage META-merker ganske enkelt ved å bruke vår META-generator. Gå til Kodeservice.
Dersom du har ditt eget domenenavn kan du benytte robots.txt for å gi eller nekte adgang til roboter. En robot vil alltid se etter robots.txt-filen på toppnivået:
http://www.domene.com/robots.txt
http://domene.com/robots.txt
Følgende plassering av robots.txt er poengløst, siden robotene ikke vil se etter filen der:
http://www.domene.com/hemmelig/robots.txt
http://domene.com/~bruker/robots.txt
ftp://ftp.domene.com/robots.txt
I robots.txt-filen, som er en helt vanlig tekstfil du kan lage i en tekstbehandler som Notepad, beskriver du hvilke kataloger under domenet som robotene ikke kan besøke.
Du kan bruke følgende to direktiver i robots.txt:
User-agent: Navn
Dette er navnet på roboten. Du kan bruke * som navn, som da betyr alle roboter.
Disallow: [ Katalog [ , katalog ] ]
Her setter du hvilke kataloger som en robot ikke kan besøke.
Dersom du ikke vil at noen roboter skal besøke katalogen hemmelig, blir robots.txt-filen din som følger:
User-agent: *
Disallow: /hemmelig/
Ingen roboter vil da besøke mappen hemmelig, som i en URL vil være http://www.domene.com/hemmelig/. Merk deg at hvis den etterfølgende foroverstreken ikke tas med, vil alt som begynner på hemmelig gjelde: hemmelig.htm, hemmelighet.php, hemmelig/index.htm, hemmelig/greit/index.htm.
Dersom du ikke vil at roboten SpiderX skal besøke nettstedet ditt, og at alle andre bare ikke skal besøke katalogen hemmelig:
User-agent: SpiderX
Disallow: /
User-agent: *
Disallow: /hemmelig/
Dersom du bytter om de to over, slik at det blir:
User-agent: *
Disallow: /hemmelig/
User-agent: SpiderX
Disallow: /
vil SpiderX kunne besøke alle kataloger unntatt hemmelig fordi du har brukt * (alle) først; SpiderX inngår i Ğalleğ og SpiderX vil derfor ikke ta hensyn til sin innstilling som sier at den ikke kan besøke noen kataloger.
Dersom du vil at SpiderX skal kunne besøke nettstedet ditt, men at alle andre roboter ikke skal det blir robots.txt som følger:
User-agent: SpiderX
Disallow:
User-agent: *
Disallow: /
Legg merke til at Disallow er tom for SpiderX, altså ingen begrensninger. For alle andre (*) er det / og det betyr alt (i en URL vil / være http://www.domene.com/).
Når du lagrer filen din på nettjeneren, må du legge den i øverste katalog for nettilgang. På Unix kan det være /home/user/htdocs/robots.txt eller /usr/a/b/public_html/robots.txt
Det er samme katalog der du har din hovedside, der din index.html-fil for URL-en http://www.domene.com/index.html ligger.
Les instruksjonene fra søkemotorene du vil registrere deg i for å være sikker på at de støtter META-taggen robots og/eller robots.txt. Der vil du også finne navnet på søkemotorene de bruker.
Ønsker du å gjengi denne artikkelen eller noe fra den må du gjerne gjøre det, men ikke glem kildereferanse. For å lenke til denne artikkelen kan du bruke URL-en http://www.gratisguide.net/artikler/sokemotorer/hvordan-samarbeide-med-roboter.html.
Tilbake til Artikler / Søkemotorer
GratisGuide.net
» Forsiden
» Om oss
» Nyhetsbrev
» Lage lenker til oss
» Opphavsrett
Nyhetsklipp
» Hovedside
» RSS-feeds
Artikler
» Hovedside
» Apache webserver
» Domenenavn
» Grafikk og clipart
» HTML og CSS
» Hjemmeside på 1-2-3
» Lage en basis-side
» Javascript
» MySQL
» PHP
» Søkemotorer
» WAP og WML
» Webdesign
Ressurs-databasen
» Hovedside
» Dmoz / ODP
» World/Norsk/
» Regional/.../Norway/
» Domeneavn/e-post
» Gjestebøker
» Grafikk
» Innhold/syndikert
» Juridisk/nettikette
» Lenke-/bannerbytte
» Programmeringsspråk
» HTML
» Javascript
» MySQL og SQL
» PHP
» WML-script
» Reklame/annonsering
» Søkemotorer/kataloger
» Statistikk/tellere
» Topplister
» Vedlikehold
» WAP og WML
» Webdesign-maler
» Webhotell
» Webmaster-forum
» Annet
Bokdatabasen
» Hovedside
» Databaser
» Handel og markedsføring
» Innholdsredigering
» Juridisk
» Programmering
» Programvare
» Websideutvikling
» Generelt
Kodeservice
» Hovedside
» Kodegeneratorer
» Dato
» Fylkesliste
» Meta-merke
» Rammesett
» Søkebokser
» Sprett-opp-vindu
» Stilark
» WML
Innholdstjenester
» Hovedside
» Diskusjonsforum
» IP-adresse
» Nyhetsoversikt
» Om dagen i dag