Semalt tarjoaa vinkkejä kuinka käsitellä robotteja, hämähäkkejä ja indeksointirobotteja

Hakukoneystävällisten URL-osoitteiden luomisen lisäksi .htaccess-tiedoston avulla verkkovastaavat voivat estää tiettyjä robotteja pääsemästä verkkosivustoilleen. Yksi tapa estää nämä robotit on robots.txt-tiedoston kautta. Semalt- asiakasmenestyspäällikkö Ross Barber toteaa kuitenkin, että hän on nähnyt joidenkin indeksoijien ohittavan tämän pyynnön. Yksi parhaimmista tavoista on käyttää .htaccess-tiedostoa estämään niitä indeksoimasta sisältöäsi.

Mitä nämä robotit ovat?

Ne ovat eräänlainen ohjelmisto, jota hakukoneet käyttävät uuden sisällön poistamiseen Internetistä indeksointia varten.

He suorittavat seuraavat tehtävät:

  • Käy verkkosivuilla, joihin olet linkittänyt
  • Tarkista HTML-koodisi virheiden varalta
  • He tallentavat linkittämäsi Web-sivut ja näkevät, mitkä Web-sivut linkittävät sisältöösi
  • He indeksoivat sisältösi

Jotkut robotit ovat kuitenkin haitallisia ja etsivät sivustostasi sähköpostiosoitteita ja lomakkeita, joita yleensä käytetään lähettämään sinulle ei-toivottuja viestejä tai roskapostia. Toiset etsivät jopa turvakolmuja koodistasi.

Mitä tarvitaan verkkoindeksoijien estämiseen?

Ennen .htaccess-tiedoston käyttöä, sinun on tarkistettava seuraavat asiat:

1. Sivustosi on oltava käynnissä Apache-palvelimella. Nykyään jopa ne web-hosting-yritykset, jotka ovat puoliksi kunnollisia työssään, antavat sinulle pääsyn vaadittuun tiedostoon.

2. Sinulla pitäisi olla pääsy verkkosivustosi raakoihin palvelinlokeihin, jotta voit etsiä, mitä robotteja on käynyt verkkosivuillasi.

Huomaa, että et voi estää kaikkia haitallisia robotteja, ellet estä kaikkia niitä, jopa niitä, joita pidät hyödyllisinä. Uusia robotteja tulee joka päivä, ja vanhempia muutetaan. Tehokkain tapa on suojata koodi ja tehdä robotista vaikeana roskapostin lähettämistä sinulle.

Tunnistetaan robotit

Botit voidaan tunnistaa joko IP-osoitteen perusteella tai niiden "User Agent String" -kohdassa, jonka ne lähettävät HTTP-otsikoihin. Esimerkiksi Google käyttää Googlebotia.

Saatat tarvita tämän luettelon 302 robotista, jos sinulla on jo robotin nimi, jonka haluat pitää pois .htaccess-tiedoston avulla

Toinen tapa on ladata kaikki lokitiedostot palvelimelta ja avata ne tekstieditorilla. Heidän sijainti palvelimella voi muuttua palvelimen kokoonpanosta riippuen. Jos et löydä niitä, etsi apua verkkoisäntältäsi.

Jos tiedät, millä sivulla kävit tai vierailun ajankohtaa, on helpompaa tulla toivotun botin mukana. Voit etsiä lokitiedostosta näitä parametreja.

Kun olet huomannut, mitä robotteja sinun pitää estää; voit sitten sisällyttää ne .htaccess-tiedostoon. Huomaa, että robotin estäminen ei riitä sen pysäyttämiseen. Se voi palata uudella IP-nimellä tai nimellä.

Kuinka estää heidät

Lataa kopio .htaccess-tiedostosta. Tee tarvittaessa varmuuskopioita.

Menetelmä 1: esto IP: llä

Tämä koodinpätkä estää robotin IP-osoitetta 197.0.0.1 käyttämällä

Tilaa kieltää, salli

Kieltää vuodesta 197.0.0.1

Ensimmäinen rivi tarkoittaa, että palvelin estää kaikki määrittämäsi mallit vastaavat pyynnöt ja sallii kaikkien muiden.

Toinen rivi käskee palvelimen antamaan 403: kielletyn sivun

Tapa 2: Käyttäjien edustajien esto

Helpoin tapa on käyttää Apachen uusintamoottoria

RewriteEngine päällä

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Ensimmäinen rivi varmistaa, että uudelleenkirjoitusmoduuli on käytössä. Rivi 2 on ehto, jota sääntö koskee. Rivin 4 "F" käskee palvelimen palauttamaan numeron 403: Kielletty, kun "L" tarkoittaa, että tämä on viimeinen sääntö.

Lataat sitten .htaccess-tiedoston palvelimellesi ja korvaat olemassa olevan. Ajan myötä sinun on päivitettävä robotin IP. Jos teet virheen, lähetä vain varmuuskopio.

mass gmail