*   >> Lezen Onderwijs artikelen >> tech >> web development

Het belang van de robots.txt File

Despite het belang van het robots.txt bestand in het krijgen van uw website geïndexeerd door de grote zoekmachines, veel webmasters niet bieden een op hun site. Wat is het robots.txt bestand dat u vragen? Als je niet weet, je bent verre van alleen. Het robots.txt bestand is een eenvoudig tekstbestand (geen HTML) die is geplaatst in uw website root directory om de zoekmachines welke pagina's te indexeren en die naar een zoekmachine skip.When vertellen stuurt zijn webcrawler naar uw site, één van de eerste dingen die de webcrawler zal doen is zoeken in de root directory van het robots.

txt bestand. Een correct geformatteerde robots.txt bestand zal bestaan ​​uit meerdere platen, die elk instructies voor een bepaalde zoekopdracht-bot. Een record zal in het algemeen bestaan ​​uit twee componenten, de eerste is de user-agent geroepen en is waar de naam van de zoek-bot is genoteerd. De tweede lijn staat bestaat uit één of meer "verbieden" lijnen. Deze lijnen vertellen de webcrawler die bestanden of mappen niet mogen worden geïndexeerd (dwz een cgi-bin map) .Als u momenteel een website en niet een robots.txt-bestand niet hebt, kunt u een eenvoudig.

Zoals eerder vermeld, de bestanden zijn platte tekst, dus gewoon openstellen Kladblok en sla het bestand op robots.txt. De meeste webmasters kan een record dat zal gelden voor alle van de crawlers van zoekmachines te gebruiken. Als je eenmaal hebt geopend kladblok voer de volgende: User-agent: * Disallow: De "*" geldt deze regel voor alle bots. In dit voorbeeld, is er niets in de disallow lijn vermeld. Dit vertelt de robot om de index van de hele site. U kunt ook een map pad hier invoeren, zoals "/private" als er een map die niet mag worden geïndexeerd.

Dit kan erg handig zijn als je nog steeds het testen van een deel van uw website of een deel is nog in construction.Now dat je weet wat er moet gaan in uw robots.txt-bestand, zijn er een aantal gemeenschappelijke fouten die mensen maken bij het maken van deze bestanden. Ga nooit notities of commentaar in het bestand, omdat deze items verwarring kunnen veroorzaken voor de webcrawler. Ook dient het model altijd user-agent op de eerste regel, gevolgd door de disallow (s) zijn. Laat de bestelling niet te keren. Een andere veel voorkomende fout gemaakt gaat met behulp van de verkeerde zaak.

Als de map is niet toegestaan ​​/privé, zorg ervoor dat uw robots.txt bestand geen lijst van de map als /privé. Het lijkt een zeer klein probleem, maar het zal problemen veroorzaken als ve

Page   <<       [1] [2] >>
Copyright © 2008 - 2016 Lezen Onderwijs artikelen,https://onderwijs.nmjjxx.com All rights reserved.