robots.txt nedir?

robots.txt
Özetle
/ robots.txt adlı robotlar, bu web sitesi, talimatlar ilgili vermek dosyası kullanan Web sitesi sahipleri Robots Dışlama Protokolü .

Onu bunu beğendi çalışır: bir robot vists bir Web sitesinin URL’sini istiyor http://www.example.com/welcome.html söylüyorlar. Onun, öyle yaptığı geçmeden önce, http://www.example.com/robots.txt denetler ilkleri ve bulur:

User-agent: * Disallow: /
” User-agent: * “robotlar demek bütün bunlara bir bölümü de geçerlidir. ” Disallow: /“sitesindeki sayfaların söyler herhangi bir ziyaret değil gerektiğini robot.

/ Robots.txt kullanırken iki önemli hususlar vardır:

robotlar sizin / robots.txt yok sayabilirsiniz. güvenlik açıkları için web ve hiç dikkat edecek spam tarafından kullanılan e-posta adresi biçerdöverler tarama Özellikle malware robotlar.
/ robots.txt dosyasını genel kullanıma sunulan bir dosyadır. Kimse ne sunucu robotlar kullanmak istemediğiniz bölümlerini görebilirsiniz.
Bunu kullanmak için / robots.txt bilgi saklamaya çalışmayın.

Ayrıntılar

/ Robots.txt, bir de-facto standart herhangi bir standartlar kuruluşu ait değildir. iki tarihsel açıklamalar vardır:

özgün 1994 belge.
1997 Internet Taslak şartname
Buna ek olarak dış kaynak vardır:

HTML 4.01, Ek B.4.1
Wikipedia – Robots Dışlama Standart
/ Robots.txt standardının gelişmiş aktif değil.

Bu sayfanın kalan tarifleri bazı basit olan genel bir verir ve, sunucu üzerinde robots.txt / nasıl kullanır. Daha fazla bilgi için ayrıca bkz

Nasıl bir / robots.txt dosyası oluşturmak istiyorsun?

Nereye koydum

Kısa cevap: web sunucunuzun üst düzey dizinde.

Artık cevap:

bir robot URL “/ robots.txt” dosyasını arar, bu, URL (her şeyi ilk tek çizgi) doğru yol bileşeni şeritler ve onun yerine “/ robots.txt” koyar.

Örneğin, için ” http://www.example.com/shop/index.html , onu kaldırmak olacak ” / index.html / shop “ve onun yerine” / robots.txt “ile sona erecek “http://www.example.com/robots.txt”.

Yani, sahibi olarak bir web sitesi size çalışma URL sonuçlanan web sunucusu için doğru yere koymak içinde gerekir. Genellikle bu “sitenin ana olduğunu web aynı yerde sizi sizinindex.html “karşılama sayfası. Tam olarak nerede olduğu ve nasıl dosya koymak var, yazılım sunucu bağlıdır web.

“Dosya durumda alt kullanan tüm unutmayın robots.txt “değil,” robots.txt .

İçinde ne koymak

“/ Robots.txt” dosyasını bir veya daha fazla kayıtları ile bir metin dosyasıdır. Genellikle bu gibi bakıyor tek bir kayıt içerir:

User-agent: * Disallow: / cgi-bin / Disallow: / tmp / Disallow: / ~ joe /
Bu örnekte, üç dizinler hariç tutulmuştur.

“: / Cgi-bin / / / tmp Disallow” tek bir satırda size söyleyemem – Eğer dışarıda istediğiniz her URL öneki için ayrı bir “Disallow” satırına gerektiğini unutmayın. birden çok kayıtları ayırmak için kullanılan gibi Ayrıca, bir rekor boş satırlar olabilir.

ve ifade de unutmayın globbing ve düzenli değil çizgiler Disallow desteklenen ya User-agent veya. User-agent alan ‘*’ in “herhangi bir robot anlamı olan özel bir değer. Özellikle, senin gibi satır olamaz “User-agent: * bot” veya Disallow * tmp /: / “” “Disallow: *. gif”.

Ne dışlamak istediğiniz sunucuya bağlıdır. Her şeyi açıkça izin verilmeyen değil adil oyun almak için kabul edilir. İşte birkaç örnek:

tüm sunucu tüm robotlar hariç tutmak için

User-agent: * Disallow: /

Tüm robotlara tam erişim sağlamak için

User-agent: * Disallow:
(Ya da sadece, ya da boş bir “/ robots.txt” dosyası oluşturmak hiç birini kullanmayın)

sunucusunun parçası tüm robotlar hariç tutmak için

User-agent: / cgi-bin / Disallow: / Disallow / tmp: Disallow * / önemsiz /
Tek bir robot dışlamak için

User-agent: BadBot Disallow: /
Tek bir robot izin vermek için

User-agent: Google Disallow: User-agent: * Disallow: /
Biri dışında tüm dosyalar dışlamak için

hayır “İzin Ver” alan olmadığı için bu, şu anda biraz garip. Kolay bir şekilde ayrı bir dizine izin verilmeyen tüm dosyaları koymak için ise, “şeyler”, ve bu dizinin üstünde düzeyinde bir dosya bırakmak ki:

User-agent: * Disallow: / ~ joe / malzeme /
Alternatif olarak açıkça izin verilmeyen tüm sayfalara izin edebilirsiniz:

User-agent: * Disallow: / ~ joe / junk.html Disallow: / ~ joe / foo.html Disallow: / ~ joe / bar.html