Robots.txt dosyası kullanarak sitenizdeki hangi dosyaların tarayıcıların erişimine açık olacağını belirleyebilirsiniz. Robots.txt dosyası, sitenizin kök dizininde bulunur. Dolayısıyla robots.txt dosyası, www.example.com
sitesinde www.example.com/robots.txt
adresindedir. Robots.txt, Robot Hariç Tutma Standardı'na uygun bir düz metin dosyasıdır. Robots.txt dosyası, bir veya daha fazla kuraldan oluşur. Her kural belirli bir tarayıcının söz konusu web sitesindeki belirli bir dosya yoluna erişimini engeller veya erişimine izin verir. Robots.txt dosyanızda aksini belirtmediğiniz sürece, tüm dosyaların taranmasına izin verilir.
İki kural içeren basit bir robots.txt dosyasını aşağıda görebilirsiniz:
User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: http://www.example.com/sitemap.xml
Bu örnekteki robots.txt dosyasında şunlar belirtilmiştir:
http://example.com/nogooglebot/
ile başlayan hiçbir URL'yi taramasına izin verilmez.http://www.example.com/sitemap.xml
adresinde bulunmaktadır.Daha fazla örnek için söz dizimi bölümüne bakın.
Robots.txt dosyası oluşturup dosyanın genel olarak erişilebilir ve faydalı olmasını sağlamak için uygulayacağınız dört adım vardır:
Bir robots.txt dosyası oluşturmak için neredeyse tüm metin düzenleyicileri kullanabilirsiniz. Örneğin, Notepad, TextEdit, vi ve emacs, geçerli robots.txt dosyaları oluşturabilir. Kelime işlemci kullanmayın (kelime işlemciler, dosyaları genellikle özel bir biçimde kaydeder ve tarayıcılar için sorunlara neden olabilecek kıvrık tırnak gibi beklenmedik karakterler ekleyebilir). Dosyayı kaydet iletişim kutusunda sorulması halinde dosyayı UTF-8 kodlamasıyla kaydettiğinizden emin olun.
Biçim ve konum kuralları:
https://www.example.com/
altındaki tüm URL'lerde taramayı kontrol etmek için robots.txt dosyası, https://www.example.com/robots.txt
konumuna yerleştirilmelidir. Bir alt dizine (örneğin, https://example.com/pages/robots.txt
) yerleştirilemez. Web sitenizin kök dizinine nasıl erişeceğinizden emin değilseniz veya bunun için izin almanız gerekiyorsa web barındırma hizmeti sağlayıcınıza başvurun. Web sitenizin kök dizinine erişemiyorsanız meta etiketler gibi alternatif bir engelleme yöntemini kullanın.https://website.example.com/robots.txt
) veya standart olmayan bağlantı noktaları (örneğin, http://example.com:8181/robots.txt
) için geçerli olabilir.Kurallar, tarayıcıların sitenizin hangi bölümlerini tarayabileceğini belirten talimatlardır. Robots.txt dosyanıza kural eklerken aşağıdaki esasları dikkate alın:
User-agent
satırıyla başlar.disallow
kuralıyla engellenmeyen bir sayfa veya dizini tarayabileceği, varsayılan olarak kabul edilir.disallow: /file.asp
, https://www.example.com/file.asp
için geçerlidir, ancak https://www.example.com/FILE.asp
için geçerli değildir.#
karakteri, bir yorumun başlangıcını belirler.Google'ın tarayıcıları, robots.txt dosyalarında aşağıdaki yönergeleri destekler:
user-agent:
[Zorunlu, grup başına bir veya daha fazla] Yönerge, kuralın geçerli olduğu arama motoru tarayıcısı olarak bilinen otomatik istemcinin adını belirtir. Bu, tüm kural gruplarının ilk satırıdır. Google kullanıcı aracısı adları, Google kullanıcı aracısı listesinde yer alır. Yıldız işareti (*
), çeşitli AdsBot tarayıcıları dışındaki tüm tarayıcılarla eşleşir. Eşleşmeyen AdsBot tarayıcılarının adlarının açıkça belirtilmesi gerekir. Örneğin:
# Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all but AdsBot crawlers User-agent: * Disallow: /
disallow:
[Kural başına en az bir disallow
veya allow
girişi] Kullanıcı aracısının taramasını istemediğiniz, kök alana göreli olarak belirtilen dizin veya sayfa. Kural, bir sayfaya işaret ediyorsa tam sayfa adını tarayıcıda gösterildiği şekliyle belirtmelidir. /
karakteriyle başlamalı ve bir dizine işaret ediyorsa /
işaretiyle bitmelidir.allow:
[Kural başına en az bir disallow
veya allow
girişi] Az önce bahsedilen kullanıcı aracısı tarafından taranabilecek bir dizin veya sayfa; kök alanla göreli olarak belirtilir. Bu parametre, izin verilmeyen bir dizindeki bir alt dizinin veya sayfanın taranmasına izin vermek üzere disallow
yönergesini geçersiz kılmak için kullanılır. Tek bir sayfa için tam sayfa adını tarayıcıda gösterildiği şekliyle belirtin. Dizin olması durumunda kuralı, /
işaretiyle bitirin.sitemap:
[İsteğe bağlı, dosya başına sıfır veya daha fazla] Bu web sitesine ait site haritasının konumudur. Site haritası URL'si, tam nitelikli URL olmalıdır; Google, http/https/www.non-www alternatiflerini varsaymaz veya kontrol etmez. Site haritaları, Google'a tarayabileceği veya tarayamayacağı içeriğe karşılık hangi içeriği taraması gerektiğini bildirmek için iyi bir yoldur. Site haritaları hakkında daha fazla bilgi edinin. Örnek:
Sitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xml
sitemap
dışındaki tüm yönergeler yol ön eki, son eki veya dizenin tamamı için *
joker karakterini destekler.
Bu yönergelerin hiçbiriyle eşleşmeyen satırlar yok sayılır.
Her bir yönergenin kapsamlı açıklamasını Google'ın robots.txt spesifikasyonunu yorumlayışı konulu sayfamızda okuyabilirsiniz.
Robots.txt dosyanızı bilgisayarınıza kaydettikten sonra, dosyayı arama motoru tarayıcılarının erişimine açabilirsiniz. Robots.txt dosyasını sitenize nasıl yükleyeceğiniz, site ve sunucu mimarinize bağlı olduğundan bunu yapmanıza yardımcı olabilecek tek bir araçtan söz edemeyiz. Barındırma şirketinizle iletişime geçebilir veya barındırma şirketinizin dokümanlarında arama yapabilirsiniz (örneğin, "infomaniak dosya yükleme" araması yapabilirsiniz).
Robots.txt dosyanızı yükledikten sonra, herkese açık ve Google tarafından ayrıştırılabilir olup olmadığını test edin.