Robots.txt dosyası oluşturma

Seo Google Haber 19.Mar.2022 289 görüntülenme 0 yorum

Robots.txt dosyası kullanarak sitenizdeki hangi dosyaların tarayıcıların erişimine açık olacağını belirleyebilirsiniz. Robots.txt dosyası, sitenizin kök dizininde bulunur. Dolayısıyla robots.txt dosyası, www.example.com sitesinde www.example.com/robots.txt adresindedir. Robots.txt, Robot Hariç Tutma Standardı'na uygun bir düz metin dosyasıdır. Robots.txt dosyası, bir veya daha fazla kuraldan oluşur. Her kural belirli bir tarayıcının söz konusu web sitesindeki belirli bir dosya yoluna erişimini engeller veya erişimine izin verir. Robots.txt dosyanızda aksini belirtmediğiniz sürece, tüm dosyaların taranmasına izin verilir.

İki kural içeren basit bir robots.txt dosyasını aşağıda görebilirsiniz:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

Bu örnekteki robots.txt dosyasında şunlar belirtilmiştir:

Googlebot adlı kullanıcı aracısının, http://example.com/nogooglebot/ ile başlayan hiçbir URL'yi taramasına izin verilmez.
Diğer tüm kullanıcı aracılarının sitenin tamamını taramasına izin verilir. Varsayılan davranış, kullanıcı aracılarının sitenin tamamını taramasına izin verilmesi olduğundan bu durum belirtilmese dahi sonuç aynı olacaktır.
Sitenin site haritası dosyası, http://www.example.com/sitemap.xml adresinde bulunmaktadır.

Daha fazla örnek için söz dizimi bölümüne bakın.

Robots.txt dosyası oluşturmak için temel kurallar

Robots.txt dosyası oluşturup dosyanın genel olarak erişilebilir ve faydalı olmasını sağlamak için uygulayacağınız dört adım vardır:

Robots.txt dosyası oluşturma

Bir robots.txt dosyası oluşturmak için neredeyse tüm metin düzenleyicileri kullanabilirsiniz. Örneğin, Notepad, TextEdit, vi ve emacs, geçerli robots.txt dosyaları oluşturabilir. Kelime işlemci kullanmayın (kelime işlemciler, dosyaları genellikle özel bir biçimde kaydeder ve tarayıcılar için sorunlara neden olabilecek kıvrık tırnak gibi beklenmedik karakterler ekleyebilir). Dosyayı kaydet iletişim kutusunda sorulması halinde dosyayı UTF-8 kodlamasıyla kaydettiğinizden emin olun.

Biçim ve konum kuralları:

Dosya, robots.txt olarak adlandırılmalıdır.
Sitenizde yalnızca bir robots.txt dosyası olabilir.
Robots.txt dosyası, geçerli olacağı web sitesi ana makinesinin kök dizininde bulunmalıdır. Örneğin, https://www.example.com/ altındaki tüm URL'lerde taramayı kontrol etmek için robots.txt dosyası, https://www.example.com/robots.txt konumuna yerleştirilmelidir. Bir alt dizine (örneğin, https://example.com/pages/robots.txt) yerleştirilemez. Web sitenizin kök dizinine nasıl erişeceğinizden emin değilseniz veya bunun için izin almanız gerekiyorsa web barındırma hizmeti sağlayıcınıza başvurun. Web sitenizin kök dizinine erişemiyorsanız meta etiketler gibi alternatif bir engelleme yöntemini kullanın.
Robots.txt dosyası, alt alan adları (örneğin, https://website.example.com/robots.txt) veya standart olmayan bağlantı noktaları (örneğin, http://example.com:8181/robots.txt) için geçerli olabilir.
Robots.txt dosyası, UTF-8 olarak kodlanmış metin dosyası olmalıdır (bu, ASCII karakterleri de içerir). Google, UTF-8 aralığı dışındaki karakterleri yok sayabilir ve bu durumda robots.txt kurallarını geçersiz olarak algılayabilir.

Robots.txt dosyasına kural ekleme

Kurallar, tarayıcıların sitenizin hangi bölümlerini tarayabileceğini belirten talimatlardır. Robots.txt dosyanıza kural eklerken aşağıdaki esasları dikkate alın:

Robots.txt dosyası, bir veya daha fazla gruptan oluşur.
Her grup, satır başına bir yönerge olacak şekilde birden fazla kural veya yönergeden (talimat) oluşur. Her grup, grupların hedefini belirten bir User-agent satırıyla başlar.
Bir grup şu bilgileri verir:
- Kuralın kimin için geçerli olacağı (kullanıcı aracısı).
- Söz konusu aracının erişebileceği dizinler veya dosyalar.
- Söz konusu aracının erişemeyeceği dizinler veya dosyalar.
Tarayıcılar, grupları yukarıdan aşağıya doğru işler. Kullanıcı aracıları yalnızca bir kural grubuyla eşleşebilir. Bu grup, kullanıcı aracısıyla eşleşen ilk ve en ayrıntılı grup olur.
Bir kullanıcı aracısının disallow kuralıyla engellenmeyen bir sayfa veya dizini tarayabileceği, varsayılan olarak kabul edilir.
Kurallar büyük/küçük harfe duyarlıdır. Örneğin disallow: /file.asp, https://www.example.com/file.asp için geçerlidir, ancak https://www.example.com/FILE.asp için geçerli değildir.
# karakteri, bir yorumun başlangıcını belirler.

Google'ın tarayıcıları, robots.txt dosyalarında aşağıdaki yönergeleri destekler:

user-agent: [Zorunlu, grup başına bir veya daha fazla] Yönerge, kuralın geçerli olduğu arama motoru tarayıcısı olarak bilinen otomatik istemcinin adını belirtir. Bu, tüm kural gruplarının ilk satırıdır. Google kullanıcı aracısı adları, Google kullanıcı aracısı listesinde yer alır. Yıldız işareti (*), çeşitli AdsBot tarayıcıları dışındaki tüm tarayıcılarla eşleşir. Eşleşmeyen AdsBot tarayıcılarının adlarının açıkça belirtilmesi gerekir. Örneğin:
```
# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# Example 3: Block all but AdsBot crawlers
User-agent: *
Disallow: /
```
disallow: [Kural başına en az bir disallow veya allow girişi] Kullanıcı aracısının taramasını istemediğiniz, kök alana göreli olarak belirtilen dizin veya sayfa. Kural, bir sayfaya işaret ediyorsa tam sayfa adını tarayıcıda gösterildiği şekliyle belirtmelidir. / karakteriyle başlamalı ve bir dizine işaret ediyorsa / işaretiyle bitmelidir.
allow: [Kural başına en az bir disallow veya allow girişi] Az önce bahsedilen kullanıcı aracısı tarafından taranabilecek bir dizin veya sayfa; kök alanla göreli olarak belirtilir. Bu parametre, izin verilmeyen bir dizindeki bir alt dizinin veya sayfanın taranmasına izin vermek üzere disallow yönergesini geçersiz kılmak için kullanılır. Tek bir sayfa için tam sayfa adını tarayıcıda gösterildiği şekliyle belirtin. Dizin olması durumunda kuralı, / işaretiyle bitirin.
sitemap: [İsteğe bağlı, dosya başına sıfır veya daha fazla] Bu web sitesine ait site haritasının konumudur. Site haritası URL'si, tam nitelikli URL olmalıdır; Google, http/https/www.non-www alternatiflerini varsaymaz veya kontrol etmez. Site haritaları, Google'a tarayabileceği veya tarayamayacağı içeriğe karşılık hangi içeriği taraması gerektiğini bildirmek için iyi bir yoldur. Site haritaları hakkında daha fazla bilgi edinin. Örnek:
```
Sitemap: https://example.com/sitemap.xml
Sitemap: http://www.example.com/sitemap.xml
```

sitemap dışındaki tüm yönergeler yol ön eki, son eki veya dizenin tamamı için * joker karakterini destekler.

Bu yönergelerin hiçbiriyle eşleşmeyen satırlar yok sayılır.

Her bir yönergenin kapsamlı açıklamasını Google'ın robots.txt spesifikasyonunu yorumlayışı konulu sayfamızda okuyabilirsiniz.

Robots.txt dosyasını yükleme

Robots.txt dosyanızı bilgisayarınıza kaydettikten sonra, dosyayı arama motoru tarayıcılarının erişimine açabilirsiniz. Robots.txt dosyasını sitenize nasıl yükleyeceğiniz, site ve sunucu mimarinize bağlı olduğundan bunu yapmanıza yardımcı olabilecek tek bir araçtan söz edemeyiz. Barındırma şirketinizle iletişime geçebilir veya barındırma şirketinizin dokümanlarında arama yapabilirsiniz (örneğin, "infomaniak dosya yükleme" araması yapabilirsiniz).

Robots.txt dosyanızı yükledikten sonra, herkese açık ve Google tarafından ayrıştırılabilir olup olmadığını test edin.