robots.txt

        Google arama sonuçlarında yer almak için çokça sorulan robots.txt nedir sorusunu bu yazımızda tüm detaylarıyla açıklayacağız.  Özellikle web sitesi geliştiricileri tarafından önemli olan bu konu, Google, Yandex, Bing gibi popüler arama motoru botlarının sitenizi indeksleyip indekslemeyeceğini anlatan kod parçalarıdır. Web arama botlarının en temel görevi sitenize giriş yapıp  tüm sayfa ve yazılarınızı kontrol ederek bunları kendi algoritmalarına göre arama botlarına bildirerek indekse hazır hale getirmektir. Fakat web sitenizde yayımlamak istemediğiniz ya da yayımlanmış bir sayfa veya içeriği kaldırmak isterseniz ne yapacaksınız?  Robots.txt oluşturma kriterlerini gelin detaylıca inceleyelim.


Robots.txt Ne İşe Yarar?
Robots.txt Oluşturma
Robots.txt Nasıl Oluşturulur?
Robots.txt İçerik Formatı Nasıl Olmalı?
Grup Komutları
Robots.txt User-Agent
Dizinlerin Engellenmesi ya da Dizinlere İzin Verilmesi
Sayfaların Engellenmesi ya da Sayfalara İzin Verilmesi
Tarama Gecikmesi
Arama Motoru Botlarının Genel Özellikleri
Google İçin En Önemli Robots.txt Komutları
Web Sitem Hiçbir Aracı Tarafından Taranmasın, İndekslenmesin
Site İçerisinde Bulunan Herhangi Bir Klasör veya Dizinim Taranmasın, İndekslenmesin
Web Sitemi Sadece Google Görsün
Bir Tarayıcı Dışındaki Tüm Tarayıcılara İzin Vermek
Tek Bir Sayfanın Erişimini Kapatmak (Botlar İçin)
Google Görsellerden Bir Resmi Kaldırma
Tüm Resimlerinizi Google Görsellerden Kaldırma
Belirli Bir Formata Ait Dosyaları Erişime Kapatma
Sitenizi Tamamen Kapatma -Adsense Reklamlarını Göstererek
Belirli Bir URL İle Eşleşen Sayfaları Kaldırma
Robots.txt Blogger Üzerinden Yükleme
Robots.txt Tarafından Engelleniyor Olsa Da Dizine Eklendi Sorunu

Robots.txt Ne İşe Yarar?

        Robots.txt web sitelerinizin sayfa ve içerik yönetimlerini yapabileceğiniz yardımcı bir araçtır. Bir  paylaşım yaptığınızda herhangi bir engelleme komutu kullanmadıysanız (noindex-nofollow) içeriğiniz arama motorlarında bir süre sonra herkese açık olarak görüntülenebilir olacaktır. Fakat içeriğinizin artık paylaşılmasını istemediğinizde ya da hassas bilgilerinizin görülmesini istemediğiniz durumlarda bu araç yardımınıza koşuyor.  Yalnızca içerik kaldırmak için değil eklemek için de bu komutlar kullanılır. Yayımlanmasını istediğiniz ve uzun süredir yayımlanmayan içerikleriniz için bu komutlardan yardım alabilir, kısa süre içerisinde arama motorlarına bu talebinizi bildirebilirsiniz.

Robots.txt Oluşturma

        Robots.txt kullanımı bakımından dikkat edilmesi gereken komutları içerir.Örneğin en sevdiğiniz yazılarınıza “nogooglebot” gibi bir komut vermeniz sizi arama sonuçlarından tamamen düşürerek görünürlüğünüzü yok edebilir. Bunun için hangi işleve sahip olduğunu bilmediğiniz robots.txt komutlarını kullanmaktan kaçının.  Robots.txt oluşturma işlemi oldukça basittir. Herhangi bir not defteri uygulamasından ya da web sitenizin yönetim panelinden işinize yarayacak komutları girerek sitenizde aktif hale getirebilirsiniz.  Robots.txt  nasıl oluşturulur ? madde madde inceleyelim.

Robots.txt Nasıl Oluşturulur?

        Robots.txt dosyasını oluşturmak için öncelikle websiteniz.com üzerinden yönetici paneline girmeniz gerekiyor. Ardından ayarlar bölümünde robots.txt alanını bularak yeni bir tane txt dosyası oluşturabilirsiniz. Bu alana yazacağınız tüm kodlar Google botları tarafından düz metin olarak görüntülenir. Uyguladığınız komutların aktif olup olmadığını öğrenmek için websiteniz.com/robots.txt adresine giriş yapabilirsiniz. Aktif durumdaki bir robot kodu aşağıdaki gibi görüntülenir:

robots.txt örneği

Web sitenizde temel olarak 2 farklı türde robots.txt komutları bulunabilir. Robots.txt örneği şu şekildedir:

  • #Group1

User-agent: Googlebot

Disallow: /nogooglebot/

Bu komut satırı Googlebot isimli kullanıcı aracının siteniz içerisinde bulunan /nogooglebot ve alt dizinlerinin taranmaması gerektiğini Google’a bildirir.

  • #Group2

User-agent: *

Allow: /

Hiçbir değer girilmediğinde varsayılan olarak oluşturulan komut parçalarıdır. Bu komutlar ile tüm kullanıcı araçları web sayfanızda bulunan sayfaları izleyebilir ve tarayabilir.

Sitemap:www.siteniz.com/sitemap.xml

Txt dosyasında ayrıca site haritanızı da belirterek arama botlarının sitenizi tarama işlemini kolaylaştırabilirsiniz.  

Robots.txt İçerik Formatı Nasıl Olmalı ?

  • Dosya txt uzantılı  UTF-8 (ASCII karakterleri içeren) olarak kodlanmış olmalıdır.
  • Bir veya daha fazla grup komutlarını içerebilir.
  • Her gruptaki satır başlarında ayrı bir yönerge olmalıdır.
  • Gruplarda kuralın hangi araca uygulanacağı,  aracın erişebileceği dizinler ve aracın erişemeyeceği dizinler belirtilmelidir.
  • Grup komutları yukarıdan aşağıya doğru uygulanır. Kullanıcı aracıları (googlebot) sadece bir kuralla eşleşebilir.  
  • Uygulanan kurallarda büyük-küçük harf duyarlılığı bulunur. Örneğin: Disallow: dosya.html komutu siteniz.com/dosya.html adresi için geçerlidir.   Siteniz.com/DOSYA.html dosyası botlar tarafından işleme sokulamaz.

Grup Komutları

        Grup komutları yazılırken net ifadelerle bulunmakla birlikte kesinlikle yazım hatası yapılmamalıdır.   Grup komutlarında siteniz içerisinde yer almayan ya da bozuk sayfalar olmamalıdır.  Komutlar oluşturulurken büyük-küçük harfler önemsenmez fakat dizin ismi verilirken büyük-küçük harflere dikkat ederek vermelisiniz. Grup komut örnekleri şu şekildedir:

Robots.txt User-Agent

User-agent: *

Disallow: /

Dizinlerin Engellenmesi ya da Dizinlere İzin Verilmesi

Arama botları yalnızca sizin belirttiğiniz komutlara ulaşabilirler. Büyük-küçük ayrımı olan bu komutlar şu şekilde yazılmalıdır:

User-agent: *

Disallow: /klasoradi/

Sayfaların Engellenmesi Ya da Sayfalara İzin Verilmesi

User-agent: *

Disallow: /sayfadizini.html

Tarama Gecikmesi

Crawl-delay komutu kullanılmalıdır.

Arama Motoru Botlarının Genel Özellikleri

        Bir siteyi Google’da indeksletmek kadar bu işi yapan kullanıcı aracılarının da özelliklerini bilmek işimizi kolaylaştırır. Bir indeksleme sorununda nasıl bir yol izleyeceğimiz , ne gibi içeriklerin daha hızlı indeksleneceği ve yüksek sıralamalar alacağı gibi konular için botları iyi tanımak gerekir. Arama motoru botlarının genel özellikleri şu şekildedir:

  • Yalnızca sizin yazdığınız komutlardaki dosyalara erişip işlem gerçekleştirebilirler.
  • Kullanıcı aracıları siteniz.com/nogooglebot klasöründeki dizinleri tarayamaz ve belleğine alamaz.
  • Aksi belirtilmedikçe tüm popüler arama motorları siteniz içerisinde bulunan sayfa ve içerikleri izleyebilir, tarayabilir ve indeksleyebilir.
  • Sitenizdeki indekslenen dosyaları görüntülemek için siteniz.com/sitemap.xml adresini kullanabilirsiniz.

Google İçin En Önemli Robots.txt Komutları

Google SEO Standartları Kılavuzu,  web sitelerinizin geliştirilmesine yardımcı olacak bilgileri yayınlar.  Bu yönergelerin dışında siteniz içerisinde en çok kullanımı sağlanan robots.txt google komutları şu şekilde belirtilmiştir:

Web Sitem Hiçbir Aracı Tarafından Taranmasın, İndekslenmesin

User-agent: *

Disallow: /

Site İçerisinde Bulunan Herhangi Bir Klasör veya Dizinim Taranmasın, İndekslenmesin

User-agent: *

Disallow: /dizinadi

Disallow: /junk

Web Sitemi Sadece Google Görsün

User-agent: Googlebot-news

Allow: /

User-agent: *

Disallow: /

Bir Tarayıcı Dışındaki Tüm Tarayıcılara İzin Vermek

User-agent: Unnecessarybot

Disallow:  /

User-agent:*

Allow: /

Tek Bir Sayfanın Erişimini Kapatma (Botlar İçin)

User-agent: *

Disallow: /kapatılacaksayfa.html

Google Görsellerden Bir Resmi Kaldırma

User-agent: Googlebot-Image

Disallow: /images/engellenecekresim.jpg

Tüm Resimlerinizi Google Görsellerden Kaldırma

User-agent: Googlebot-Image

Disallow: /

Belirli Bir Formata Ait Dosyaları Erişime Kapatma

User-agent: Googlebot

Disallow: /*.gif$

Sitenizi Tamamen Kapatma – Adsense Reklamlarını Göstererek

User-agent: *

Disallow: /

User-agent: Mediapartners-Google

Allow: /

Belirli Bir URL İle Eşleşen Sayfaları Kaldırma

User-agent: Googlebot

Disallow: /*.xls$

Bu kod ile .xls ile biten tüm url adresleri engellenir.

Robots.txt Blogger Üzerinden Yükleme

Robots.txt engelleme  komutlarının Blogger üzerinden yüklenmesi şu adımlarla yapılır:

Blogger üzerinden gmail hesabınızla giriş yapın.

Ardından komutları uygulamak istediğiniz blog adresinizi seçin.

Daha sonra ayarlara girerek tarayıcılar ve dizine ekleme bölümünden özel robots.txt bölümüne tıklayarak istediğiniz komutları girip kaydete basmalısınız.

Robots.txt Tarafından Engelleniyor Olsa Da Dizine Eklendi  Sorunu

Robots.txt tarafından engelleniyor olsa da dizine eklendi hatası genellikle başka sayfalardan gelen linkler olduğunda ortaya çıkar. Bu sorunu çözmek için hata alan sayfaya robots.txt  noindex etiketi vermek gerekir.  Bunun için de robots.txt kodlarından engellediğiniz sayfayı tekrar aktif hale getirerek sayfanın <head> bölümüne şu kodları eklemelisiniz:

<meta name=”robots” content=”noindex” /> Bu kodları ekledikten yaklaşık 1-2 hafta sonra search console üzerinde kapsam sorunu ortadan kalkacaktır.

Makale Yorum

Yorumunuzu Girin...

Daha yeni Daha eski