Bir robots.txt dosyası, arama motorları için yönergeler içerir. Bu dosyayı, arama motorlarının web sitenizin belirli bölümlerini taramasını önlemek ve arama motorlarına web sitenizi en iyi nasıl tarayabilecekleri konusunda yararlı ipuçları vermek için kullanabilirsiniz. Çünkü robots.txt dosyası özellikle teknik SEO’da büyük rol oynar.
Robots.txt Dosyası Nedir?
Robots.txt dosyası, arama motoru botlarına web sitelerindeki sayfaları nasıl tarayacaklarını öğretmek için oluşturulan bir metin dosyasıdır. Bu dosya, botların web sitesini nasıl taradığını, içeriğe nasıl erişip dizine eklediğini ve bu içeriği kullanıcılara nasıl sunduğunu düzenleyen bir grup web standardı olan robot dışlama protokolünün (REP) bir parçasıdır. REP ayrıca meta robotlar gibi direktiflerin yanı sıra arama motorlarının bağlantıları nasıl ele alması gerektiğine ilişkin sayfa, alt dizin veya site çapında talimatlar içerir.
Uygulamada robots.txt dosyaları, belirli kullanıcı aracılarının bir web sitesinin bölümlerini tarayıp tarayamayacağını belirtir. Bu tarama yönergeleri, belirli kullanıcı aracılarının davranışına “izin vermeme” veya “izin verme” yoluyla belirtilir.
Robots.txt Dosyası Nasıl Çalışır?
Bir robots.txt dosyası, yalnızca HTML biçimlendirme kodu içermeyen bir metin dosyasıdır (dolayısıyla .txt uzantısıdır). Bu dosya, web sitesindeki diğer dosyalar gibi web sunucusunda barındırılır. Aslında herhangi bir web sitesi için bu dosyalar, ana sayfanın tam URL’ini yazıp ardından “/robots.txt” ekleyerek görüntülenebilir. Dosya sitede başka hiçbir yere bağlı değildir, bu nedenle kullanıcıların bu dosyaya rastlaması olası değildir, ancak çoğu web tarayıcı botu sitenin geri kalanını taramadan önce bu dosyayı arar.
Bir robots.txt dosyası botlar için talimatlar sağlarken; aslında talimatları uygulayamaz. Web tarayıcısı veya haber akışı botu gibi iyi bir bot, bir domaindeki diğer sayfaları görüntülemeden önce dosyayı ziyaret etmeye çalışacak ve talimatları izleyecektir. Kötü bir bot ya robots.txt dosyasını yok sayar ya da yasaklanmış web sayfalarını bulmak için onu işler. Bir web gezgini botu, dosyadaki en özel talimat dizisini izleyecektir. Dosyada çelişkili komutlar varsa bot daha ayrıntılı komutu izler.
Unutulmaması gereken önemli bir nokta, tüm subdomain’lerin kendi robots.txt dosyasına ihtiyaç duymasıdır. Örneğin; dijitaldegorunurolmak.com kendi dosyasına sahipken; tüm dijitaldegorunurolmak.com subdomain’lerinin de (blog.dijitaldegorunurolmak.com vb.) kendilerine ait bir dosyası olması gerekir.
Robots.txt Dosyasında Kullanılan Protokoller
Ağ oluşturmada bir protokol; talimatlar veya komutlar sağlamak için bir formattır. Robots.txt dosyaları birkaç farklı protokol kullanır. Ana protokole “Robot Dışlama Protokolü” denir. Bu, botlara hangi web sayfalarından ve kaynaklardan kaçınmaları gerektiğini söylemenin bir yoludur. Bu protokol için biçimlendirilmiş talimatlar dosyaya dahil edilmiştir.
Bu dosyalar için kullanılan diğer protokol “Site Haritaları” protokolüdür. Bu bir robot dahil etme protokolü olarak kabul edilebilir.
Site haritaları, bir web tarayıcısına hangi sayfaları tarayabileceklerini gösterir. Bu, bir tarayıcı botunun önemli sayfaları kaçırmamasını sağlamaya yardımcı olur.
Robots.Txt Sözdizimi
User-Agent: Kuralların uygulanacağı robottur. Kullanıcı aracısı dizesi, web tarayıcılarının adları olarak kullandıkları bir parametredir. Ancak yalnızca tarayıcının adını değil, işletim sisteminin sürümünü ve diğer parametreleri de içerir. Kullanıcı aracısı sayesinde birçok parametre belirleyebilirsiniz.
Disallow: Erişim için kapatmak istediğiniz sayfaları içerir. Her grup User-Agent / Disallow boş bir satırla bölünmelidir. Ancak grup içinde boş olmayan dizeler bulunmamalıdır. Ayrıca yönergeyi dikkatli kullanmalısınız çünkü bazı önemli sayfalara yanlışlıkla robots.txt tarafından izin verilmeyebilir.
#: Mevcut satır için dosyada yorum bırakmak için gerektiğinde # kullanılabilir. Hashtag işaretinden sonra bahsedilen herhangi bir şey yok sayılır. Bu yorum hem satırın tamamı için hem de direktiflerden sonra sonuna kadar geçerlidir.
Crawl-delay: Sitenizde yüksek katılım sıklığı olması durumunda harika bir kullanım olan site geçiş hızınızı sınırlayabilirsiniz. Böyle bir seçenek, sitedeki bilgileri işleyen çeşitli arama sistemlerinin neden olduğu sunucunuzun fazladan yüklenmesiyle ilgili sorunlardan kaçınmak için etkinleştirilir.
İfadeler: Daha esnek yönerge ayarları sağlamak için aşağıda belirtilen iki sembolü kullanabilirsiniz:
- * : herhangi bir sembol dizisini belirtir,
- $ : satırın sonu anlamına gelir.
Neden Robots.txt Dosyasına İhtiyacınız Var?
Robots.txt dosyaları, sitenizin belirli alanlarına tarayıcı erişimini kontrol eder. Googlebot’un sitenizin tamamını taramasına yanlışlıkla izin vermezseniz bu çok tehlikeli olabilir, bu dosyanın çok kullanışlı olabileceği bazı durumlar vardır. Bazı yaygın kullanım durumları şunları içerir:
- SERP’lerde duplicate içeriğin görünmesini önleme,
- Bir web sitesinin tüm bölümlerini gizli tutma,
- Site içerisindeki arama sonuçları sayfalarının SERP’de görünmesini engelleme,
- Site haritasının/haritalarının konumunu belirtilme,
- Arama motorlarının web sitenizdeki belirli dosyaları (resimler, PDF’ler vb.) taramasını önleme,
- Tarayıcılar aynı anda birden fazla içerik yüklediğinde sunucularınızın aşırı yüklenmesini önlemek için bir tarama gecikmesi belirtme.
Robots.txt Dosyası Oluşturma Adımları
1. Dosya oluşturun
İlk adımınız robots.txt dosyanızı gerçekten oluşturmaktır. Bir metin dosyası olarak, örneğin Windows not defterini kullanarak bir tane oluşturabilirsiniz.
User-agent: X
Disallow: Y
User-agent, konuştuğunuz belirli bottur. Disallow’dan sonra gelen her şey, engellemek istediğiniz sayfalar veya bölümlerdir.
Örneğin;
User-agent: googlebot
Disallow: /images
Bu kural, Googlebot’a web sitenizin görsel klasörünü dizine eklememesini söyler.
Ayrıca web sitenize uğrayan tüm botlarla konuşmak için yıldız işareti (*) kullanabilirsiniz. Örneğin;
User-agent: *
Disallow: /images
*, tüm botlara görsel klasörünüzü taramamalarını söyler.
2. Robots.txt dosyanızın bulunmasını kolaylaştırın
Dosyanızı aldıktan sonra onu canlı hale getirme zamanı geldi. Dosyanızı teknik olarak sitenizin herhangi bir ana dizinine yerleştirebilirsiniz. Ancak dosyanızın bulunma olasılığını artırmak için onu şu adrese yerleştirmeniz önerilir:
https://example.com/robots.txt
Dosyanızın büyük/küçük harf duyarlı olduğunu unutmayın. Bu nedenle dosya adında küçük “r” harfi kullandığınızdan emin olmalısınız.
3. Hataları kontrol edin
Dosyanızın doğru şekilde oluşturulması çok önemlidir. Yapacağınız bir hata, tüm sitenizi indeksten kaldırabilir. Neyse ki kodunuzun doğru oluşturulduğunu kontrol etmek için kullanabileceğiniz bir Robots Testing Aracı vardır.
Robots.txt Dosyası SEO Stratejinize Nasıl Yardımcı Olabilir?
Her şey tarama bütçesiyle ilgilidir. Her sitenin, arama motorları tarafından kişisel olarak tahmin edilen kendi tarama bütçesi vardır. Robots.txt dosyası, web sitenizin arama botları tarafından duplicate sayfalar ya da gereksiz sayfalar gibi sayfaları taramasını engeller.
Ancak SEO’ya nasıl zarar verebilir? Arama botları web sitesine tarama için geldiğinde en önemli sayfaları keşfetmek için programlanmamışlardır. Genellikle tüm web sitesini tüm sayfaları ile tararlar. Bu nedenle sınırlı tarama bütçesi nedeniyle en önemli sayfalar kolayca taranamayabilir. Bu nedenle Google veya başka bir arama motoru, aldığı bilgilerle ilgili olarak web sitenizi sıralamaya başlar. Bu şekilde SEO stratejiniz, alakalı olmayan sayfalar nedeniyle başarısız olma tehlikesiyle karşı karşıya kalır. Sonuç olarak robots.txt dosyası oluşturmak oldukça önemlidir.