فایل Robots.txt در وبسایت‌ها نقش راهنماها و نگهبانان را دارد اما نه برای کاربرانی که وارد سایت می‌شوند، بلکه برای ربات‌هایی که برای بررسی سایت یا هر کار دیگری می‌خواهند در بخش‌های مختلف سایت سرک بکشند.

 

ربات چیست؟!

مراجعه کنندگان به سایت فقط کاربران عادی نمی باشند بلکه ربات ها نیز برای بررسی سایت شما به شما سر می زنند.

این ربات ها تمامی صفحات شما را باز کرده و به بررسی و آنالیز داده های آن می پردازد.یکی از این ربات ها ربات های موورهای جستجو گر است.این ربات ها ممکن است در طی یک روز چند بار به سایت شما مراجعه کنند.سایت های بزرگ با داده های بزرگ نیز دارای رفت و آمد زیادی در بررسی صفحاتشان هستند.

برخی از افراد فکر می کنند وجود ربات به ضرر سایتشان است در صورتی که کاملا اشتباه فکر می کنند. یکی از ربات های معروف گوگل Googlebot است که وظیفه آن پیدا کردن صفحه‌های جدید در اینترنت و بررسی آنها می باشد.

این ربات ها در بررسی صفحات و داده های آن هیچ محدودیتی ندارند و هر چیزی را بررسی و آن ها را در سرورهای گوگل ذخیره سازی می کند.بنابراین ممکن است بگویید که من دوست ندارم این صفحات را بررسی کند.برای این موضوع نیز راهکار وجود دارد

“خوشبختانه دسترسی ربات‌ها به صفحه‌ها یا فایل‌ها را می‌توانیم کنترل کنیم.”

 

نحوه جلوگیری از رصد برخی از صفحات

در اینجا فایلی به نام Robots.txt داریم که می توانیم با نوشتن دستوراتی درون آن مانع از ورود ربات به برخی از صفحات دلخواه خود بشویم و همینطور وبسایت خود را از نظر سئوی سایت بهینه‌سازی کنید.

 

مواردی که در این مقاله و مقالات بعدی بررسی می کنیم

  • نحوه استفاده از فایل Robots.txt
  • ایجاد محدودیت در رفتار ربات
  • جلوگیری از ایندکس شدن صفحه‌ها

 

فایل Robots.txt چیست؟

برای بررسی صفحات یک سایت ربات ها ابتدا سروقت فایل Robots.txt می روند و ابتدا آن را بررسی می کنند.این فایل یک مجوز دهنده به ربات‌ها است. در این فایل با چند دستور ساده مشخص می‌کنیم که ربات اجازه بررسی کدام صفحه‌ها را دارد و کدام صفحه‌ها را نباید بررسی کند.

در تصویر زیر برخی از دستوراتی که در فعالیت ربات ها محدودیت ایجاد می کند را نمایش داده ایم.در تصویر زیر به پوشه photos و فایل file.html را نداده ایم

علت داشتن فایل Robots.txt ؟

برای داشتن فایل Robots.txt دلایل مختلفی وجود دارد.

یکی از این دلیل ها این است که از نظر مدیر یا مدیران یک سایت، همه صفحات سایتشان دارای اهمیت یکسانی نیستند و ایندکس شدن برخی از صفحات در گوگل اهمیتی ندارد.

برای مثال:

  • صفحه پنل مدیریت وب سایت
  • صفحاتی که دارای محتوا قابل قبول نیستند
  • جلوگیری از اتمام پهنای باند سایت بدلیل داشتن صفحات زیاد و بررسی آنها توسط ربات

بنابراین صاحبان وب سایت می توانند فعالیت ربات ها در سایت خود کنترل کنند.در حال حاضر، هدف اصلی فایل ربات محدود کردن درخواست‌های بیش از حد بازدید از صفحات وبسایت است.

 

چطور می توان با استفاده از فایل Robots.txt صفحات مورد نظر را از لیست نتایج گوگل حذف کرد؟

این اتفاق قبلا با استفاده از فایل Robots.txt و با دستور noindex قابل انجام بود اما اخیر تنها می توان تصاویر، ویدیو یا صدا را از نتایج جستجو حذف کرد. اما برای حذف صفحات با این فایل قابل انجام نیست اما راهکار حذف این صفحات از نتایج موتورهای جستجوگر را به شما آموزش می دهیم.

 

شناخت ربات های گوگل

نام دیگر ربات یا خرنده Crawler است که وظیفه آن بررسی خودکار وب سایت شما است.این بررسی بدین شکل است که در یک سایت لینک ها را پیدا کرده و از یک صفحه به صفحه دیگر می روند.این ربات‌ها به صورت مداوم، صفحه‌های وبسایت را بررسی می‌کنند.

این ربات ها عبارتد از:

  • ربات AdSense: برای صفحات سایت و نمایش تبلیغات براساس محتوای صفحات است
  • ربات Googlebot Image: گیدا کردن و بررسی تصاویر یک وب سایت
  • ربات Googlebot News: وظیفه این ربات بررسی سایت و صفحات خبری است
  • Googlebot Video: این ربات نیز مانند ربات تصویر تنها به بررسی و پیدا کردن ویدئوها می پردازد
  • ربات Googlebot: این ربات را همانطور که قبلا گفتیم صفحات را بررسی و ذخیره می کند و در حالت های Desktop و Smartphone است.

 

زمان های کاری ربات‌های جستجوگر

خیلی جالب است بدانید که ربات ها برای بررسی صفحات شما همینطور و هر زمان به سایت شما سر نمی زنند.عواملی در بررسی صفحات شما بصورت منظم و مکرر وجود دارد.در صورتی که محتوای وب سایت شما هر روز آپدیت شود و مطالب زیادی را درون آن قرار دهید، تعداد دفعات بررسی سایت شما توسط ربات های گوگل بیشتر می شود.اما اگر سایت خود را هفته ای یکبار آپدیت می کنید ربات ها هم هفته ای یکبار به سایت شما سر می زنند.

نمونه سایت هایی که دارای محتوای زیاد و بروز هستند سایت های خبری است. در این نوع سایت ها ربات ها خیلی سریع صفحات جدید را پیدا کرده و آنها را ایندکس می کند.

در سرچ کنسول بخشی به نام Crawel Stats وجود دارد که گزارشی از موارد زیر درون آن وجود دارد:

  • تعداد دفعات بررسی صفحات سایت بصورت روزانه
  • حجم دانلود شده توسط ربات‌ها
  • زمان بارگذاری صفحه‌ها

 

علت اهمیت فایل Robots.txt

  1. مدیریت ترافیک ربات‌ها به وب سایت: با استفاده از این فایل می توانیم میزان ترافیک مصرفی توسط ربات ها از سرور وب سایت خود را کنترل و مدیریت کنیم.میزبان‌های وبسایت از نظر پنهای باند و ترافیک محدودیت دارند و این کنترل دارای اهمیت زیادی است.
  2. جلوگیری از نمایش صفحات یا فایل‌ها در نتایج جستجوی گوگل: اگر در فایل Robots دستور دهید که ربات‌های گوگل اجازه دسترسی به صفحاتی را ندارند، این صفحات کلاً بررسی نمی‌شوند اما هیچ تضمینی وجود ندراد که این صفحه در نتایج جستجوی گوگل ظاهر نشود. امکان دارد ربات‌ها از طریق لینک‌هایی که به همان صفحه داده شده‌اند و کمک گرفتن از همان انکر تکست لینک، صفحه را ایندکس کنند. در حال حاضر بهترین راه برای حذف صفحه‌ای از نتایج جستجو، اضافه کردن دستور noindex در قسمت head صفحه‌ها است. اگر از وردپرس استفاده می‌کنید افزونه‌هایی برای این کار وجود دارد و در غیر اینصورت باید از طراحی وبسایت خود بخواهید که امکاناتی برای افزودن این کد‌ها یا دستورات در قسمت هد هر صفحه فراهم کند.
  3. مدیریت Crawl Budget: در حقیقت تعداد صفحاتی از وب سایت‎تان است که ربات گوگل در یک روز آنها را خزیده و بررسی می‌کند. بودجه شما، یا همان تعداد صفحاتی که توسط Googlebot مشاهده می شوند، بر اساس حجم وب‌سایت شما (تعداد صفحات)، سلامت آن (عدم بروز خطا) و تعداد بک‌لینک‌های سایت‌تان تعیین می‌شود.

با استفاده درست از فایل robots.txt می توانید به ربات‌های جستجو بگویید که Crawl Budget سایت‌تان را به درستی مصرف کنند. همین قابلیت است که اهمیت فایل robots.txt را در سئو دو چندان می‌کند.

وقتی ربات می‌خواهد وبسایتی را بررسی کند. اگر فایل robots.txt وجود نداشته باشد، ربات بدون هیچ محدودیتی به تمام بخش‌های در دسترس سر می‌زند.

 

محدودیت های دستورات Robots.txt

استفاده از فایل Robots.txt دارای محدودیت هایی به شرح زیر است:

  • عدم یکسان بودن دستورات استفاده شده در فایل Robots.txt در همه ربات های موتورهای جستجوگر: بهتر است دستورالعمل‌های هر موتور جستجو را بخوانید تا مطمئن شوید دستوراتی که می‌نویسید برای همه موتورهای جستجو کار می‌کند.
  • ایندکس دوباره صفحاتی که در فایل Robots.txt محدود شده اند: اگر اجازه بررسی صفحه‌ای را با دستورات فایل ربات نداده باشیم باز هم امکان دارد گوگل آن را ایندکس کند و در نتایج جستجو ظاهر شود. ربات گوگل یا باید به صورت مستقیم و با استفاده از sitemap صفحه را دریافت و بررسی کند یا باید از لینک‌های دیگری که از صفحه‌ها و سایت‌‌های دیگر به آن صفحه داده‌اند آن را پیدا و بررسی کند.

دیدگاه خود را بیان کنید

این ایمیل برای عموم منتشر نمی شود