سفارش تبلیغ
صبا ویژن

دسترسی به مجموع وب سایت

 

نمونه یک – عدم دسترسی به آحاد وبسایت

در فیض در خط نخستین نمونه تحت با درج * کلیه ربات های موتورهای کاوش را خطاب قرار میدهیم و در خط دوم با درج / به عدم خزش و ایندکس کل نشانی های دامنه اشاره میکنیم. براین اساس امر تحت یعنی: هیچ‌یک از موتورهای کاوش مجاز به خزیدن وب سایت شما آموزش سئو مشهد  نباشند.

 

User-agent: *

Disallow: /

 

 

نمونه دو – دسترسی به مجموع وب سایت

امر تحت برعکس فرمان بالا میگویید همگی ربات‌های موتورهای کاوش به همه نشانی‌های تارنما  آموزش سئو در مشهد دسترسی دارا هستند.

 

User-agent: *

Disallow:

نمونه سه – عدم دسترسی به دایرکتوری خاص

فرمان ذیل به‌این معناست که ربات گوگل به فایل blog و کلیه زیرپوشه‌های blog دسترسی ندارد. درواقع عدم دسترسی هم مشتمل بر نشانی mizfa.com/blog و هم مشمول نشانی‌های به‌مانند mizfa.com/blog/example می شود. در‌این وضعیت سایر ربات‌ها به‌جز ربات گوگل دسترسی بدین دایرکتوری را دارا‌هستند.

 

User-agent: googlebot

Disallow: /blog

 

 

نمونه چهار – حق تقدم ربات ها

به عبارتی‌طور که گفتیم موتورهای کاوش ممکن میباشد تعداد ربات‌های متعددی برای مفاد خاص داشته باشند برای همین حق تقدم هم برای آن ها اصلی میباشد. درصورتی‌که در فولدر robots.txt دستوراتی را درج کرده باشید که چندین بلاک متفاوت آن ها برای یک ربات (خزنده) راستگو باشد، ربات موتور کاوش مدام دستوری را که به‌طور بدیهی‌خیس به آن ربات خاص اشاره می‌نماید تعیین کرده و دستورها به عبارتی قسمت را اعمال خواهد کرد. به عنوان مثالً فرض فرمائید چنانچه فولدر robots.txt همچون امر تحت یک بلاک منحصر Googlebot و یک بلاک اختصاصی Googlebot-Video وجود داشته باشد. در‌این‌حالت‌ در حالتی‌که ربات عکس گوگل (Googlebot-Image) وارد وب سایت شما گردد، میان این بلاک‌ها از اولین تبعیت خواهد کرد و در‌حالتی که ربات ویدئو گوگل (Googlebot-Video) وارد وبسایت خواهد شد، از بلاک دو‌مین تاسی خواهد کرد و امرها بلاک او‌لین را نادیده گرفته چراکه بلاک دو‌مین برای آن در حق تقدم میباشد.

 

User-agent: Googlebot

Disallow: /Photo

User-agent: Googlebot-Video

Allow: /blog

نمونه پنج – Regular Expression

شما می توانید از کلمات منظم (Regular Expression) هم برای به کار گیری در اوامر پوشه robots.txt به کار گیری نمایید. اما این لغت ها منظم به صورت قانونی در‌این پوشه تعریف‌و‌تمجید‌نشده‌اند اما اکثر ربات‌های دارای اسم و رسم در عالم از لغت ها منظم نیز امان می‌نمایند. از جملهً در فرمان نیز اشاره‌گردیده که همه ربات‌ها به فولدر‌ها با پسوند pdf که در فایل (دایرکتوری) test وجود دارا‌هستند، نباید دسترسی داشته باشند.

 

User-agent: *

Disallow: /test/*.pdf$

 

 

نمونه شش – گزینش استثنا برای دسترسی به محتوای دایرکتوری

هم اکنون قصد داریم پاره ای درباره وردپرس سخن بزنیم و یک فولدر robots txt برای وردپرس به صورت باصرفه گردیده و مطلوب ساخت و ساز کنیم. امر ذیل که در بخش اعظمی از وبسایت‌های وردپرس به کار گیری می‌گردد بدین معناست که مجموع ربات‌ها به فولدر wp-admin دسترسی نداشته باشند اما به پوشه admin-ajax.php که در‌این فولدر می‌باشد دسترسی پیدا نمایند. اما بودن اینگونه دستوراتی در فولدر robots.txt ضرری هم ندارد هر چندین ربات بضاعت داخل شدن به فضا ادمین وردپرس را ندارد اما غلط در کدنویسی هم از سمت گوگل و هم از سمت ما به طور طبیعی قابلیت‌پذیر میباشد. چنانچه دقت کرده باشید ما درین نوشته‌علمی یک توشه از کیورد User-agent استعمال کردیم و بعد 2 خط امر وارد کردیم، شما می توانید به تعداد دلخواه اوامر مورد نیاز را در هر خط وارد فرمائید.

 

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

 

 

نمونه هفت – نادرست رایج

یکی از دیگر از امرها رایج و خطا از حیث یک کارشناس seo در پوشه robots.txt وردپرس که در اکثری از تارنما‌های پر اسم و رسم اهل ایران استعمال میگردد کدهای پایین هستند. مخلوق شخصاً در هیچ‌یک از تارنما‌های دارای اعتبار فرنگی که دارنده سیستم رئیس محتوا وردپرس می‌باشند اینگونه کدهایی را پیدا نکردم. عدم دسترسی به wp-includes که در آن چند پوشه‌های اصلی مثل جی کوئری میباشد سبب میشود وبسایت به آن شکلی که بایستی برای موتور کاوش اکران دهد، خروجی نگیرد. وب سایت‌های مثل یوآست، نیل پتل، searchengineland و ده‌ها تارنما پر اسم و رسم وردپرس که در سوژه seo مالک‌نظرهای جهانی می‌باشند از اینگونه دستوراتی که منجر عدم دسترسی به فولدر‌های wp-includes می شود به کار گیری نمیکنند، حتی تارنما یوآست در‌این نوشته‌ی علمی اشاره‌کرده اینگونه دستوراتی خطا میباشد و سبب ساز بسته شدن ربات‌ها به بعضا فولدر‌ها می شود که برای بهینه سازی وبسایت خوشایند وجود ندارد.

 

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

[box type=”info” align=”” class=”” width=””]نکته: در نمونه فوق disallow کردن /wp-includes/ را تحت عنوان خطا رایج معرفی کرده‌ایم، خیر /wp-admin/. درج /wp-admin/ در پوشه robots.txt وردپرس یک طریق پیشفرض میباشد و ترجیح دادیم در هرمثال آن را در اختیار بگذاریم. (ولی Disallow کردن /wp-admin/ ورژن‌ای وجود ندارد که بشود برای همگی سایت‌ها پیچید و تماماً بستگی به تارنما دارااست)[/box]

نمونه هشت – عدم دسترسی به آدرسی با کاراکتر خاص

فرمان پایین زمانی کاربرد داراست که شما در نشانی‌های خویش کاراکتری مانند ? را داشته باشید چراکه گاهی به جهت خطاها فنی در وب سایت، نوشته‌ی‌علمی شما ممکن میباشد با نشانی‌های متفاوت و با مقادیر گوناگون تکثیر پیدا نماید. به همین خواسته فرمان تحت را به صورت موقت درج می کنید تا ربات‌ها نشانی‌های دارنده کاراکتر نشان سؤال را ایندکس نکنند.

 

User-agent: *

Disallow: /*?

در نمونه تحت با درج $ تأکید می کنیم که در حالتی‌که در انتهای آدرسی نشانه پرسش (?) بود، آن نشانی بایستی Disallow خواهد شد. در سود نمونه تحت یعنی هیچ رباتی اذن‌ی خزش نشانی‌هایی که با ? آحاد می گردند را ندارند. در‌این وضعیت نشانی‌هایی که با ? به اتمام نمیرسند در لحاظ گرفته نمیشوند.

 

User-agent: *

Disallow: /*?$

در‌حالتی که در‌پی نمونه های بیشتری میباشید نوشته‌علمی Robots.txt Specifications گوگل هم می تواند برای شما موثر باشد.