Robots.txt-г хэрхэн зөв тохируулах вэ?

Агуулгын хүснэгт:

Robots.txt-г хэрхэн зөв тохируулах вэ?
Robots.txt-г хэрхэн зөв тохируулах вэ?
Anonim

HTML сайтад зориулсан зөв Robots txt нь хайлтын системийн роботуудын үйлдлийн загваруудыг үүсгэж, юу шалгах боломжтойг нь хэлж өгдөг. Энэ файлыг ихэвчлэн Robot Exclusion Protocol гэж нэрлэдэг. Вэбсайтыг мөлхөхөөс өмнө роботуудын хайдаг хамгийн эхний зүйл бол robots.txt юм. Энэ нь зарим дэд домайнуудыг шалгахгүй байхыг Sitemap-д зааж өгч болно. Хэрэв та хайлтын системд хамгийн их олддог зүйлийг хайж олохыг хүсвэл robots.txt файлыг оруулах шаардлагагүй. Энэ процесст файлыг зөв форматлах нь маш чухал бөгөөд хэрэглэгчийн хуудсыг хэрэглэгчийн хувийн мэдээлэлтэй индексжүүлэхгүй байх явдал юм.

Робот скан хийх зарчим

Робот сканнердах зарчим
Робот сканнердах зарчим

Хайлтын систем файлтай таарч, хориглосон URL-г олж харвал тэр файлыг мөлхөөгүй ч индексжүүлэх боломжтой. Учир нь роботууд агуулгыг үзэх эрхгүй байсан ч хориотой URL руу чиглэсэн буцах холбоосыг санаж чаддаг. Холбоос руу хандах хандалтыг хаасан тул URL нь хайлтын системд харагдах боловч фрагментгүй байх болно. ХэрвээИрж буй маркетингийн стратегийн хувьд bitrix (Bitrix)-д зориулсан зөв Robots txt шаардлагатай. Тэд хэрэглэгчийн хүсэлтээр сайтын баталгаажуулалтыг сканнераар хангадаг.

Нөгөө талаар, хэрэв файл зөв форматлагдаагүй бол энэ нь сайт хайлтын илэрцэд харагдахгүй бөгөөд олдохгүй болно. Хайлтын системүүд энэ файлыг тойрч гарах боломжгүй. Программист дурын сайтын robots.txt-г түүний домайн руу ороод robots.txt, жишээ нь www.domain.com/robots.txt ашиглан үзэх боломжтой. Unamo-н SEO оновчлолын хэсэг гэх мэт хэрэгслийг ашигласнаар та дурын домайныг оруулах боломжтой бөгөөд үйлчилгээ нь тухайн файлын талаарх мэдээллийг харуулах болно.

Скан хийх хязгаарлалт:

  1. Хэрэглэгч хуучирсан эсвэл эмзэг агуулгатай байна.
  2. Сайт дээрх зургийг зургийн хайлтын илэрцэд оруулахгүй.
  3. Энэ сайт роботын индексжүүлэлт хийхэд хараахан бэлэн болоогүй байна.

Хэрэглэгчийн хайлтын системээс авахыг хүсэж буй мэдээлэл URL хаяг руу орсон хэн бүхэнд нээлттэй гэдгийг санаарай. Энэ текст файлыг нууц мэдээллийг нуухын тулд бүү ашигла. Хэрэв домэйн 404 (олдсонгүй) эсвэл 410 (давсан) алдаатай бол хайлтын систем нь robots.txt байгаа хэдий ч сайтыг шалгадаг бөгөөд энэ тохиолдолд файл байхгүй гэж үздэг. 500 (Дотоод серверийн алдаа), 403 (Хориотой), хугацаа хэтэрсэн эсвэл "боломжгүй" гэх мэт бусад алдаа нь robots.txt зааврыг дагаж мөрддөг боловч файлыг ашиглах боломжтой болтол тойрч гарахыг хойшлуулж болно.

Хайлтын файл үүсгэж байна

Хайлтын файл үүсгэж байна
Хайлтын файл үүсгэж байна

ОлонWordPress зэрэг CMS программуудад robots.txt файл байдаг. Robots txt WordPress-ийг зөв тохируулахын өмнө хэрэглэгч хэрхэн хандахаа мэдэхийн тулд түүний боломжуудтай танилцах хэрэгтэй. Хэрэв програмист өөрөө файл үүсгэсэн бол энэ нь дараах нөхцлийг хангасан байх ёстой:

  1. Жижиг үсгээр бичсэн байх ёстой.
  2. UTF-8 кодчилол ашиглах.
  3. Текст засварлагчд файл (.txt) хэлбэрээр хадгална.

Хэрэглэгч хаана байршуулахаа мэдэхгүй байгаа үед вэб серверийн програм хангамжийн борлуулагчтай холбогдож домэйны үндсэн хаяг руу хэрхэн хандах, эсвэл Google консол руу орж татаж авах боломжтой. Энэ функцийг ашигласнаар Google бот зөв ажиллаж байгаа эсэх болон файлыг ашиглан хаасан сайтуудын жагсаалтыг шалгах боломжтой.

Битриц (Bitrix)-д зориулсан зөв Robots txt-ийн үндсэн формат:

  1. Legend robots.txt.
  2. , зөвхөн тэмдэглэл болгон ашигладаг сэтгэгдлийг нэмдэг.
  3. Эдгээр сэтгэгдлийг сканнерууд хэрэглэгчийн үсгийн алдаатай хамт үл хэрэгсэх болно.
  4. Хэрэглэгч-агент - файлын зааварчилгааг аль хайлтын систем дээр жагсаасан болохыг заана.
  5. Од () нэмэх нь заавар нь хүн бүрт зориулагдсан гэдгийг сканнеруудад хэлнэ.

Googlebot, Baiduspider, Applebot гэх мэт тодорхой роботыг зааж байна. Зөвшөөрөхгүй байх нь вэб сайтын аль хэсгийг мөлхөж болохгүйг мөлхөгчдөд хэлдэг. Энэ нь иймэрхүү харагдаж байна: Хэрэглэгч-агент:. Од нь "бүх роботууд" гэсэн утгатай. Гэсэн хэдий ч та тодорхой хуудсуудыг зааж өгч болнороботууд. Үүнийг хийхийн тулд та зөвлөмжийг тохируулсан роботын нэрийг мэдэх хэрэгтэй.

Yandex-д зориулсан зөв роботын txt нь дараах байдалтай байж магадгүй:

Yandex-д зориулсан зөв робот txt
Yandex-д зориулсан зөв робот txt

Хэрэв bot сайтыг мөлхөөгүй бол та үүнийг зааж өгч болох ба хэрэглэгчийн агентуудын нэрийг олохын тулд useragentstring.com сайтын онлайн боломжуудтай танилцахыг зөвлөж байна.

Хуудасны оновчлол

Хуудасны оновчлол
Хуудасны оновчлол

Дараах хоёр мөрийг бүрэн robots.txt файл гэж үзэх ба нэг робот файл нь мөлхөгчийг идэвхгүй болгох эсвэл идэвхжүүлэх олон мөр хэрэглэгчийн агентууд болон удирдамжуудыг агуулж болно. Зөв Robots txt-ийн үндсэн формат:

  1. Хэрэглэгчийн агент: [агент хэрэглэгчийн нэр].
  2. Зөвшөөрөхгүй: [Мөлхөөгүй URL мөр].

Файлд зааврын блок бүрийг шугамаар тусгаарлан салангид байдлаар харуулдаг. Агент хэрэглэгчийн лавлахын хажууд байгаа файлд дүрэм бүрийг хэсэгчлэн тусгаарласан тодорхой багц мөрөнд хэрэглэнэ. Хэрэв файл олон агентын дүрэмтэй бол робот зөвхөн хамгийн тодорхой бүлгийн зааврыг авч үзэх болно.

Техникийн синтакс

Техникийн синтакс
Техникийн синтакс

Үүнийг robots.txt файлуудын "хэл" гэж ойлгож болно. Энэ форматад таван нэр томъёо байж болох бөгөөд гол нэр томъёонд:

  1. Хэрэглэгч-агент - Мөлхөх заавар бүхий вэб мөлхөгч, ихэвчлэн хайлтын систем.
  2. Зөвшөөрөх команд нь хэрэглэгчийн агентийг тойрч гарахыг хэлэхэд хэрэглэгддэгтодорхой URL (орхиогүй). Тус бүрд ганцхан хориотой нөхцөл бий.
  3. Зөвшөөрөх. Хандалт авсан Googlebot-ийн хувьд хэрэглэгчийн хуудсыг хүртэл хориглоно.
  4. Мөлхөх саатал - мөлхөхөөс өмнө мөлхөгч хэдэн секунд шаардагдахыг заана. Бот үүнийг баталгаажуулаагүй тохиолдолд хурдыг Google консол дээр тохируулна.
  5. Сайтын газрын зураг - URL-тай холбоотой аливаа XML газрын зургийг олоход ашигладаг.

Загвар тохирох

Үнэхээр URL-г хаах эсвэл Robots txt-г хүчинтэй болгох талаар ярихад, URL-ын хэд хэдэн боломжит параметрүүдийг хамрахын тулд загвар тохируулгыг ашиглах боломжийг олгодог тул үйлдлүүд нь нэлээд төвөгтэй байж болно. Google болон Bing хоёулаа SEO-ийн хасахыг хүсч буй хуудас эсвэл дэд хавтаснуудыг тодорхойлох хоёр тэмдэгтийг ашигладаг. Хоёр тэмдэгт нь од () ба долларын тэмдэг ($) бөгөөд энд:тэмдэгтүүдийн дарааллыг илэрхийлдэг орлуулагч тэмдэг юм. $ - URL-н төгсгөлтэй тохирч байна.

Google нь Robots txt файлыг хэрхэн зөв тохируулахыг хэрэглэгчдэд тайлбарлах боломжтой загвар синтаксуудын томоохон жагсаалтыг санал болгодог. Зарим нийтлэг хэрэглээний тохиолдлууд:

  1. Хайлтын илэрцэд давхардсан контент гарч ирэхээс сэргийлнэ.
  2. Вэбсайтын бүх хэсгийг нууцал.
  3. Нээлттэй мэдэгдэлд үндэслэн хайлтын үр дүнгийн дотоод хуудсыг хадгал.
  4. Байршлыг заана уу.
  5. Хайлтын системийг тодорхой индексжүүлэхээс сэргийлнэфайлууд.
  6. Олон контентын хэсгийг нэгэн зэрэг скан хийх үед дахин ачаалахыг зогсоохын тулд мөлхөх саатлыг зааж өгч байна.

Робот файл байгаа эсэхийг шалгаж байна

Хэрэв сайт дээр мөлхөх шаардлагатай хэсэг байхгүй бол robots.txt огт хэрэггүй. Хэрэв хэрэглэгч энэ файл байгаа гэдэгт эргэлзэж байвал тэр үндсэн домэйныг оруулаад URL-ын төгсгөлд дараах зүйлийг бичих хэрэгтэй: moz.com/robots.txt. Хэд хэдэн хайлтын роботууд эдгээр файлуудыг үл тоомсорлодог. Гэсэн хэдий ч, дүрмээр бол эдгээр мөлхөгчид нэр хүндтэй хайлтын системд хамаарахгүй. Эдгээр нь спам илгээгч, шуудангийн нэгтгэгч болон бусад төрлийн автомат роботууд бөгөөд интернетэд элбэг байдаг.

Роботыг хасах стандартыг ашиглах нь аюулгүй байдлын үр дүнтэй арга хэмжээ биш гэдгийг санах нь маш чухал юм. Үнэн хэрэгтээ зарим роботууд нь хэрэглэгч сканнердах горимд тохируулсан хуудсуудаас эхэлж болно. Стандарт онцгой файлд орох хэд хэдэн хэсэг байдаг. Робот ямар хуудсан дээр ажиллах ёсгүйг хэлэхээсээ өмнө ямар роботтой ярихаа зааж өгөх хэрэгтэй. Ихэнх тохиолдолд хэрэглэгч "бүх роботууд" гэсэн утгатай энгийн мэдэгдлийг ашигладаг.

SEO оновчлол

SEO оновчлол
SEO оновчлол

Оновчлохын өмнө хэрэглэгч тойрч гарах шаардлагатай контент эсвэл сайтын хэсгийг блоклохгүй байх ёстой. Зөв Robots txt-ээр хаасан хуудсуудын холбоосыг үл хүндэтгэх болно. Энэ нь: гэсэн үг

  1. Хэрэв тэдгээр нь хайлтын системд боломжтой бусад хуудсуудтай холбогдоогүй бол, өөрөөр хэлбэл. хуудас,robots.txt эсвэл мета роботоор блоклогдоогүй бөгөөд холбогдох нөөцийг мөлхөхгүй тул индексжүүлэх боломжгүй.
  2. Хоологдсон хуудаснаас холбоосын очих газар руу ямар ч холбоос дамжуулах боломжгүй. Хэрэв ийм хуудас байгаа бол robots.txt-ээс өөр блоклох механизм ашиглах нь дээр.

Бусад хуудсууд хувийн мэдээлэл агуулсан хуудас руу шууд холбогдож болох тул та энэ хуудсыг хайлтын илэрцээс хаахыг хүсэж байгаа тул нууц үгийн хамгаалалт эсвэл noindex мета өгөгдөл гэх мэт өөр аргыг ашиглаарай. Зарим хайлтын системд олон хэрэглэгчийн агентууд байдаг. Жишээлбэл, Google органик хайлтанд Googlebot, зураг хайлтанд Googlebot-Image ашигладаг.

Ижил хайлтын системийн ихэнх хэрэглэгчийн агентууд ижил дүрмийг дагаж мөрддөг тул хэд хэдэн мөлхөгч тус бүрт заавар зааж өгөх шаардлагагүй, гэхдээ үүнийг хийх боломжтой байх нь сайтын агуулгыг мөлхөж байгааг нарийн тааруулж чадна. Хайлтын систем нь файлын агуулгыг кэш болгодог бөгөөд ихэвчлэн өдөрт дор хаяж нэг удаа кэштэй агуулгыг шинэчилдэг. Хэрэв хэрэглэгч файлаа өөрчилж, ердийнхөөс хурдан шинэчлэхийг хүсвэл robots.txt URL-г Google-д илгээх боломжтой.

Хайлтын систем

Робот файл байгаа эсэхийг шалгаж байна
Робот файл байгаа эсэхийг шалгаж байна

Robots txt хэрхэн зөв ажилладгийг ойлгохын тулд хайлтын системийн чадамжийн талаар мэдэх хэрэгтэй. Товчхондоо, тэдний чадвар нь программууд болох "сканнер" илгээдэгт оршиномэдээлэл авахын тулд интернетээс хайж байна. Дараа нь тэд энэ мэдээллийн заримыг дараа нь хэрэглэгчдэд дамжуулахын тулд хадгалдаг.

Олон хүмүүсийн хувьд Google аль хэдийн интернет болсон. Үнэндээ тэдний зөв, учир нь энэ нь түүний хамгийн чухал шинэ бүтээл байж магадгүй юм. Хайлтын системүүд байгуулагдсан цагаасаа хойш маш их өөрчлөгдсөн ч үндсэн зарчмууд нь хэвээрээ байна. "Бот" эсвэл "аалз" гэгддэг мөлхөгчид олон тэрбум вэбсайтаас хуудсыг олдог. Хайлтын системүүд нь тэдэнд хаашаа явах талаар заавар өгдөг бол тус бүр сайтууд нь роботуудтай холбогдож, аль хуудсуудыг нь үзэх ёстойг хэлж өгөх боломжтой.

Ерөнхийдөө сайтын эзэд хайлтын системд харагдахыг хүсдэггүй: админ хуудас, арын портал, категори, шошго болон бусад мэдээллийн хуудас. Robots.txt файлыг хайлтын системүүд хуудсыг шалгахаас сэргийлж бас ашиглаж болно. Товчхондоо, robots.txt нь вэб мөлхөгчдөд юу хийхийг хэлж өгдөг.

Хуудсуудыг хориглох

Энэ нь роботыг хассан файлын гол хэсэг юм. Энгийн тунхаглалаар хэрэглэгч бот эсвэл бүлэг ботуудад тодорхой хуудсыг мөлхөж болохгүй гэж хэлдэг. Синтакс нь энгийн бөгөөд жишээлбэл, сайтын "админ" лавлах дахь бүх зүйлд хандахыг хориглохын тулд дараахыг бичнэ үү: Зөвшөөрөхгүй: / админ. Энэ мөр нь роботуудыг yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html болон админы лавлах доорх бүх зүйлийг мөлхөхөөс сэргийлнэ.

Нэг хуудсыг зөвшөөрөхгүй бол зүгээр л зөвшөөрөхгүй мөрөнд зааж өгнө үү: Зөвшөөрөхгүй: /public/exception.html. Одоо "үл хамаарах" хуудасшилжихгүй, гэхдээ "нийтийн" фолдерт байгаа бусад бүх зүйл шилжих болно.

Олон хуудас оруулахын тулд зүгээр л жагсаана уу:

Лавлах ба хуудаснууд
Лавлах ба хуудаснууд

Симфони хөгжимд зориулсан зөв Robots txt-ийн эдгээр дөрвөн мөр нь https://www.symphonyspace.org/ сайтынrobots.txt хэсгийн дээд хэсэгт жагсаасан аливаа хэрэглэгчийн агентад хамаарах болно.

Хуудсуудыг хориглох
Хуудсуудыг хориглох

Сайтын зураг:

Бусад тушаалууд:live - вэб мөлхөгчдийг cpresources/ эсвэл provider/-ыг индексжүүлэхийг бүү зөвшөөр.

Хэрэглэгчийн агент:Зөвшөөрөхгүй: /cpresources/.

Татгалзах: / борлуулагч / Зөвшөөрөхгүй: /.env.

Стандарт тогтоох

Хэрэглэгч өмнөх хоёр элементийг нэгтгэснээр өөр өөр роботуудад зориулсан тодорхой хуудсуудыг зааж өгч болно, энэ нь иймэрхүү харагдаж байна. Бүх хайлтын системд тохирох Robots txt-н жишээг доор үзүүлэв.

Стандартуудыг тогтоох
Стандартуудыг тогтоох

"Админ" болон "хувийн" хэсэг нь Google болон Bing-д харагдахгүй боловч Google "нууц" лавлахыг харсаар байх болно, харин Bing харагдахгүй. Та одтой хэрэглэгчийн агентыг ашиглан бүх роботуудад зориулсан ерөнхий дүрмийг зааж өгч, дараа нь дараах хэсгүүдэд роботуудад тусгай зааварчилгаа өгч болно. Дээрх мэдлэгтэй бол хэрэглэгч бүх хайлтын системд тохирох Robots txt жишээг бичиж болно. Дуртай текст засварлагчаа ажиллуулаад сайтын зарим хэсэгт тэднийг хүлээж авахгүй байгаа роботуудад хэлээрэй.

Серверийн гүйцэтгэлийг сайжруулах зөвлөмж

SublimeText ньолон талын текст засварлагч, олон програмистуудын алтан стандарт. Түүний програмчлалын зөвлөмжүүд нь үр дүнтэй кодчилол дээр суурилдаг. хэрэглэгчид программд товчлол байгаа эсэхийг үнэлдэг. Хэрэв хэрэглэгч robots.txt файлын жишээг үзэхийг хүсвэл аль ч сайт руу орж төгсгөлд нь "/robots.txt" гэж нэмэх хэрэгтэй. Энд GiantBicycles robots.txt файлын нэг хэсэг байна.

Хөтөлбөр нь хэрэглэгчдийн хайлтын системд харуулахыг хүсэхгүй байгаа хуудсыг үүсгэх боломжийг олгодог. Мөн цөөхөн хүний мэддэг хэд хэдэн онцгой зүйлтэй. Жишээлбэл, robots.txt файл нь роботуудад хаашаа явах ёсгүйг зааж өгдөг бол sitemap файл нь эсрэгээр нь хийж, хайж буй зүйлээ олоход тусалдаг ба хайлтын системүүд сайтын газрын зураг хаана байгааг аль хэдийн мэддэг байсан ч олж авдаггүй. замд.

Хоёр төрлийн файл байдаг: HTML хуудас эсвэл XML файл. HTML хуудас нь вэбсайт дээрх бүх хуудсуудыг зочдод харуулдаг хуудас юм. Өөрийн robots.txt дээр энэ нь иймэрхүү харагдаж байна: Sitemap://www.makeuseof.com/sitemap_index.xml. Хэрэв сайтыг вэб роботууд хэд хэдэн удаа мөлхсөн ч хайлтын системээр индексжүүлээгүй бол та файл байгаа эсэх, зөвшөөрлийг нь зөв тохируулсан эсэхийг шалгах хэрэгтэй.

Өгөгдмөлөөр энэ нь бүх SeoToaster суулгацад тохиолдох боловч хэрэв шаардлагатай бол та үүнийг дараах байдлаар дахин тохируулж болно: Файл robots.txt - 644. PHP серверээс хамаарч, хэрэв энэ нь хэрэглэгчдэд тохирохгүй бол Дараахыг туршиж үзэхийг зөвлөж байна: Файл robots.txt - 666.

Скан хийх саатлыг тохируулж байна

Тойрох саатлын заавар нь тодорхой мэдээлэл өгдөгхайлтын системүүд сайт дээрх хуудсыг хэр олон удаа индексжүүлэх боломжтой. Энэ нь секундээр хэмжигддэг боловч зарим хайлтын системүүд үүнийг арай өөрөөр тайлбарладаг. Зарим хүмүүс скан хийх бүрийн дараа дараагийнхыг эхлүүлэхийн тулд таван секунд хүлээхийг хэлэхэд 5 удаа мөлхөж байгааг хардаг.

Бусад нь үүнийг таван секунд тутамд зөвхөн нэг хуудсыг сканнердах заавар гэж тайлбарладаг. Серверийн зурвасын өргөнийг хэмнэхийн тулд робот илүү хурдан скан хийх боломжгүй. Хэрэв сервер нь урсгалыг тааруулах шаардлагатай бол тойрч гарах саатлыг тохируулж болно. Ерөнхийдөө ихэнх тохиолдолд хэрэглэгчид энэ талаар санаа зовох шаардлагагүй байдаг. Найман секундын мөлхөх саатлыг ингэж тохируулсан - Мөлхөх саатал: 8.

Гэхдээ бүх хайлтын системүүд энэ удирдамжийг дагаж мөрддөггүй тул хуудсуудыг зөвшөөрөхгүй байх үед та тодорхой хайлтын системд өөр өөр мөлхөх саатлыг тохируулж болно. Файлын бүх зааврыг тохируулсны дараа та үүнийг сайтад байршуулах боломжтой бөгөөд эхлээд энэ нь энгийн текст файл бөгөөд robots.txt нэртэй бөгөөд yoursite.com/robots.txt хаягаас олж болно.

Шилдэг WordPress бот

Шилдэг WordPress бот
Шилдэг WordPress бот

WordPress сайтад хааяа түгжих шаардлагатай зарим файл, лавлах байдаг. Хэрэглэгчид зөвшөөрөхгүй байх ёстой сангууд нь cgi-bin лавлах ба стандарт WP лавлахууд юм. Зарим серверүүд cgi-bin лавлах руу хандахыг зөвшөөрдөггүй ч хэрэглэгчид Robots txt WordPress-ийг зөв тохируулахын өмнө үүнийг зөвшөөрөхгүй байх зааварт оруулах ёстой

Стандарт WordPress сангууд,Хаах ёстой нь wp-admin, wp-content, wp-includes. Эдгээр сангууд нь хайлтын системд анхнаасаа хэрэгтэй өгөгдөл агуулаагүй боловч үл хамаарах зүйл байдаг, өөрөөр хэлбэл wp-контент директорт uploads нэртэй дэд лавлах байдаг. WP медиа байршуулах функцийг ашиглан ачаалагдсан бүх зүйлийг багтаасан учраас энэ дэд лавлахыг robot.txt файлд зөвшөөрөх ёстой. WordPress нь агуулгыг зохион байгуулахдаа шошго эсвэл категори ашигладаг.

Хэрэв категори ашиглаж байгаа бол програмын үйлдвэрлэгчийн зааж өгсөн Wordpress-д Robots txt-г зөв бичихийн тулд хайлтаас хаягийн архивыг хаах шаардлагатай. Эхлээд тэд "Захиргаа" самбар> "Тохиргоо"> "Тогтмол холбоос" руу орж мэдээллийн санг шалгана.

Өгөгдмөлөөр талбар хоосон байвал үндсэн нь шошго болно: Зөвшөөрөхгүй: / шошго /. Хэрэв категори ашигласан бол robot.txt файл дахь категорийг идэвхгүй болгох ёстой: Зөвшөөрөхгүй: /категори/. Анхдагч байдлаар, үндсэн талбар нь хоосон байвал шошго болно: Зөвшөөрөхгүй: / шошго /. Хэрэв категори ашигласан бол robot.txt файл дахь категорийг идэвхгүй болгох ёстой: Зөвшөөрөхгүй: / ангилал /.

Агуулгыг харуулахад ашигладаг файлуудыг Wordpress-т зориулсан зөв Robots txt файлаар блоклох болно:

Wordpress-т зориулсан роботууд txt
Wordpress-т зориулсан роботууд txt

Joomla үндсэн тохиргоо

Хэрэглэгч Joomla-г суулгасны дараа та хяналтын самбарт байрлах глобал тохиргооноос Joomla Robots txt тохиргоог зөв харах хэрэгтэй. Энд байгаа зарим тохиргоо нь SEO-д маш чухал юм. Эхлээд сайтын нэрийг олж, үүнийг шалгаарайсайтын богино нэрийг ашигласан болно. Дараа нь тэд ижил дэлгэцийн баруун талд SEO тохиргоо гэж нэрлэгддэг бүлэг тохиргоог олдог. Өөрчлөх ёстой зүйл бол хоёр дахь нь: дахин бичих URL ашиглах.

Энэ нь төвөгтэй мэт санагдаж байгаа ч Joomla-д илүү цэвэр URL үүсгэхэд тусалдаг. Хэрэв та URL-аас index.php мөрийг устгавал хамгийн их анзаарагддаг. Хэрэв та үүнийг дараа нь өөрчилбөл URL-ууд өөрчлөгдөх бөгөөд Google-д таалагдахгүй. Гэсэн хэдий ч, энэ тохиргоог өөрчлөх үед Joomla-д зориулсан зөв робот txt файлыг үүсгэхийн тулд хэд хэдэн алхамыг нэгэн зэрэг хийх шаардлагатай:

  1. Joomla үндсэн фолдероос htaccess.txt файлыг олоорой.
  2. Үүнийг.htaccess гэж тэмдэглэ (өргөтгөл байхгүй).
  3. Сайтын нэрийг хуудасны гарчигт оруулна уу.
  4. Глобал тохиргооны дэлгэцийн доод хэсгээс мета өгөгдлийн тохиргоог ол.

Үүлэн дэх робот MODX

MODX Cloud дахь робот
MODX Cloud дахь робот

Өмнө нь MODX Cloud нь хяналтын самбар дээрх унтраалга дээр тулгуурлан robots.txt файлд үйлчлэхийг зөвшөөрөх үйлдлийг хянах боломжийг хэрэглэгчдэд олгодог байсан. Энэ нь ашигтай байсан ч Хяналтын самбар дээрх сонголтыг сэлгэх замаар шатлалт/хөгжүүлэгч сайтууд дээр индексжүүлэхийг санамсаргүйгээр зөвшөөрөх боломжтой байсан. Үүнтэй адилаар үйлдвэрлэлийн сайт дээр индексжүүлэлтийг идэвхгүй болгоход хялбар байсан.

Өнөөдөр уг үйлчилгээ нь файлын системд robots.txt файл байгаа гэж үзэж байна: modxcloud.com-оор төгссөн аливаа домэйн нь зөвшөөрөгдөхгүй байх болно: / байгаа эсэхээс үл хамааран бүх хэрэглэгчийн агентуудад зориулсан заавар эсвэл файл байхгүй байна. Жинхэнэ зочдын урсгалыг хүлээн авдаг үйлдвэрлэлийн сайтууд хэрэв хэрэглэгч өөрийн сайтыг индексжүүлэхийг хүсвэл өөрийн домайныг ашиглах шаардлагатай болно.

Зарим байгууллагууд Контекст ашиглан нэг суулгацаас олон вэб сайт ажиллуулахын тулд modx-д зориулсан зөв Robots txt-г ашигладаг. Үүнийг ашиглаж болох тохиолдол нь олон нийтийн маркетингийн сайт болон үндсэн хуудасны микро сайтууд болон олон нийтийн бус дотоод сүлжээ байж болно.

Уламжлал ёсоор олон хэрэглэгчийн суулгацын хувьд үүнийг хийхэд хэцүү байдаг, учир нь тэд ижил сүлжээний үндэстэй байдаг. MODX Cloud-ийн тусламжтайгаар энэ нь хялбар юм. Дараах контент бүхий robots-intranet.example.com.txt нэртэй вэб сайт руу нэмэлт файл байршуулахад л хангалттай. Энэ нь сайн ажилладаг роботуудаар индексжүүлэхийг хориглох бөгөөд бусад тусгай нэрийн зангилаа байхгүй бол бусад бүх хостын нэрүүд стандарт файлууд руу буцах болно.

Robots.txt нь хэрэглэгчийг Google, томоохон хайлтын систем болон бусад вэбсайтууд дээрх сайт руу холбоход тусалдаг чухал файл юм. Вэб серверийн үндсэн хэсэгт байрлах уг файл нь вэб роботуудад Bot Exclusion Protocol хэмээх зааврыг ашиглан сайтыг мөлхөж, аль хавтсыг индексжүүлэх эсвэл индексжүүлэхгүй байхыг зааж өгдөг. Бүх хайлтын системд тохирох Robots txt-ийн жишээг obots.txt SeoToaster ашиглан хийхэд хялбар байдаг. Хяналтын самбарт түүнд зориулсан тусгай цэс үүсгэсэн тул бот хандахын тулд хэт их ажиллах шаардлагагүй болно.

Зөвлөмж болгож буй: