EN

Robots.txt in Magento 2: Ce este si cum il configuram

Continuam seria de pe blog #SEO4Magento cu un articol in care iti spunem cum sa iti configurezi fisierul robots.txt in Magento 2, dar pe langa asta, ne-am gandit sa iti explicam in primul rand ce este robots.txt, cum este structurat si care sunt regulile de scriere ale fisierului. Daca parcurgi pana la final articolul, vei gasi un model dupa care sa te ghidezi pentru a putea sa iti creezi propriul fisier robots.txt.

Ca sa iti fie mai usor sa intelegi, voi face o paralela cu un exemplu din lumea reala. Daca te numeri printre persoanele care obisnuiesc sa mearga la sala de fitness poate ai observat afisat undeva, intr-un coltisor, un set de reguli care vizeaza comportamentul celor care vin la sala.

Imagineaza-ti ca tu esti robotul, setul de reguli este fisierul robots.txt, iar sala este website-ul. La fel cum clientii sunt “instruiti” de cum ar trebui sa se comporte la sala, la fel si noi cu robots.txt le spunem crawlerilor acelasi lucru. Asa cum exista clienti bine crescuti care respecta toate regulile, precum robotii de la Google si Bing, la fel exista si clientii de la polul opus, spambotii, care citesc regulile, dar nu tin cont de ele. 

Ce este fisierul robots.txt?

Robots.txt este un element absolut esential oricarui site, fiind primul fisier cerut de catre roboti inainte de orice sesiune de indexare. Acest document le da instructiuni robotilor despre site, ce pagini au sau nu au voie sa viziteze. El poarta denumirea de The Robots Exclusion Protocol. Lipsa acestuia poate in multe cazuri sa duca la blocarea indexarii. Daca fisierul este prezent, acesta trebuie:

  • Sa blocheze doar directoarele sau URL-urile care nu se doresc indexate.
  • Sa nu fie acelasi robots.txt din mediul de dezvoltare care previne indexarea site-ului.

Cel mai simplu mod prin care poti verifica daca site-ul tau are fisierul robots.txt este sa accesezi urmatorul link: www.site.ro/robots.txt.

Sintaxa fisierului robots.txt

Verificand fisierul mai multor site-uri, vei vedea ca nu exista un model standard pentru toate si ca fiecare are directive diferite. Exista doua exemple basic:

Permiti tuturor robotilor sa iti acceseze toate paginile

Interzici tuturor robotilor sa iti acceseze paginile

Prin “User-agent” mentionam carui robot ne adresam:

  • User-agent: *: directivele sunt adresate tuturor robotilor 
  • User-agent: Googlebot, User-agent: Bingbot: directivele se adreseaza doar anumitor roboti

Regula: Daca in cadrul aceluiasi fisier vrei sa te adresezi mai multor roboti, atunci pentru fiecare in parte trebuie sa mentionezi directivele.

Prin directiva “Disallow” le transmiti robotilor:

  • Disallow:   : lasand un spatiu gol le permiti accesul pe orice pagina
  • Disallow: /: le interzici sa iti acceseze site-ul, chiar si homepage-ul
  • Disallow: /customer/: le interzici accesul pe o pagina sau un director specific

Regula: Pentru fiecare prefix de URL care vrei sa fie exclus, foloseste un rand separat. Nu le insirui pe toate folosind o singura data directiva Disallow.

Pe langa cele doua mentionate anterior, User-agent si Disallow, pot fi folosite si urmatoarele:

  • Allow: valabil doar pentru Googlebot. Poate permite accesarea unui subfolder chiar daca accesul  la folderul principal este interzis. Crawlerii tin cont de ordinea directivelor din fisier, asa ca ai grija ce adaugi prima data.

  • Crawl-delay: precizezi cate secunde vrei ca robotul sa astepte intre request-uri. Cu toate acestea, John Muller ofera explicatii intr-un video de ce Google NU tine cont de aceasta directiva.

  • Sitemap: la sfarsitul fisierului se adauga un link catre sitemap-ul XML al site-ului.

Pentru a lasa comentarii in cadrul fisierului poti sa folosesti simbolul “#”.

Pentru mai multe exemple de fisiere robots.txt acceseaza ghidul Google.

IMPORTANT: Nu folosi fisierul robots.txt ca sa ascunzi informatii sau pagini care nu vrei sa fie accesate.

De ce?

  • Fisierul este public, astfel ca oricine il poate accesa si ar putea vedea ce parti vrei sa ascunzi
  • Fisierul este ignorat de anumiti roboti (spambots), al caror scop este sa afle vulnerabilitatile site-ului tau

Ce poti face?

  • Poti proteja datele private prin folosirea de parole
  • Incluzi noindex meta tag in codul HTML al paginii respective

Regula: Daca incluzi noindex pe o pagina, atunci asigura-te ca acea pagina nu este blocata si din fisierul robots.txt pentru ca atunci robotul nu ajunge sa vada directiva noindex, iar pagina va putea fi accesata din rezultatele de cautare daca exista link catre ea de pe o alta pagina web.

Cum configuram un fisier robots.txt?

Avand in vedere ca Magento nu va mai oferi suport din iunie 2020 pentru Magento 1, migrarea la Magento 2 este un MUST, de aceea o sa iti arat cum sa adaugi fisierul robots.txt.

Dupa ce ai accesat admin panel-ul, navighezi la Content -> Configuration, apoi click pe Edit din primul rand. Dai scroll pana la Search Engine Robots unde o sa iti apara:

Pentru Default Robots, poti alege din cele 4 variante:

INDEX, FOLLOW: crawlerii iti vor indexa site-ul si vor reveni pe site-ul tau pentru a verifica daca au aparut update-uri.

NOINDEX, FOLLOW: crawlerii nu iti vor indexa magazinul online, dar vor reveni pentru a verifica daca exista update-uri.

INDEX, NOFOLLOW: crawlerii iti vor indexa site-ul o data, dar nu vor urmari daca exista alte update-uri.

NOINDEX, NOFOLLOW: crawlerii nu iti vor indexa site-ul si nu iti vor urmari update-urile.

Pentru a adauga un fisier robots.txt cu directive custom trebuie sa le adaugi in box-ul Edit custom Instruction of Robots.txt file.

Directive Default

Restrictionare Cont user & Checkout Pages

Restrictionare Search pages

Restrictionare URL-uri de filtre

Restrictionare Directoare CMS

Dupa ce ai adaugat directivele, nu uita la final sa adaugi si link cu sitemap-ul site-ului. In Magento 2, atunci cand iti configurezi sitemap-ul, poti bifa sa iti includa automat sitemap-ul in fisierul robots.txt. Poti face asta navigand la Stores -> Configuration -> Catalog -> XML Sitemap -> Search Engine Submission Settings.

Dupa ce ai urmat acesti pasi poti da click pe Save Configuration si apoi sa verifici URL-ul fisierului pentru a te asigura ca totul este in regula.

Dupa cum ai observat mai exista si butonul de “Reset to Defaults” care iti permite sa revii la forma initiala a setarilor in cazul in care ai adaugat anumite directive si nu le mai doresti apoi. 

Cum iti poti verifica fisierul robots.txt?

Daca vrei sa te asiguri ca ceea ce ai introdus in fisierul robots.txt blocheaza crawlerii Google pentru a nu accesa anumite URL-uri de pe site-ul tau, atunci cea mai simpla metoda este sa verifici cu robots.txt Tester. Pentru a-l putea accesa trebuie sa ai un cont de Search Console pentru site-ul tau.

Introdu URL-ul care te intereseaza, selecteaza unul dinte robotii Google, apoi click pe “Test”. Exista doua variante: fie o sa iti apara Allowed daca URL-ul este vizibil pentru crawler sau Blocked in cazul in care crawler-ului ii este interzis accesul.

Tot din contul de Search Console, daca navighezi la Index -> Coverage vei vedea care sunt paginile din site blocate de robots.txt.

Ce trebuie sa retii despre robots.txt?

  • Ceea ce scriem in fisierul robots.txt sunt directive. Asta inseamna ca crawlerii pot sa iti indexeze site-ul chiar daca tu ii instruiesti sa NU o faca. Lucrul important este ca robotii de la Google, Bing, Yahoo si Yandex onoreaza aceste directive.
  • Fisierul robots.txt trebuie scris folosind codare de tip UTF-8.
  • Dimensiunea fisierului trebuie sa nu depaseasca 500kb.
  • Denumirea fisierului trebuie sa fie robots.txt, nu sunt acceptate alte versiuni Robots.txt, ROBOTS.TXT.
  • Este mai bine sa iti creezi chiar si un fisier robots.txt gol, decat sa nu ai deloc. Nu dorim ca atunci cand crawlerii vor cauta aceasta pagina sa gaseasca Error 404 – Not found.
  • Asigura-te ca directivele din robots.txt sunt in concordanta cu meta robots tag de pe paginile individuale.
  • Paginile care sunt blocate pentru crawleri prin robots.txt si prin meta robots tags trebuie sa fie excluse din sitemap.xml.
  • Creeaza cate un fisier robots.txt pentru fiecare subdomeniu in parte.

***

Plecand de la un model universal al fisierului robots.txt pentru Magento 2, iti poti crea propriul fisier, personalizandu-l in functie de particularitatile magazinului tau online. Dupa cum am promis, iti oferim un exemplu de Robots.txt mai cuprinzator pe care sa il folosesti ca punct de plecare pentru fisierul tau. Poti adauga directive sau le poti elimina pe cele care nu se aplica site-ului tau:

Descarca Modelul Robots.txt Magento 2

Daca nu este setat corespunzator, robots.txt iti poate crea mari probleme ce tin de indexare. Acum ca ti-am explicat cele mai importante aspecte ce tin de fisierul robots.txt, verifica-l pe al tau. Daca ai nevoie de ajutor in optimizarea magazinului tau online, haide sa avem o discutie.

Intrebari frecvente

Ce este fisierul robots.txt?

Prin intermediul fisierului le dai instructiuni robotilor motoarelor de cautare despre site, ce pagini au sau nu au voie sa viziteze.

Cum configurez fisierul robots.txt?

Ai mai multe posibilitati. Poti scrie directivele intr-un text editor precum Notepad apoi trebuie sa stii cum sa il adaugi la root directory. Daca folosesti Magento 2 sau WordPress atunci poate fi mai simplu de setat din admin-ul site-ului.

Ce reprezinta disallow din fisierul robots.txt?

Disallow reprezinta directiva prin care ii spui robotului pe ce pagina ii este interzis accesul.

Ce se intampla daca nu am un fisier robots.txt?

Atunci cand robotii cauta aceasta pagina vor gasi Error 404 - Not found. In plus, acorzi oricarui robot posibilitatea de a accesa orice pagina a site-ului tau.

Alina Schiopu

SEO Specialist la Netlogiq
Sa folosesc Google e usor. Sa inteleg cum functioneaza nu e la fel de usor. E un prieten de nadejde, dar care iti mai pune uneori si bete-n roate. Este o adevarata provocare sa "optimizez" relatia noastra zbuciumata de prietenie.
Alina Schiopu

Ultimele postari ale lui Alina Schiopu (vezi toate)

Scrie un comentariu

Esti gata sa incepem?
Contacteaza-ne pentru o discutie initiala
Contacteaza-ne