Al weer enige tijd geleden las ik het artikel How To Improve Your SEO With Robots.txt and Canonical Headers, waar Ivan Dabic van MaxCDN je probeert te helpen met SEO advies voor als je een Content Delivery Network gebruikt. Je mag toch verwachten een grote partij als MaxCDN de kennis in huis heeft om juist advies te geven. Niks is minder waar, MaxCDN blundert met SEO advies!
Het artikel bleek al geruime tijd te bestaan, de oudste reactie dateert alweer van twee jaar geleden:
Great post Ivan!!
Net als die eerste reactie kun je er nog vele ‘bedankjes’ vinden. Laat je door dit soort reacties niet in de war brengen, en blijf zelf kritisch. Mijn bevindingen waren namelijk dat het advies op vele vlakken totaal niet klopt. Om dit aan de kaak te stellen en tevens mijn bevindingen te laten checken door andere ‘collegae’, heb ik een topic geopend in het Webmaster Central Help Forum: MaxCDN giving WRONG advice about indexing images placed on CDN.
Ik moet zeggen, Ivan was er als de kippen bij om ook in te haken op de discussie aldaar, en inmiddels heeft hij het artikel aangepast. Om te leren van het foutieve advies, heb ik dit voor je bewaard:
De blunders van MaxCDN
1. Duplicate content penalty
search engines can penalize sites for “duplicate content”
Het klopt dat het gebruik van een CDN duplicate content kan veroorzaken, en dat een canonical link element hiervoor een oplossing biedt. Mocht je het duplicate content probleem om welke reden dan ook niet oplossen, is het niet zo dat je daarvoor een duplicate content penalty van Google zult krijgen. Ik heb dit reeds uitgebreid behandeld in een eerder artikel: Duplicate content en SEO.
2. Verkeerde canonieke URL voor afbeeldingen
Crawlers see your site the way you do, including loading content from CDNs. This can cause problems because you want the original paths to appear in search results, not the paths on the CDN
Dit is deels waar, maar niet voor de URL’s van afbeeldingen! En laten ze nou net het voorbeeld van canonicals uitwerken met een afbeelding als uitgangspunt bij punt 3, Test your responses. Hoe het wel moet heb ik reeds behandeld in een eerder artikel: Afbeeldingen via CDN, duplicate content oplossingen! Vergeet ook niet de afbeeldinglinks in je XML Sitemap aan te passen. Hoe dit moet voor de WordPress SEO plugin van Yoast leg ik dit uit in het artikel Wijzigen afbeeldinglink in sitemap WordPress SEO.
3. HTTP header canonical voor afbeeldingen
Fout 2 zoals hierboven beschreven betekent dat MaxCDN in de HTML van een webpagina linkt naar een afbeelding via de CDN URL http://cdn.domain.com/path/to/file.jpg
, maar deze geindexeerd wil hebben in Google via de oorspronkelijk URL http://domain.com/path/to/file.jpg
.
Hoewel dat dus al niet juist is, gaat de oplossing die ze aandragen om dit realiseren ook niet helpen!
Als content via twee of meerdere URL’s beschikbaar is kun je Google de gewenste URL die geindexeerd moet worden doorgegeven via een canonical. Voor een HTML document kan dit via het canonical link element. Voor andere bestanden, zoals PDF documenten, kun je een canonieke link opgeven in je HTTP header.
MaxCDN adviseert in hun artikel om de HTTP header ook te gebruiken voor afbeeldingen, maar die oplossing heeft helemaal geen effect. In het artikel van Google over Canonieke URL’s:
Google ondersteunt deze linkheaderelementen momenteel alleen voor Google Zoeken.
Dit zal dus niet gaan werken voor Google Afbeeldingen, ook wel Image Search genoemd.
4. Canonical onzichtbaar maken voor Google door blokkade robots.txt
Op het moment dat je een canonieke URL aan Google doorgeeft via een canonical link element of de HTTP header, moet het bestand wel leesbaar/toegankelijk zijn voor de crawler van Google. Hoe moet Google anders weten welke URL jij als canonieke URL hebt opgegeven?
Hier maakt MaxCDN het helaas nog bonter in hun advies. Ze maken wel gebruik van een canonical, maar blokeren vervolgens de crawler van Google via een robots.txt bestand voor alle bestanden die via de CDN URL’s beschikbaar zijn:
Update your robots.txt Your origin server has its own robots.txt, available at the root of the site. On the CDN, change your custom robots.txt settings (under the “SEO” tab in the control panel) and decide what content to allow. Once canonical URLs are setup, you can save bandwidth by blocking all crawlers from the CDN itself:
User-agent: * Disallow: /
Make sure this “block everything” robots.txt goes on your CDN, not your origin server.
Duplicate content moet gewoon door Google gecrawled kunnen worden, de canonical zal in de meeste gevallen door Google gerespecteerd worden waarmee je dus het duplicate content probleem hebt opgelost.
Dit is hetzelfde principe wat ik uitleg in mijn artikel over crawlen, indexeren en robots.txt voor WordPress:
Robots meta tags and X-Robots-Tag HTTP headers are discovered when a URL is crawled. If a page is disallowed from crawling through the robots.txt file, then any information about indexing or serving directives will not be found and will therefore be ignored. If indexing or serving directives must be followed, the URLs containing those directives cannot be disallowed from crawling.
Heeft Ivan geleerd van mijn topic in het Google Webmaster Central Help Forum? Je kunt het lezen in het verbeterde artikel. Het onderdeel waar het om gaat noemt Ivan nu ‘Setting Up a “Crawler Friendly” CDN’. Heeft hij het nu bij het juiste eind?
Geef een reactie