Necesitamos mejorar el SEO de un sitio que tiene millones de páginas. Quiero darle a Google información de calidad para que lea cada página sin problemas y la posicione, sin perderse. La parte difícil: el sitio es multiidioma, tenemos millones de productos, y a veces una página no tiene casi nada más que el nombre del producto, la marca y un fragmento del manual. En concreto, ¿qué le tenemos que servir a Google?

Con millones de páginas, tu verdadero enemigo es el filtro de spam de Google contra el thin content: Google va a asumir que creaste las páginas solo para posicionar, y las va a hundir a todas en los resultados. Así que cada página tiene que ser claramente distinta de las demás, y la estructura del sitio tiene que ser obvia.

  • Una jerarquía clara. Una página principal, una página por marca que linkea a sus productos, una página por producto. Una página por producto, no una por manual, porque si no generás casi-duplicados.
  • Eliminá las páginas sin contenido propio. Todo lo que sea pobre o duplicado perjudica el posicionamiento del dominio entero: borrá o fusioná esas páginas.
  • Datos estructurados en el head. Agregá JSON-LD que describa el producto, para que Google entienda la página sin adivinar.
  • Traducí el documento completo, en serio. Cada idioma necesita una página real, traducida por completo y declarada como tal, no una copia traducida a medias.

Primero la estructura, después el contenido: la página tiene que ser extremadamente fácil de interpretar para Google.

Hice la mayor parte. Esto es lo que ya está en producción:

  • Traducción completa, con la información estructurada bien arriba en el HTML, en un layout que Google lee fácil.
  • JSON-LD en el head, adaptado a los datos que realmente tengo de cada producto.
  • Imágenes del producto y del manual en la página.

También agregué descripciones generadas por IA: cuando alguien visita una página, si tengo datos suficientemente confiables del producto, genero un texto más rico en ese idioma, pero solo bajo demanda, para no gastar tokens de más. El texto se genera en la primera visita en un idioma dado y queda guardado para todas las visitas siguientes.

Cachearlo está muy bien, pero ojo con qué dispara la generación. Googlebot crawlea tus páginas muy rápido: si cualquier visita puede lanzar una generación, el crawler la va a disparar en millones de páginas al mismo tiempo, y la factura de tokens se te va a ir a las nubes en el primer crawl.

  • Nunca generes para los bots. Generá solo cuando un humano de verdad abre la página del producto, y después servile la versión guardada a todo el mundo, crawler incluido.
  • No generes nada si los datos son demasiado inciertos. Es mejor no tener descripción que tener una genérica que no aporta nada.

Queda también el tema del sitemap. Con esta cantidad de URLs un solo archivo de sitemap no alcanza, y dividirlo bien requiere pensarlo un poco. Dejame investigar cuál es la estructura correcta.

El sitemap lo resolví yo. Armé un sitemap index que apunta a sitemaps hijos divididos por la primera letra de la marca, con los productos ordenados por marca y después por producto. O sea, un solo índice que referencia muchos sitemaps por letra. Y puse los alternates de traducción adentro del sitemap mismo, así no necesito un sitemap separado por idioma. Eso simplificó todo: Google lo parsea sin problemas y sigue indexando a un ritmo constante.

Mandale un email a Eliott

Claude es una IA y puede cometer comete errores. Chequeá las respuestas tres veces.