Compartir este chat
Cualquiera que tenga el link puede ver esta conversación.
Mi plataforma ya sirve un catálogo enorme: más de 10M de productos y más de 14M de manuales, de 150.000 marcas. Pero los usuarios siguen pidiendo manuales que todavía no tenemos cargados, en general de productos demasiado nuevos como para que el equipo haya llegado a agregarlos. Quiero conseguirlos de forma automática, sin ningún paso manual. ¿Qué enfoques me sugerís?
Algunas opciones automatizadas, de la más simple a la más compleja:
- Preguntale a un LLM con acceso a la web. Hacé que Gemini, u otro modelo parecido, busque y te devuelva links de PDF probables para el producto y la marca.
- Activá el crawling. Dejá que el modelo recorra la web buscando el manual, en vez de depender de su memoria.
Arrancá por ahí: pasale al modelo el producto y la marca, y fijate qué URLs aparecen.
Lo probé. Después de varias pruebas, no devuelve PDFs reales de forma confiable, ni siquiera con la búsqueda activada. Parece que Gemini y el crawler evitan linkear PDFs directamente, y me llegan un montón de URLs alucinadas que dan 404.
Claro, la búsqueda con IA de propósito general no te va a dar links de PDF confiables, e inventa URLs cuando no encuentra nada. Mejor andá directo a la fuente: scrapeá vos mismo la página de resultados, usando proxies de scraping.
- Buscá como buscaría una persona. Primera query:
filetype:pdfmás el nombre del producto y de la marca, y leé la página de resultados real (la SERP). - Juntá todos los candidatos. Quedate con todos los links de PDF que devuelve la página, no solo con el único link que adivinó un modelo.
- Después parseá y rankeá. Descargá cada PDF, parsealo para identificar de qué tipo es, y devolvé el mejor.
Con el proxy obtenés la página de resultados sin filtrar: trabajás con PDFs que existen de verdad, no con URLs que el modelo inventó.
Eso es exactamente lo que armé, con Bright Data. El pipeline:
- Trae hasta 10 links de PDF de la SERP scrapeada.
- Verifica que cada uno se descargue de verdad: la URL no está bloqueada, no hay barrera anti-bot, el archivo carga bien.
- Parsea cada PDF con IA para categorizarlo: manual de usuario, manual de instalación, etcétera.
- Rankea todo según los criterios que definí para esa marca, elimina duplicados, y devuelve el mejor documento más los 5 candidatos que siguen.
El usuario recibe el manual correcto sin que nadie del equipo tenga que hacer nada.
Mandale un email a Eliott
Escribí tu mensaje acá: se abre directo en tu app de correo.
Mandale un email a Eliott
¡Mensaje enviado!
Eliott te va a responder pronto.
¿Te presentás?
Es solo para que Eliott sepa con quién habla. Lo único obligatorio es tu nombre.
Claude es una IA y puede cometer comete errores. Chequeá las respuestas tres veces.