Trouver les notices manquantes sans intervention humaine

Ma plateforme sert déjà un catalogue énorme : plus de 10M de produits et 14M de notices, pour 150 000 marques. Mais les utilisateurs demandent régulièrement des notices qu'on n'a pas encore référencées, souvent des produits trop récents pour que l'équipe ait eu le temps de les ajouter. Je veux automatiser complètement ce sourcing, sans aucune étape manuelle. Tu vois quelles approches ?

Quelques pistes d'automatisation, de la plus simple à la plus complexe :

Demander à un LLM avec accès au web. Tu fais chercher Gemini, ou un modèle équivalent, et il te renvoie des liens PDF probables pour le produit et la marque.
Activer le crawling. Le modèle parcourt le web pour trouver la notice, au lieu de se reposer sur sa mémoire.

Commence par là : donne au modèle le produit et la marque, et regarde quelles URLs ressortent.

J'ai essayé. Après pas mal de tests, ça ne renvoie pas de vrais PDF de façon fiable, même avec la recherche activée. On dirait que Gemini et le crawler évitent de pointer directement vers des PDF, et je me retrouve avec plein d'URLs hallucinées qui finissent en 404.

Oui, la recherche IA généraliste ne te donnera pas de liens PDF fiables, et elle invente des URLs quand elle ne trouve rien. Va directement à la source : scrape toi-même la page de résultats, via des proxies de scraping.

Cherche comme le ferait un humain. Première requête : filetype:pdf plus le nom du produit et de la marque, et lis la vraie page de résultats (la SERP).
Récupère tous les candidats. Garde tous les liens PDF que la page renvoie, pas juste le seul lien deviné par un modèle.
Puis parse et classe. Télécharge chaque PDF, parse-le pour identifier son type, et garde le meilleur.

Avec le proxy, tu obtiens la page de résultats brute : tu travailles sur des PDF qui existent vraiment, pas sur des URLs inventées par le modèle.

C'est exactement ce que j'ai construit, avec Bright Data. Le pipeline :

Récupère jusqu'à 10 liens PDF depuis la SERP scrapée.
Vérifie que chaque fichier se télécharge vraiment : URL accessible, pas de barrière anti-bot, fichier qui se charge bien.
Parse chaque PDF avec l'IA pour le catégoriser : notice d'utilisation, manuel d'installation, etc.
Classe le tout selon les critères définis pour la marque, déduplique, et ressort le meilleur document plus les 5 candidats suivants.

L'utilisateur reçoit la bonne notice, sans aucune intervention de l'équipe.

Envoyer un email à Eliott

Écrivez votre message ici : il s'ouvrira dans votre messagerie.

Claude est une IA et ~~peut se tromper~~ se trompe. Vérifiez ses réponses trois fois plutôt qu'une.