Le web scraping est un sujet qui fait peur à beaucoup d’entreprises. Est-ce légal de récupérer des données publiques sur un site web ? La réponse courte : ça dépend. La réponse longue est dans cet article.


Ce que dit le droit français

En France, aucune loi n’interdit spécifiquement le web scraping. Mais plusieurs textes s’appliquent selon le contexte :

  • Le droit des bases de données (directive 96/9/CE) : extraire la totalité ou une partie substantielle d’une base de données protégée est illégal sans autorisation du producteur.
  • Le RGPD : si les données scrappées contiennent des informations personnelles (noms, emails, téléphones), vous avez besoin d’une base légale de traitement.
  • L’article 323-1 du Code pénal : l’accès frauduleux à un système informatique est un délit. Contourner des mesures de protection (captcha, authentification) pour scraper est risqué.
  • Les CGU du site : bien que leur valeur juridique soit débattue, les violer pourrait constituer une faute contractuelle.
⚠️ Règle générale

Scraper des données publiques non personnelles, sans contourner de mesures de protection, en respectant le robots.txt et sans surcharger le serveur, est généralement toléré. Dès que vous touchez à des données personnelles ou que vous contournez des protections, le risque juridique augmente considérablement.

Robots.txt et bonnes pratiques

Le fichier robots.txt est une convention, pas une obligation légale. Mais le respecter est une bonne pratique qui peut servir d’argument en cas de litige :

  • Vérifiez toujours le robots.txt avant de scraper un site.
  • Respectez les délais entre les requêtes (1 à 2 secondes minimum).
  • Identifiez votre bot avec un User-Agent clair et un email de contact.
  • Ne surchargez pas le serveur : si le site ralentit, réduisez la fréquence.

Le cas spécifique des données personnelles

C’est le point le plus sensible. La CNIL a clairement indiqué que la collecte de données personnelles par scraping nécessite une base légale au sens du RGPD :

  • L’intérêt légitime peut être invoqué pour de la veille concurrentielle, mais pas pour constituer des fichiers de prospection.
  • Les profils LinkedIn sont des données personnelles. Les scraper pour de la prospection sans consentement viole le RGPD.
  • Les avis Google ou TripAdvisor contiennent souvent des prénoms — c’est déjà une donnée personnelle en contexte.

Les usages légitimes pour l’intelligence économique

Le scraping est un outil puissant pour l’intelligence économique quand il est utilisé correctement :

  • Veille tarifaire : surveiller les prix de vos concurrents (données publiques, non personnelles).
  • Analyse de marché : agréger des données publiques sur un secteur (nombre d’offres d’emploi, tendances).
  • Monitoring de réputation : surveiller les mentions de votre marque sur le web.
  • Données publiques ouvertes : sites gouvernementaux, open data, publications scientifiques.
💡 Privilégiez les APIs

Avant de scraper, vérifiez si le site propose une API. C’est plus fiable, plus rapide, plus légal, et moins fragile. Google Maps, LinkedIn, Twitter/X, Amazon — tous proposent des APIs (souvent payantes mais légitimes).

Conclusion

Le web scraping est un outil légitime quand il est utilisé dans le respect du cadre légal. La clé : éviter les données personnelles, respecter le robots.txt, ne pas contourner de protections, et privilégier les APIs quand elles existent.

En cas de doute, consultez un avocat spécialisé en droit du numérique. Le coût d’une consultation (500 – 1 000 €) est dérisoire comparé au risque d’une amende CNIL.

Vous avez un projet de collecte de données et vous voulez le faire proprement ? Parlons-en.