Premier regard sur l’infrastructure de proxy et de scraping de Thordata
En visitant le site web de Thordata, la première chose qui me frappe, c’est la vaste gamme d’offres regroupées sur une seule plateforme. Thordata se présente comme un service de proxy de haute qualité pour le scraping de données web, mais le tableau de bord révèle bien plus : des proxies résidentiels (plus de 100 millions d’IP dans plus de 190 pays), des proxies mobiles, des proxies ISP statiques et des proxies de centre de données, accompagnés d’une suite d’API de scraping — SERP API, Web Scraper API (avec plus de 120 scrapers préconstruits), Web Unlocker et un Scraping Browser. Le site liste également des ensembles de données prêts à l’emploi et, notamment, des solutions de données vidéo conçues pour l’entraînement de modèles d’IA, dont un ensemble de 6 milliards de vidéos provenant de 700 millions de chaînes. La mise en page est propre, avec des catégories de produits claires et des prix affichés en ligne. Je me suis inscrit à l’essai gratuit (aucune carte de crédit requise) et j’ai rapidement testé le rotateur de proxy résidentiel via une simple commande cURL issue de la documentation. La réponse a été rapide, l’IP correctement masquée, et aucun CAPTCHA n’a bloqué la requête. Pour un journaliste qui scrape régulièrement des agrégateurs d’avis, cela ressemblait à une amélioration significative par rapport à la gestion manuelle des proxies.
Comment Thordata sert les équipes IA et données
Thordata n’est pas qu’un simple courtier de proxies ; c’est une infrastructure complète pour l’acquisition de données web, particulièrement pertinente pour la programmation IA. La section « Data for AI » de la plateforme cible explicitement l’entraînement des LLM et des modèles multimodaux, en proposant des ensembles de données vidéo et un scraper de données vidéo qui s’intègre au stockage cloud. Le Web Unlocker utilise une rotation intelligente des en-têtes et l’empreinte numérique du navigateur pour contourner les mesures anti-bot, tandis que le Scraping Browser (alimenté par une technologie de navigateur furtif) permet l’exécution de scripts headless avec rendu complet. Lors des tests, le SERP API a renvoyé des résultats Google en temps réel avec une structure identique à la page de recherche organique — un atout pour quiconque construit des données d’entraînement pour des modèles d’IA liés à la recherche. Sous le capot, Thordata ne précise pas quels modèles alimentent son unlocker ou sa logique de rotation de proxies, mais la promesse d’une disponibilité de 99,9 % et l’extension Chrome suggèrent une ingénierie robuste. Les intégrations incluent des exemples de code en Python, Node.js et Java dans la documentation, ainsi qu’une API publique pour un contrôle programmatique. Pour les développeurs, cela signifie moins de temps passé à contourner les blocages et plus de temps à entraîner des modèles.
Tarifs et principaux différenciateurs
Les tarifs de Thordata sont transparents et compétitifs : les proxies résidentiels commencent à 1,05 $/Go (avec une promotion de 50 % de réduction), les proxies mobiles à 2,20 $/Go, les ISP statiques à 0,75 $/IP, et les proxies de centre de données à 0,75 $/IP. Les API de scraping sont facturées par requête : 0,70 $/1K pour le SERP API, 0,50 $/1K pour le Web Scraper API, 1,00 $/1K pour le Web Unlocker et 2,5 $/Go pour le Scraping Browser. Les ensembles de données coûtent 0,25 $/1K enregistrements. Contrairement à Oxylabs ou Bright Data, qui exigent souvent un montant minimum de dépenses ou des engagements annuels, Thordata propose un essai gratuit et aucune carte de crédit n’est requise pour l’inscription. Les programmes de revendeur et d’affiliation (jusqu’à 50 % de commission) sont également uniques. Cependant, une limite est l’absence d’un niveau tarifaire dédié à l’IA pour les ensembles de données vidéo — la section « Data for AI » est toujours facturée par enregistrement ou par Go, ce qui peut grimper de façon imprévisible pour de grands volumes d’entraînement. De plus, la plateforme ne propose pas d’outil intégré d’étiquetage ou de nettoyage des données, contrairement à certains concurrents (comme Apify ou Zyte) qui les fournissent en option.
Qui devrait utiliser Thordata (et qui ne le devrait pas)
Thordata est particulièrement adapté aux startups IA, aux data scientists et aux équipes données d’entreprise qui ont besoin de proxies fiables et impossibles à bloquer, ainsi que de scrapers préconstruits pour alimenter les modèles d’IA avec des données web réelles. Les ensembles de données vidéo et le scraper sont particulièrement utiles pour la recherche sur les modèles multimodaux ou l’entraînement de LLM vidéo. Les amateurs à petite échelle peuvent trouver le tarif par Go élevé par rapport à des solutions gratuites comme Scrapy avec des proxies gratuits, mais pour un scraping à grande échelle de qualité production, la fiabilité de Thordata (99,9 % de disponibilité) et sa couverture dans 190 pays justifient le coût. Qui devrait chercher ailleurs ? Quiconque a besoin d’une solution de proxy unique et simple pour un usage occasionnel (Thordata l’a, mais c’est excessif) ou les équipes qui nécessitent un nettoyage/étiquetage intégré des données — Thordata ne dispose pas encore de telles fonctionnalités. Dans l’ensemble, Thordata comble le fossé entre les pools de proxies bruts et les pipelines de données IA avec un niveau de finition remarquable. Leur accent mis sur les données vidéo pour les LLM les distingue sur un marché de plus en plus encombré. Visitez Thordata à l’adresse https://thordata.com/ pour le découvrir par vous-même.
Commentaires