Geekflare est soutenu par notre public. Nous pouvons gagner des commissions d'affiliation en achetant des liens sur ce site.
In AI Dernière mise à jour : 25 août 2023
Partager sur:
Scanner de sécurité des applications Web Invicti – la seule solution qui offre une vérification automatique des vulnérabilités avec Proof-Based Scanning™.

Un guide détaillé du web scraping à l'aide de ChatGPT Code Interpreter et de ses plugins.

Si vous n'aimez pas créer de nouveauté, il est probable que vous ayez besoin d'informations préalables pour commencer. Ou bien, vous souhaiterez peut-être vous tourner vers la concurrence pour obtenir des informations précieuses. De plus, il peut y avoir d’innombrables raisons pour lesquelles quelqu’un s’intéresse au contenu d’un site Web spécifique.

Le web scraping est le processus qui sert de tels cas d’utilisation.

Et il existe plusieurs façons de procéder. Il existe des outils lourds auxquels vous pouvez vous abonner pour le scraping professionnel de grands sites Web. Vous pouvez également avoir besoin d'une configuration spécifique pour le traitement sur site.

Quoi qu’il en soit, l’approche est coûteuse, longue et fastidieuse pour les débutants, en particulier pour gratter quelques pages Web.

Overview of ChatGPT for Web Scraping

Je ne suis pas censé vous présenter ChatGPT. Suis-je?

En bref, ChatGPT est une IA générative qui répond comme les humains. Vous obtenez une interface de chat pour lui demander d'effectuer diverses tâches, telles que se renseigner sur des événements historiques, rédiger des essais, résumer, traduire, coder, etc.

ChatGPT répond par texte. Cependant, il existe Plugins ChatGPT qui améliorent ses capacités de plusieurs manières. Et nous utiliserons un de ces plugins. De plus, nous utiliserons son Code Interpreter pour scraper des sites Web ayant des structures de pages Web compliquées ou avec des protocoles anti-scraping actifs.

Sachez que ChatGPT propose des versions gratuites et payantes. Mais vous aurez besoin de l'abonnement payant (actuellement 20 $ par mois) pour utiliser le plugin Web Scraper ou son moteur Code Interpreter.

Dans d’autres sections, j’illustrerai le processus étape par étape.

Avertissement: Avant de continuer vous-même, veuillez confirmer que le site Web en question autorise le scraping de son contenu. Sinon, vous pouvez contacter leur administrateur et voir s’ils le permettent pour vous éviter tout problème juridique.

Web Scraping Using ChatGPT Plugin

Se connecter à votre Compte OpenAI, survolez GPT-4 (sa version payante actuelle) et cliquez sur Extensions.

plugin chatgpt

Ensuite, cliquez sur Aucun plugin activé, faites défiler vers le bas et cliquez sur magasin de plugins.

magasin de plugins

Veuillez noter qu'au lieu de Aucun plugin activé, vous aurez une icône de plugin s'il y en a un qui est actif. Dans ce cas, vous devez cliquer sur cette icône pour ouvrir la liste déroulante et cliquer sur le magasin de plugins en bas.

Cela ouvrira la boutique de plugins. Rechercher Racloir et frapper Installer.

grattoir

Sélectionnez ce plugin dans l'interface ChatGPT.

grattoir activé

Une fois cette option sélectionnée, il faut inviter ChatGPT, en mentionnant l'URL du sujet et le contenu à gratter.

J'ai fait cela pour quelques sites Web. Regarde ça.

Scraper une publication

Nous sommes une publication axée sur la technologie et j'ai choisi notre page d'accueil, geekflare.com/ pour cette illustration.

Voici l'invite :

check this webpage: https://geekflare.com/ and prepare a table indicating the article title, author, publication date, and excerpt for the top 10 articles.
grattage geekflare

On peut également demander à nouveau de convertir les données au format CSV, de les coller dans un fichier texte avec l'extension .csv et de l'ouvrir dans un tableur comme MS Excel.

Supprimer une page Web d'offre ou de coupon

Les Section des offres Geekflare C'est là que nous avons sélectionné quelques offres sur des projets de haute technologie. Que diriez-vous de récupérer chaque transaction sous forme de tableau ?

Prepare a list of deals from this webpage: https://geekflare.com/deals/. present the result in a tabular format.
offres geekflare

Gratter Wikipédia

Summarize in tabular format the latest news from the "in the news" section from this wikipedia page: https://en.wikipedia.org/wiki/Main_Page
grattage wikipédia

Scraping des magasins de commerce électronique

Enfin, j'ai essayé de supprimer Amazon.com pour les ordinateurs portables en appliquant quelques filtres et en transmettant l'URL à ChatGPT. Voilà ce que j'ai obtenu :

bloqueur de grattage amazon

Le problème est qu'il ne s'agit pas d'un cas unique. Vous trouverez de nombreux cas de ce type où les sites Web disposent de mesures anti-scraping. Dans cette situation, vous devrez trouver une alternative pour obtenir les données si l'abonnement aux scrapers standards de l'industrie n'est pas une option.

Les sections suivantes présentent une de ces solutions.

Web Scraping Using ChatGPT Code Interpreter

Code Interpreter est un moteur ChatGPT récemment lancé pour répondre aux tâches liées à la programmation. Bien que le moteur par défaut s'appuie fortement sur les réponses textuelles, Code Iinterprète peut aider à visualiser les sorties, à analyser, déboguer et exécuter du code, à s'intégrer aux binaires logiciels et à faire beaucoup plus de choses centrées sur la programmation.

interpréteur de code chatgpt

Dans ce processus, nous téléchargerons la source HTML, téléchargez-le sur ChatGPT Code Interpreter et procédez au scraping.

J'ai pris cette page pour l'extraction :

exemple de page Amazon

Nous commencerons par enregistrer la page Web au format HTML. Pour cela, allez sur la page Web et appuyez sur Ctrl+S.

enregistrer le code HTML

Nous avons maintenant le fichier à gratter. Voyons l'invite.

rapide

En plus de l'invite de texte, vous pouvez voir que je lui ai donné des exemples d'éléments pour accélérer le scraping. Étant donné que les structures des pages Web d'Amazon sont complexes, sans ces exemples, la tentative de scraping pourrait échouer ou n'aboutir à rien.

Et obtenir ces éléments est assez simple. Faites un clic droit n'importe où sur la page Web en question et cliquez sur Inspecter du pop-over.

inspecter l'élément

Tout d’abord, cliquez sur l’icône la plus haute (marquée 1). Cela mettra en évidence les détails pendant que vous sélectionnez des éléments sur la page. Ensuite, sélectionnez l'élément conteneur pour un produit spécifique.

sélection de l'élément

Veuillez vous assurer de sélectionner le conteneur le plus intérieur. Vous pouvez passer la souris et il continuera à être mis en surbrillance. Au moment où vous obtenez le dernier shell couvrant ce bloc, vous pouvez cliquer et aller sur le côté droit pour copier le nom de l'élément. div class.

De même, sélectionnez les échantillons pour d’autres éléments.

télécharger-html

Enfin, téléchargez le code HTML et l'invite similaire à celle-ci :

check out this webpage html and extract the laptop titles, price, and ratings. present the result in a tabular format within this chat interface and also give the results in a CSV to download.

div class="s-card-container s-overflow-hidden aok-relative puis-include-content-margin puis puis-vfcg1duwvmpo42mcln9ojhiljk s-latency-cf-section s-card-border"
sample title element: span class="a-size-medium a-color-base a-text-normal"
sample price element: span class="a-price-whole"
sample ratings element: span class="a-size-base puis-bold-weight-text"

Cela prendra un certain temps pendant que ChatGPT Code Interpreter fait son travail. Vous aurez quelques détails, alors que tout sera dans le fichier CSV intégré.

chatgpt de grattage Web

Vous pouvez observer que le tableau comporte quelques entrées non présentes sur la page web d'origine, notamment au début. Dans de tels cas, vous devez revérifier et nettoyer les données pour détecter toute redondance.

S'il y en a, vous pouvez réinviter ChatGPT pour obtenir un nettoyage CSV.

Réflexions finales

ChatGPT fait beaucoup de choses, et le web scraping de base en fait partie. D'accord, cela pourrait ne pas convenir à quelqu'un qui gratte des centaines de pages. Néanmoins, cela vous permettra de démarrer dans la bonne direction et sera idéal pour une courte séance de grattage.

Dans ce guide, nous avons utilisé l'un de ses plugins de scraping et Code Interpreter. Bien que les plugins fonctionnent sur de nombreux sites Web standard, la deuxième méthode concerne les structures de pages Web personnalisées ou si la page comporte des éléments dynamiques (défilement sans fin, en savoir plus, etc.).

Et pour réitérer, parcourez les conditions du site Web en question avant de gratter.

PS : Découvrez ces solutions de scraping dans le cloud et la nôtre API de grattage Geekflare.

  • Hitesh Sant
    Auteur
    Hitesh travaille comme rédacteur principal chez Geekflare et s'intéresse à la cybersécurité, à la productivité, aux jeux et au marketing. De plus, il détient une maîtrise en génie des transports. Son temps libre consiste principalement à jouer avec son fils, à lire ou à mentir… lire la suite
Merci à nos commanditaires
Plus de bonnes lectures sur l'IA
Alimentez votre entreprise
Certains des outils et services pour aider votre entreprise à se développer.
  • Invicti utilise Proof-Based Scanning™ pour vérifier automatiquement les vulnérabilités identifiées et générer des résultats exploitables en quelques heures seulement.
    Essayez Invicti
  • Web scraping, proxy résidentiel, proxy manager, web unlocker, moteur de recherche et tout ce dont vous avez besoin pour collecter des données Web.
    Essayez Brightdata
  • Monday.com est un système d'exploitation de travail tout-en-un pour vous aider à gérer les projets, les tâches, le travail, les ventes, le CRM, les opérations, workflowset plus encore.
    Essayez Monday
  • Intruder est un scanner de vulnérabilités en ligne qui détecte les failles de cybersécurité de votre infrastructure, afin d'éviter des violations de données coûteuses.
    Essayez Intruder