🥣05.Python 4

9 février 2023

On continue dans l'apprentissage de BeautifulSoup pour :

  • contourner différents obstacles pouvant entraver votre moissonnage, comme des entêtes HTTP ou des cookies

  • moissonner localement de grosses pages

  • essayer la version mobile d'un site

  • extraire de l'information de documents XML

Et on approfondit le moissonnage à l'aide d'autres exercices. Il se peut qu'on doive aussi parachever la matière qu'on n'aura pas eu le temps de couvrir dans les semaines précédentes.

Je vais aussi vous parler du travail pratique de moissonnage (ou devoir 3) à remettre la semaine prochaine.

Vous devrez rédiger un carnet qui moissonne les textes d'un•e journaliste ou chroniquer•euse de votre choix. On se servira plus tard de ces textes pour entraîner un modèle de langue. Votre carnet devra :

  • contenir suffisamment de commentaires pour que je comprenne ce qu'il fait.

  • afficher suffisamment d'information dans votre carnet pour qu'on puisse en suivre le déroulement.

  • produire un fichier CSV contenant les textes de cette personne :

    • pour l'année 2022 (à condition qu'elle ait publié 100 textes ou plus en 2022), ou

    • 100 textes (ou idéalement plus) publiés sur un nombre entier d'années (2 années ou plus).

Vous me le remettez par Moodle, comme d'habitude (devoir3.ipynb). Tous les détails se trouvent dans la section Travaux.

Commencez à y travailler dès que possible. Je vais répondre à vos questions pendant la semaine si vous éprouvez des problèmes.

Dernière mise à jour