Ce projet contient plusieurs notebooks et scripts pour le traitement de données avec Apache Spark. Voici un aperçu des différentes parties du projet :
- DiabeteDetection.ipynb : Détection du diabète en utilisant l'apprentissage automatique avec Spark ML.
- movies.ipynb : Analyse des données de films, y compris le filtrage par genres et l'analyse des notes.
- log.ipynb : Traitement et analyse de fichiers journaux (logs).
- wordcount.ipynb : Comptage de mots simple à partir d'un texte.
- WeatherStreaming.ipynb : Analyse des données météorologiques en temps réel.
- StreamingWordCount.ipynb : Comptage de mots en temps réel avec Spark Streaming.
- ConnectDatabase.ipynb : Exemples de connexion à différentes bases de données avec Spark.
- Join.ipynb : Exemples d'opérations de jointure entre différents jeux de données.
Le dossier data/
contient les fichiers de données utilisés dans les notebooks :
diabetes.csv
: Données sur le diabètediscours.txt
: Fichier texte pour l'analyse de textelog.txt
: Fichier de logs pour l'analysemovies_metadata.csv
: Métadonnées des films
- Apache Spark
- Python 3.9
- Bibliothèques Python : pyspark
- Installer Apache Spark depuis le site officiel
Chaque notebook peut être exécuté indépendamment. Assurez-vous d'avoir démarré une session Spark avant d'exécuter les notebooks.
Made with ❤️ by Abdoiu Khadre DIOP