Projet de Traitement de Données avec Apache Spark

Ce projet contient plusieurs notebooks et scripts pour le traitement de données avec Apache Spark. Voici un aperçu des différentes parties du projet :

Notebooks Principaux

1. Machine Learning

DiabeteDetection.ipynb : Détection du diabète en utilisant l'apprentissage automatique avec Spark ML.

2. Analyse de Données

movies.ipynb : Analyse des données de films, y compris le filtrage par genres et l'analyse des notes.
log.ipynb : Traitement et analyse de fichiers journaux (logs).

3. Traitement de Texte

wordcount.ipynb : Comptage de mots simple à partir d'un texte.

3. Données en Temps Réel

WeatherStreaming.ipynb : Analyse des données météorologiques en temps réel.
StreamingWordCount.ipynb : Comptage de mots en temps réel avec Spark Streaming.

4. Connexion aux Bases de Données et transformation des données

ConnectDatabase.ipynb : Exemples de connexion à différentes bases de données avec Spark.
Join.ipynb : Exemples d'opérations de jointure entre différents jeux de données.

Structure des Données

Le dossier data/ contient les fichiers de données utilisés dans les notebooks :

diabetes.csv : Données sur le diabète
discours.txt : Fichier texte pour l'analyse de texte
log.txt : Fichier de logs pour l'analyse
movies_metadata.csv : Métadonnées des films

Configuration Requise

Apache Spark
Python 3.9
Bibliothèques Python : pyspark

Installation

Installer Apache Spark depuis le site officiel

Utilisation

Chaque notebook peut être exécuté indépendamment. Assurez-vous d'avoir démarré une session Spark avant d'exécuter les notebooks.

Auteur

Made with ❤️ by Abdoiu Khadre DIOP

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Projet de Traitement de Données avec Apache Spark

Notebooks Principaux

1. Machine Learning

2. Analyse de Données

3. Traitement de Texte

3. Données en Temps Réel

4. Connexion aux Bases de Données et transformation des données

Structure des Données

Configuration Requise

Installation

Utilisation

Auteur

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 36 Commits
.idea		.idea
.ipynb_checkpoints		.ipynb_checkpoints
data		data
guideline		guideline
plugin		plugin
ConnectDatabase.ipynb		ConnectDatabase.ipynb
DiabeteDetection.ipynb		DiabeteDetection.ipynb
Join.ipynb		Join.ipynb
StreamingWordCount.ipynb		StreamingWordCount.ipynb
WeatherStreaming.ipynb		WeatherStreaming.ipynb
log.ipynb		log.ipynb
movies.ipynb		movies.ipynb
readme.md		readme.md
wordcount.ipynb		wordcount.ipynb

djili/data-processing

Folders and files

Latest commit

History

Repository files navigation

Projet de Traitement de Données avec Apache Spark

Notebooks Principaux

1. Machine Learning

2. Analyse de Données

3. Traitement de Texte

3. Données en Temps Réel

4. Connexion aux Bases de Données et transformation des données

Structure des Données

Configuration Requise

Installation

Utilisation

Auteur

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages