content top

DMCloud : Une perspective d’architecture.

DMCloud : Une perspective d’architecture.

Présentation

L’article que je vous propose aujourd’hui est le fruit de plusieurs semaines de travail, de reflexion et de recherche. Il s’agit d’un travail de conception d’un framework permettant d’executer des algorithmes de fouille de données dans un environnement de cloud computing de manière optimale. En même temps j’ai voulu exploiter les outils existants en me basant aussi sur d’autres expériences dans ce domaine.
Dans cette vision architecturale je suis parti du principe qu’une application de fouille de données devait respecter d’abord les standards tels que CRISP-DM. Egalement, une application de fouille de données doit être vue comme une séquence de tâches utilisateurs composées par un outil orienté-service qui effectuent une ou plusieurs tâches de fouille de données. Une telle application inclue des algorithmes exécutables de fouilles de données, des utilitaires, des librairies etc..
Cette vision architecturale n’est biensûr pas exhaustive. Je présente ma solution laquelle constitue une réponse possible à cette problématique. Afin de partager mes idées et ma vision avec le plus grand nombre de personnes j’ai rédigé cet article en anglais, ce qui m’a demandé d’avantages d’efforts et merci de votre indulgence pour les fautes que vous trouverez dans le texte.
Read More

L’algorithme FP-Growth – Construction du FP-tree (2/3)

L’algorithme FP-Growth – Construction du FP-tree (2/3)

 

Présentation:

Cet article est le deuxième article de la série concernant l’algorithme FP-Growth. Dans le premier article j’ai présenté l’algorithme, son fonctionnement global ainsi que ses avantages et inconvénients.

Dans cet article je vais introduire la construction d’une structure FP-tree. Pour rappel, l’algorithme FP-Growth utilise une structure de donnée appelée Frquent Pattern tree. Il permet de trouver les itemsets fréquents dans une base de transactions. Grace à la structure FP-tree on conserve l’ensemble des éléments fréquents de la base des transactions dans une structure compacte. Ainsi il n’est plus nécessaire de devoir parcourir la base de transactions. De plus, ces éléments se retrouvent triés ce qui accélère la recherche des règles d’association.

Read More

L’algorithme FP-Growth – Les bases (1/3)

L’algorithme FP-Growth – Les bases (1/3)

Présentation :

Nous avons vu que l’algorihme Apriori effectue plusieurs passes (scans) de la base de données. Ceci peut être très pénalisant lorsqu’il s’agit de données voluminineuses. Afn d’éviter les parcours répétés de la base de données, Han et al. [1] ont proposé  une méthode différente des approches par niveaux permettant d’extraire des itemsets fréequents sans génération de candidats.

Cette méthode s’appelle FP-growth (Frequent Pattern growth). Elle consiste d’abord à compresser la base de données en une structure compacte appelée FP-tree (Frequent Pattern tree), puis à diviser la base de donnees ainsi compressée en sous projections de la base de données appelées bases conditionnelles.

Chacune de ces projections est associée à un item fréquent. L’extraction des itemsets fréquents se fera sur chacune des projections séparement.

L’algorithme FP-growth apporte ainsi une solution au problème de la fouille de motifs fréquents dans une grande base de données transactionnelle. En stockant l’ensemble des éléments fréquents de la base de transactions dans une structure compacte, on supprimer la nécessité de devoir scanner de façon répétée la base de transactions. De plus, en triant les éléments dans la structure compacte, on accélère la recherche des motifs.

Read More

Application de K-Means à la définition du nombre de VM optimal dans un Cloud

Application de K-Means à la définition du nombre de VM optimal dans un Cloud

Résumé

Ce papier présente les premiers éléments de définition d’un algorithme permettant de  déterminer le nombre optimal de machines virtuelles (VM – Virtual Machines) lors de  l’exécution des applications de fouille de données dans un environnement Cloud. L’efficacité  de traitement des problèmes de fouille de données requiert d’obtenir au préalable un  partitionnement intelligent de données par clustering de manière à effectuer le plus  indépendamment que possible les traitements des fragments de données à cohérence sémantique forte.

Nous pensons que l’exécution sur les données distribuées dans le Cloud d’une variante parallèle de l’algorithme de clustering h-means adaptée en phase de présélection du processus PMML [18] pour (Predictive Model Markup Language) permettrait d’assurer un partitionnement optimal des données et de déterminer un nombre de VM optimal avant l’exécution de l’application.

Mots-clés : Cloud computing, h-means, classification, parallélisme dans des grilles, partitionnement de données, fouille de données.

Read More
content top