content top

DMCloud : Une perspective d’architecture.

DMCloud : Une perspective d’architecture.

Présentation

L’article que je vous propose aujourd’hui est le fruit de plusieurs semaines de travail, de reflexion et de recherche. Il s’agit d’un travail de conception d’un framework permettant d’executer des algorithmes de fouille de données dans un environnement de cloud computing de manière optimale. En même temps j’ai voulu exploiter les outils existants en me basant aussi sur d’autres expériences dans ce domaine.
Dans cette vision architecturale je suis parti du principe qu’une application de fouille de données devait respecter d’abord les standards tels que CRISP-DM. Egalement, une application de fouille de données doit être vue comme une séquence de tâches utilisateurs composées par un outil orienté-service qui effectuent une ou plusieurs tâches de fouille de données. Une telle application inclue des algorithmes exécutables de fouilles de données, des utilitaires, des librairies etc..
Cette vision architecturale n’est biensûr pas exhaustive. Je présente ma solution laquelle constitue une réponse possible à cette problématique. Afin de partager mes idées et ma vision avec le plus grand nombre de personnes j’ai rédigé cet article en anglais, ce qui m’a demandé d’avantages d’efforts et merci de votre indulgence pour les fautes que vous trouverez dans le texte.
Read More

Application de K-Means à la définition du nombre de VM optimal dans un Cloud

Application de K-Means à la définition du nombre de VM optimal dans un Cloud

Résumé

Ce papier présente les premiers éléments de définition d’un algorithme permettant de  déterminer le nombre optimal de machines virtuelles (VM – Virtual Machines) lors de  l’exécution des applications de fouille de données dans un environnement Cloud. L’efficacité  de traitement des problèmes de fouille de données requiert d’obtenir au préalable un  partitionnement intelligent de données par clustering de manière à effectuer le plus  indépendamment que possible les traitements des fragments de données à cohérence sémantique forte.

Nous pensons que l’exécution sur les données distribuées dans le Cloud d’une variante parallèle de l’algorithme de clustering h-means adaptée en phase de présélection du processus PMML [18] pour (Predictive Model Markup Language) permettrait d’assurer un partitionnement optimal des données et de déterminer un nombre de VM optimal avant l’exécution de l’application.

Mots-clés : Cloud computing, h-means, classification, parallélisme dans des grilles, partitionnement de données, fouille de données.

Read More

L’algorithme A-priori

L’algorithme A-priori

Définitions :

L’algorithme A-priori1 est un algorithme d’exploration de données conçu en 1994, par Rakesh Agrawal et Ramakrishnan Sikrant, dans le domaine de l’apprentissage des règles d’association. Il sert à reconnaître des propriétés qui reviennent fréquemment dans un ensemble de données et d’en déduire une catégorisation.

A-Priori détermine les règles d’association présentes dans un jeu de données, pour un seuil de support et un seuil de confiance fixés. Ces deux valeurs peuvent être fixées arbitrairement par l’utilisateur. (Continuer la lecture…)

Read More
content top