Práctica 5 de Minería de Datos
Ejercicios libres con
Curso de Postgrado Minería de Datos
Máster y Postgrado del DSIC Universitat Politècnica de València
José Hernández Orallo. ([email protected]). Diciembre 2006
Índice
1. 2. 3. Consejos para trabajar con grandes volúmenes de datos……………………………………………………………………… 2 Modo Batch (porlotes) ………………………………………………………………………………………………………………….. 2 Ejercicios Libres …………………………………………………………………………………………………………………………… 3 3.1 Tamaño Pequeño / Medio……………………………………………………………………………………………………….. 4 3.2 Gran Tamaño…………………………………………………………………………………………………………………………. 4 4. Otros Ejercicios Libres…………………………………………………………………………………………………………………… 5 En esta práctica, se plantea unconjunto de problemas sobre los cuales podrás elegir. Se deja completa libertad para extraer modelos, es decir para hacer una minería de datos autónoma. El tamaño y complejidad de los datos en esta tercera parte es mucho mayor, de hecho, algunos de los problemas son concursos de conferencias del campo. Por tanto ¡competiremos a un alto nivel!
1. Consejos para trabajar con grandes volúmenes dedatos
En primer lugar, para trabajar con datos de gran tamaño es posible que necesites cambiar la memoria disponible del Clementine. Esto se realiza en el menú Options Memory Limit. También puede ser recomendable en algún caso abrir más de una ventana del Clementine, para ir trabajando en una ruta mientras en otra se está calculando un modelo. No obstante, para grandes volúmenes los siguientesconsejos son fundamentales: • Realiza muestras de los datos para trabajar, inicialmente, con pequeños volúmenes. Una vez ya hayas clarificado atributos relevantes y modelos a extraer ya puedes trabajar con el volumen inicial. Agrega datos. Si tienes datos muy detallados (por día o por hora), intenta agregar los datos en semanas o meses. Lo mismo puedes hacer con productos y familias. Reducirás el tamañode una manera drástica y tendrás mayor manejo de los datos. Si las agregaciones son complejas realízalas en un Sistema de Gestión de Bases de Datos o en un Almacén de Datos y no en el Clementine. Elimina atributos redundantes o irrelevantes. Reserva un volumen importante de datos para validación (la validación cruzada suele ser lenta cuando el volumen es grande). Intenta analizar los datos ycomprender sus características básicas antes de intentar extraer modelos. Prueba los tipos de modelos más rápidos (C5.0, regresión o Kmeans) antes que otros modelos más lentos.
•
• • • •
Finalmente, si todo lo anterior no te ayuda a reducir el tiempo de extracción de los modelos puedes optar por la opción del modo Batch, que se describe en la siguiente sección:
2. Modo Batch (por lotes)La ejecución de algunos modelos puede ser bastante larga para trabajar interactivamente, o simplemente se desea que se realice a unas determinadas horas (por la noche, p.ej.). Para este tipo de situaciones, la ejecución de Clementine en modo Batch puede ser útil. Vamos a ver un ejemplo. Abre el directorio customer en “..LabKDD”. Allí, con el fichero “customer.txt” que ya usamos (puedes partir dela ruta que ya hiciste), crea una nueva ruta en el directorio como se muestra en la siguiente figura (puedes elegir otra ruta, siempre que no tenga nodos gráficos o tablas y la salida vaya a fichero):
2
Figura 2.1. Ruta para realizar en modo por lotes
Grábalo con el nombre “customer-batch.str”. Ahora, en el mismo directorio crea un fichero “batch.bat” y edítalo para que contenga las…