Sistemas operativos

SISTEMAS OPERATIVOS
Descubrimiento de Conocimiento en Bases de Datos (KDD)

Minería de Datos (MD)

2

Introducción
De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación de la información yese modelo representen un valor agregado, entonces nos referimos al conocimiento. En la figura siguiente se ilustra la jerarquía que existe en una base de datos entre datos, información y conocimiento. Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa

jerarquía. El área interna dentro del triángulo representa los objetivosque se han propuesto. La separación del triángulo representa la estrecha unión entre dato e información, no así entre la información y el conocimiento.

La capacidad de generar y almacenar información creció considerablemente en los últimos tiempos, se ha estimado que la cantidad de datos en el mundo almacenados en bases de datos se duplica cada 20 meses. Es así que hoy las organizacionestienen gran cantidad de datos almacenados y organizados, pero a los cuales no les pueden analizar eficientemente en su totalidad. Con las sentencias SQL se puede realizar un primer análisis, aproximadamente el 80% de la información se obtiene con estas técnicas. El 20% restante, que la mayoría de las veces, contiene la información más importante, requiere la utilización de técnicas más avanzadas. ElDescubrimiento de Conocimiento en Bases de Datos (KDD)apunta a procesar automáticamente grandes cantidades de

3

datos para encontrar conocimiento útil en ellos, de esta manera permitirá al usuario el uso de esta información valiosa para su conveniencia.

Descubrimiento de Datos (KDD)
KDD

de

Conocimiento

en

Bases

El

es el

“Proceso no trivial de identificar patronesválidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de los datos ”. (Fayyad et al., 1996)

El objetivo fundamental del KDD es encontrar conocimiento útil, válido, relevante y nuevo sobre un fenómeno o actividad mediante algoritmos eficientes, dadas las crecientes órdenes de magnitud en los datos. Al mismo tiempo hay un profundo interés por presentar losresultados de manera visual o al menos de manera que su interpretación sea muy clara. Otro aspecto es que la interacción humano-máquina deberá ser flexible, dinámica y colaboradora. El resultado de la exploración deberá ser interesante y su calidad no debe ser afectada por mayores volúmenes de datos o por ruido en los datos. En este sentido, los algoritmos de descubrimiento de información deben seraltamente robustos.

Metas
Las metas del KDD son: Ø Procesar crudos. Ø Identificar los patrones más significativos y relevantes. Ø Presentarlos como conocimiento apropiado para satisfacer las metas del usuario. automáticamente grandes cantidades de datos

4

Relación con otras disciplinas

KDD nace como interfaz y se nutre de diferentes disciplinas:

Ø Sistemas de información / bases dedatos: tecnologías de bases de datos y bodegas de datos, maneras eficientes de almacenar, accesar y manipular datos.

Ø Estadística, aprendizaje automático / IA (redes neuronales, lógica difusa, algoritmos genéticos, razonamiento probabilístico): desarrollo de técnicas para extraer conocimiento a partir de datos.

Ø Reconocimiento de patrones: desarrollo de herramientas de clasificación.

ØVisualización de datos: interfaz datos, y entre humanos y patrones.

entre

humanos

y

Ø Computación paralela / distribuida: cómputo de alto desempeño, mejora de desempeño de algoritmos debido a su complejidad y a la cantidad de datos.

Ø Interfaces de lenguaje natural a bases de datos.

5

Gráficamente éstas relaciones pueden ser representadas de la siguiente manera:

6…