El Descubrimiento del conocimiento en las Bases de Datos: herramientas y técnicas

Por Peggy Wright
This work is funded by
U.S. Army Corps Engineers
Waterways Experiment Station
Vicksburg, MS 39180

Traduccion: Gabriela Rivera

Introducción

Hoy en día, la cantidad de datos que ha sido recabada en las bases de datos, no esta lejos de exceder nuestra habilidad para reducir y analizar los datos sin el uso de técnicas de análisis automatizadas. Muchas bases de datos comerciales transaccionales y científicas crecen a una proporción fenomenal. Un sólo sistema, SCICAT es una aplicación del estudio astrológico, se espera que exceda tres terabytes de datos en su terminación [4]. El descubrimiento del conocimiento en las bases de datos (siglas en inglés KDD) es el campo que está evolucionando para proporcionar soluciones al análisis automatizado.

El descubrimiento del conocimiento se define como `` la extracción no trivial de información implícita, desconocida, y potencialmente útil de los datos'' [6]. En [5], se muestra una distinción clara entre el proceso de extracciónn de datos y el descubrimiento del conocimiento. Bajo sus convenciones, el proceso de descubrimiento del conocimiento toma los resultados tal como vienen de los datos (proceso de extraer tendencias o modelos de los datos) cuidadosamente y con precisión los transforma en información útil y entendible. Esta información no es típicamente recuperable por las técnicas normales pero es descubierta a través del uso de técnicas de AI.

KDD es un campo creciente: hay muchas metodologías del descubrimiento del conocimiento en uso y bajo desarrollo. Algunas de estas técnicas son genéricas, mientras otros son de dominio específico. El propósito de este artículo es presentar los resultados de un estudio que perfila lo innovador en las técnicas y herramientas de KDD. El artículo no intenta proporcionar una introducción profunda a cada método; más bien, nosotros intentamos familiarizar al lector con algunos enfoques acerca de KDD y usos potenciales.

Antecedentes

Aunque hay muchos enfoques a KDD, existen seis elementos comúnes y esenciales que califican al descubrimiento del conocimiento como una técnica. Las siguientes son características básicas que comparten todas las técnicas KDD (adaptado de [5] y [6]):

Se requiere de grandes cantidades de datos que proporcionen información suficiente para derivar un conocimiento adicional. Dado que se requieren grandes cantidades de datos, es esencial el proceso de la eficiencia. La exactitud es requerida para asegurar que el descubrimiento del conocimiento es válido. Los resultados deberán ser presentados de una manera entendible para el ser humano. Una de las premisas mayores de KDD es que el conocimiento es descubierto usando técnicas de aprendizaje inteligente que van examinando los datos a través de procesos automatizados. Para esta técnica el ser considerada útil para el descubrimiento del conocimiento, el descubrimiento del conocimiento debe ser interesante; es decir, debe tener un valor potencial para el usuario.

KDD proporciona la capacidad para descubrir información nueva y significativa usando los datos existentes. KDD rápidamente excede la capacidad humana para analizar grandes cantidades de datos. La cantidad de datos que requieren procesamiento y análisis en grandes bases de datos exceden las capacidades humanas y la dificultad de transformar los datos con precisión es un conocimiento que va más allá de los límites de las bases de datos tradicionales. Por consiguiente, la utilización plena de los datos almacenados depende del uso de técnicas del descubrimiento del conocimiento.

La utilidad de aplicaciones futuras en KDD es de largo alcance. KDD puede usarse como un medio de recuperación de información, de la misma manera que los agentes inteligentes realizan la recuperación de información en el Web. Nuevos modelos o tendencias en los datos podrán descubrirse usando estas técnicas. KDD también puede usarse como una base para las interfaces inteligentes del mañana, agregando un componente del descubrimiento del conocimiento a una máquina de bases de datos o integrando KDD con las hojas de cálculo y visualizaciones.

Técnicas de KDD

Los algoritmos de aprendizaje son una parte integral de KDD. Las técnicas de aprendizaje podrán ser supervisadas o no supervisadas. En general, las técnicas de aprendizaje dirigidas disfrutan de un rango de éxito definido por la utilidad del descubrimiento del conocimiento. De acuerdo a [1], los algoritmos de aprendizaje son complejos y generalmente considerados como la parte más dificíl de cualquier técnica KDD.

El descubrimiento de la máquina es uno de los campos más recientes que han contribuido para KDD [5]. Mientras el descubrimiento de la máquina confía solamente en métodos autónomos para el descubrimiento de la información, KDD tipicamente combina métodos automatizados con la interacción humana para asegurar resultados exactos, útiles, y entendibles.

Hay muchos métodos diferentes que son clasificados como las técnicas de KDD. Hay métodos cuantitativos, como los probabilisticos y los estadísticos. Hay métodos que utilizan las técnicas de visualización. Hay métodos de clasificación como la clasificación de Bayesian, lógica inductiva, descubrimiento de modelado de datos y análisis de decisión. Otros métodos incluyen la desviación y tendencia al análisis, algoritmos genéticos, redes neuronales y los métodos híbridos que combinan dos o más técnicas.

Debido a las maneras en que estas técnicas pueden usarse y combinarse, hay una falta de acuerdos de cómo estas técnicas deben categorizarse. Por ejemplo, el método de Bayesian puede agruparse lógicamente con los métodos probabilisticos, de clasificación o de visualización. Por causa de la organización, cada método descrito aquí es incluido en el grupo que mejor encaje. Sin embargo, esta selección no implica una categorización estricta.

Método Probabilistico

Esta familia de técnicas KDD utiliza modelos de representación gráfica para comparar las diferentes representaciones del conocimiento. Estos modelos estan basados en las probabilidades e independencies de los datos. Estos son útiles para aplicaciones que involucran incertidumbre y aplicaciones estructuradas tal que una probabilidad puede asignarse a cada uno de los ``resultados'' o pequeña cantidad del descubrimiento del conocimiento. Las técnicas probabilísticas pueden usarse en los sistemas de diagnóstico, planeación y sistemas de control [2]. Las herramientas del probabilidad automatizadas están disponibles en el dominio público y comercial.

Método estadístico

El método estadístico usa la regla del descubrimiento y se basa en las relaciones de los datos. El `` algoritmo de aprendizaje inductivo puede seleccionar automáticamente trayectorias útiles y atributos para construir las reglas de una base de datos con muchas relaciones'' [8]. Este tipo de inducción es usado para generalizar los modelos en los datos y construir las reglas de los modelos nombrados. El proceso analítico en línea (OLAP) es un ejemplo de un método orientado a la estadística. Las herramientas estadísticamente automatizadas están disponibles en el dominio público y comercial.

Un ejemplo de una aplicación estadística es determinando que todas las transacciones en una base de datos de ventas que empiezan con una transacciónn de cóndigo especificada son las ventas en efectivo. El sistema notaría que todas las transacciones en la base de datos que sólo el 60% son las ventas en efectivo. Por consiguiente, el sistema podrá concluir con precisión que el 40% son artículos fuera de serie.

Método de clasificación

La clasificación es probablemente el método más viejo y mayormente usado de todos los métodos de KDD [11]. Este método agrupa los datos de acuerdo a similitudes o clases. Hay muchos tipos de clasificación de técnicas y numerosas herramientas disponible que son automatizadas.

El método Bayesian de KDD ``es un modelo gráfico que usa directamente los arcos exclusivamente para formar un [sic] gráfica acíclica''[2]. Aunque el método Bayesian usa los medios probabilísticos y gráficos de representación, también es considerado un tipo de clasificación.

Se usan muy frecuentementelas las redes de Bayesian cuando la incertidumbre se asocia con un resultado puede expresarse en términos de una probabilidad. Este método cuenta con un dominio del conocimiento codificado y ha sido usado para los sistemas de diagnóstico. Otras aplicaciones de reconocimiento de patrones, incluyendo el Modelo Markov Oculto, puede ser modelado usanso un método de Bayesian [3]. Las herramientas automatizadas están disponibles en el dominio público y comercial.

El descubrimiento de patrones y de datos es otro tipo de clasificación que sistemáticamente reduce una base de datos grande a unos cuantos archivos informativos [7]. Si el dato es redundante y poco interesante se elimina, la tarea de descubrir los patrones en los datos se simplificada. Este método trabaja en la premisa de un dicho viejo, `` menos es más''. El descubrimiento de patrones y las técnicas de limpia de datos son útiles para reducir volúmenes enormes de datos en las aplicaciones, tal como aquéllos encontrados al analizar las grabaciones de un sensor automatizado. Una vez que las lecturas del sensor se reducen a un tamaño manejable usando la técnica de limpia de datos, pueden reconocerse con más facilidad los patrones de datos. Las herramientas automatizadas que usan estas técnicas están disponibles en el dominio público y comercial.

El método del árbol de decisión usa las reglas de producción, construidas como figuras gráficas basado en datos premisos y clasificaciónn de los datos según sus atributos. Este método requiere ese clases de los datos que son discretos y predefinidos [11]. Según [5], el uso primario de este método es para predecir modelos que pueden ser apropiados para cualquier clasificación o técnicas de regresión. Las herramientas para el análisis de árbol de decisión están disponibles en el dominio público y comercial.

La desviación y tendencia del análisis

El método de detecciónn por filtrado tiende ser importante como base para este método de KDD. Normalmente las técnicas de análisis y desviación son aplicadas temporalmente en las bases de datos. Una buena aplicación para este tipo de KDD es el análisis de tráfico en las grandes redes de telecomunicaciones.

AT&T usa tales sistemas para localizar e identificar circuitos que exhiben la desviación (conducta defectuosa) [12]. El volumen total de datos que requieren análisis generan una técnica imperativa automatizada. Este tipo de tendencia de análisis también podría demostrar utilidad en los datos astronómicos y oceanográficos, ya que sus datos estan basados en el tiempo y voluminosos. Las herramientas están disponibles al dominio públicas para este método.

Otros Métodos

Las redes neuronales podrán usarse como método del descubrimiento del conocimiento. Las redes neuronales son particularmente útiles para el reconocimiento de patrones y algunas veces se agrupa con los métodos de clasificación. Hay herramientas disponible en el dominio público y comercial. Los algoritmos genéticos, también usados para la clasificación, son similares a las redes neuronales aunque estas son consideradas más poderosos. Hay herramientas comerciales disponibles para el método genético.

El método híbrido

Un método híbrido para KDD combina más de un método y también es llamado método multi-paradigmático. Aunque la implementación puede ser más difícil, las herramientas híbridas son capaces de combinar la potencia de varios métodos. Algunos de los métodos comunmente usados combinan técnicas de visualización, inducción, redes neuronales y los sistemas basados en reglas para llevar a cabo el descubrimiento de conocimiento deseado. También se han usado bases de datos deductivas y algoritmos genéticos en los métodos híbridos. Hay herramientas híbridas disponible comercialmente y en el dominio público.

Conclusiones y Direcciones hacia el Futuro

KDD está creciendo rápidamente con el compromiso de ser un gran campo de aplicaciónn. El descubrimiento de conocimiento pretende ser la nueva tecnología en bases de datos en los próximos años. La necesidad de herramientas para el descubrimiento automatizado, habia causado una explosión en el número y tipo de herramientas disponible comercialmente y en el dominio público. El sitio en el Web S*i*ftware [9] es frecuentemente actualizado y pretende ser una exhaustiva lista de herramientas KDD disponibles.

Es anticipado decir que los sistemas de bases de datos comerciales del futuro incluirán las capacidades de KDD en la forma de interfaces con bases de datos inteligentes. Algunos tipos de recuperación de información podrán beneficiarse del uso de las técnicas KDD. Debido a la aplicación potencial del descubrimiento del conocimiento, en diversas áreas hay un crecimiento de oportunidades en la investigación sobre este campo. Muchas de estas oportunidades se discuten en [10], es una revista que cuenta con muchas contribuciones regularmente de los mejores autores expertos en KDD. Una lista bastante comprensiva de referencias y sitios en el Web también está disponible en el sitio Nugget site. Estos sitios son actualizados muy frecuentemente y cuentan con la información actual disponibles. Una conferencia internacional en KDD es llevada a cabo anualmente. Las conferencias anuales de KDD proporcionan fuentes adicionales de información actualizada en este campo creciente del descubrimiento del conocimiento en las bases de datos.

Referencias

1
Brachman, R.J., and Anand, T. The Process Of Knowledge Discovery In Databases: A Human-Centered Approach. In Advances In Knowledge Discovery And Data Mining, eds. U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, AAAI Press/The MIT Press, Menlo Park, CA., 1996, pp. 37-57.
2
Buntine, W. Graphical Models For Discovering Knowledge. In Advances In Knowledge Discovery And Data Mining, eds. U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, AAAI Press/The MIT Press, Menlo Park, CA., 1996, pp. 59-82.
3
Buntine, W. "A Guide To The Literature On Learning Probabilistic Networks From Data." IEEE Transactions on Knowledge and Data Engineering 8, 2 (Apr. 1996), 195-210.
4
Fayyad, U.M., Djorgovski, S.G., and Weir, N. Automating The Analysis And Cataloging Of Sky Surveys. In Advances In Knowledge Discovery And Data Mining , eds. U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, AAAI Press/The MIT Press, Menlo Park, CA., 1996, pp. 472-493.
5
Fayyad, U.M., Piatetsky-Shapiro, G., and Smyth, P. From Data Mining To Knowledge Discovery: An Overview. In Advances In Knowledge Discovery And Data Mining , eds. U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, AAAI Press/The MIT Press, Menlo Park, CA., 1996, pp. 1-34.
6
6. Frawley, W.J., Piatetsky-Shapiro, G., and Matheus, C. Knowledge Discovery In Databases: An Overview. In Knowledge Discovery In Databases, eds. G. Piatetsky-Shapiro, and W. J. Frawley, AAAI Press/MIT Press, Cambridge, MA., 1991, pp. 1-30.
7
Guyon, I., Matic, N., and Vapnik, V. Discovering Informative Patterns And Data Cleaning. In Advances In Knowledge Discovery And Data Mining, eds. U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, AAAI Press/The MIT Press, Menlo Park, CA., 1996, pp. 181-203.
8
Hsu, C.N., and Knoblock, C.A. Using Inductive Learning To Generate Rules For Semantic Query Optimization. In Advances In Knowledge Discovery And Data Mining, eds. U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, AAAI Press/The MIT Press, Menlo Park, CA., 1996, pp. 425-445.
9
Piatetsky-Shapiro, G. S*i*ftware: Tools For Data Mining And Knowledge Discovery. World Wide Web URL: http://www.kdnuggets.com/siftware.html.
10
Piatetsky-Shapiro, G., and Beddows, M. Knowledge Discovery Mine -- Data Mining And Knowledge Discovery Resources. World Wide Web URL:http://www.kdnuggets.com.
11
Quinlan, J.R. C4.5: Programs For Machine Learning. San Mateo, CA: Morgan Kaufmann, 1993.
12
Sasisekharan, R., Seshadri, V., and Weiss, S.M. Data Mining And Forecasting In Large-Scale Telecommunication Networks. IEEE Expert: Intelligent Systems & Their Applications 11, 1 (Feb. 1996), 37-43.



Copyright 1998 Peggy Wright
Ultima Modificación:
Localización: www.acm.org/crossroads/espanol/xrds5-2/kdd.html

Número del visitante desde Diciembre 23, 1999: