lunes, 21 de julio de 2014

La minería de datos hace más rápido 21 -


Contacto: Kate Ferebee

kate@ucomm.utah.edu

801-585-9244

Universidad de Utah

Método fasterNew La minería de datos hecho facilita el análisis de la información 'multidimensional'

SALT LAKE CITY, 22 de julio de 2010 - Para muchas compañías grandes, no son sólo un cliente, pero son descritos por múltiples "dimensiones" de la información dentro de una base de datos informática. Ahora, un científico de la computación de la Universidad de Utah ha desarrollado un nuevo método para la más simple, más rápido "minería de datos", o la extracción y el análisis de grandes cantidades de estos datos.

"Te guste o no, Google, Facebook, Walmart y el gobierno está construyendo perfiles de usted, y estos consisten en cientos de atributos que describen usted" - tus búsquedas en línea, compras, vídeos compartidos y recomendaciones a sus amigos de Facebook, dice Suresh Venkatasubramanian, profesora asistente de ciencias de la computación.

"Si usted los alinea para cada persona, tiene una línea de cientos de números que pintan un cuadro de una persona: quiénes son, cuáles son sus intereses, ¿quiénes son sus amigos y así sucesivamente", dice. "Estas cadenas de cientos de atributos se denominan datos de alta dimensión, porque cada atributo se llama una dimensión. La minería de datos es la excavación de información interesante de estos datos de alta dimensión ".

Un grupo de métodos de minería de datos llamado "escalamiento multidimensional" o MDS fue utilizado por primera vez en la década de 1930 por los psicólogos y se ha utilizado desde entonces para hacer el análisis de datos más simple mediante la reducción de la "dimensionalidad" de los datos. Venkatasubramanian dice que es "probablemente una de las herramientas más importantes en la minería de datos y es utilizada por innumerables investigadores de todo el mundo."

Ahora, Venkatasubramanian y sus colegas han desarrollado un nuevo método de escalamiento multidimensional que es más rápido, más simple, puede ser utilizado universalmente por numerosos problemas y puede manejar más datos, básicamente por "aplastar cosas [de datos] en su sitio."

Tiene previsto presentar el nuevo método el miércoles 28 de julio en Washington en la reunión de primera clase en su campo, la Conferencia sobre el descubrimiento del conocimiento y minería de datos patrocinada por la Association for Computing Machinery.

"Este problema de la reducción de dimensionalidad y visualización de datos es fundamental en muchas disciplinas de las ciencias naturales y sociales", dice Venkatasubramanian. "Así que creemos que nuestro método será útil para hacer un mejor análisis de los datos en todas estas áreas."

"Lo que nuestro enfoque no es unificar en un solo marco común una serie de diferentes métodos para hacer esto la reducción de dimensionalidad" para simplificar los datos de alta dimensión, dice. "Tenemos un programa informático que unifica muchos métodos diferentes personas han desarrollado en los últimos 60 o 70 años. Una cosa que hace que sea muy bueno para los datos de hoy - además de ser un procedimiento de ventanilla única - es que también se ocupa de los conjuntos de datos mucho más grandes que los métodos anteriores eran capaces de manejar ".

Y añade: "Los métodos anteriores en las computadoras modernas luchan con datos de más de 5.000 personas. Nuestro método maneja sin problemas muy por encima de 50.000 personas ".

Venkatasubramanian condujo la investigación con la informática de la Universidad de Utah estudiante de doctorado Arvind Agarwal y el becario postdoctoral Jeff Phillips. La investigación fue financiada por la Fundación Nacional de Ciencia.

La maldición de la dimensionalidad

Al analizar largas cadenas de atributos que describen las personas ", que busca no sólo en las variables individuales, sino la forma en que interactúan entre sí," dice. "Por ejemplo, si usted describe a una persona por su altura y peso, se trata de variables individuales que describen a una persona. Sin embargo, tienen correlaciones entre ellos; una persona que es más alto se espera que sea más pesado que alguien que es más corto ".

La alta "dimensionalidad" de los datos de deriva del hecho de "las variables interactúan unos con otros. Ahí es donde se obtiene un espacio [multidimensional], no sólo una lista de variables ".

"La minería de datos significa la búsqueda de patrones, relaciones y correlaciones en datos de alta dimensión", dice Venkatasubramanian. "Usted, literalmente, están cavando a través de los datos para encontrar pequeñas venas de la información."

Él dice que los usos de la minería de datos incluyen recomendaciones de Amazon a los clientes individuales en función no sólo de sus compras anteriores, sino en las de las personas con preferencias similares y método similar de Netflix para recomendar películas. Facebook recomienda amigos basados ??en personas que ya son sus amigos, y en sus amigos.

"El desafío de la minería de datos se está ocupando de la dimensionalidad de los datos y el volumen de la misma. Así que una expresión común en la comunidad de la minería de datos es "la maldición de la dimensionalidad '", dice Venkatasubramanian.

"La maldición de la dimensionalidad es el fenómeno que se observa que lo que se tira en más atributos para describir a individuos, las tareas de minería de datos que se deseen realizar convertido exponencialmente más difícil", añade. "Ahora estamos en el punto donde la dimensionalidad y el tamaño de los datos es un gran problema. Hace las cosas computacionalmente muy difícil encontrar estos patrones que queremos encontrar. "

El escalamiento multidimensional para simplificar los datos multidimensionales es un intento de "reducir la dimensionalidad de los datos mediante la búsqueda de los atributos clave que define la mayor parte del comportamiento", dice Venkatasubramanian.

Universal, Fast Data Mining

El nuevo método de Venkatasubramanian es universal - "una nueva forma de abstraer el problema en pequeños pedazos, y darse cuenta de muchas versiones diferentes de este problema se puede abstraer de la misma manera." En otras palabras, un conjunto de instrucciones que se puede utilizar para hacer una amplia variedad de escalamiento multidimensional que requiere previamente instrucciones por separado.

El nuevo método puede manejar grandes cantidades de datos, ya que "en lugar de tratar de analizar todo el conjunto de datos en su conjunto, lo analizamos de forma incremental, una especie de persona a persona", dice Venkatasubramanian. Que acelera la minería de datos ", ya que no necesita tener todos los datos en frente de usted antes de empezar a reducir su dimensionalidad"

Venkatasubramanian y sus colegas realizaron una serie de pruebas de su nuevo método con "datos sintéticos" - puntos de datos en un "espacio de alta dimensión."

Las pruebas muestran que la nueva forma de minería de datos mediante escalamiento multidimensional "puede ser más rápido e igualmente precisa - y por lo general más precisa" que los métodos existentes, dice.

El método tiene lo que se conoce como "convergencia garantizada", es decir que "le consigue una respuesta mejor y mejor y mejor, y con el tiempo se detendrá cuando se pone la mejor respuesta que se puede encontrar", dice Venkatasubramanian. También es modular, lo que significa que las partes del software son fácilmente cambiados como se encuentran las mejoras.

Privacidad y Minería de Datos

¿Qué pasa con la preocupación de que estamos sacrificando nuestra privacidad a los vendedores?

"El tema de la privacidad en la minería de datos es como cualquier conjunto de consecuencias potencialmente negativas de los avances científicos", dice Venkatasubramanian, y agregó que muchas investigaciones han examinado cómo extraer datos de una manera que proteja la privacidad individual.

Él cita las recomendaciones de películas de Netflix, por ejemplo, señalando que "si orienta la publicidad basada en lo que la gente necesita, se convierte en útil. Cuanto mejor sea la publicidad hace, más se convierte en información útil y no la publicidad. "

"Y la forma en que estamos siendo inundados con todo tipo de información en el mundo actual, nos guste o no tenemos más remedio que permitir que las máquinas y los sistemas automatizados para tamizar a través de todo esto para dar sentido a la avalancha de información que pasa a nuestros ojos cada día ".

Para obtener más información sobre la Universidad de Utah, Facultad de Informática y la Facultad de Ingeniería, consulte: http://www.cs.utah.eduandhttp://www.coe.utah.edu

Universidad de Utah Relaciones Públicas

201 Presidents Circle, Sala 308

Salt Lake City, Utah 84112-9017

(801) 581-6773 Fax: (801) 585-3350

No hay comentarios:

Publicar un comentario