Jornadas Data Mining

lunes, 21 de noviembre de 2011

El pasado 27 y 28 de octubre, en la Facultad de Ciencias Exactas de la UBA, se organizaron las sextas jornadas de Data Mining. Como estoy cursando algunas materias de la Maestría en DM&KD, fui invitada a participar de las conferencias y las capacitaciones que se ofrecieron.
A continuación presento un resumen de los paneles que me interesaron.

Ian Witten- WikipediaIan Witten es profesor de Computer Science en la Universidad de Waikato, Nueva Zelanda.
Es un personaje muy interesante para la comunidad de mineros, ya que fue uno de los creadores de WEKA. (Conjunto de librerías JAVA para la extracción de conocimiento desde bases de datos y realizar tareas de dataminig. Es un software desarrollado en la Universidad de Waikato bajo licencia GPL lo cual ha impulsado que sea una de las suites más utilizadas en el área en los últimos años) .


Wikipedia es una mina de oro de información, no solo para muchos lectores, sino también para una creciente comunidad de investigadores que la reconocen como una fuente de excepcional escabilidad y utilidad. Wikipedia representa una gran inversión de tiempo y de opinión: un enorme tapiz de conceptos y relaciones en constante evolución. Muchos la vemos como poco confiable, sin embargo el nivel de precisión en sus conceptos es similar al de la Enciclopedia Británica. Ian presentó Wikipedia como una nueva forma de democratizar el conocimiento. El saber fue custodiado hasta el 1500 por la religión, luego paso a ser exclusividad de la academia, finalmente ahora, en la era digital, el saber estaría en manos de la gente.
Destacó también que Wikipedia posee una estructura de links muy rica, pues brinda através de sus artículos explicaciones, investigaciones y serendipity ( hallazgos afortunados e inesperados).
Habló de "wikificación": incrementar un documento de texto con los hipervínculos correspondientes a los artículos de Wikipedia - como si el documento fuera en sí mismo un artículo de Wikipedia. Wikipedia puede ser utilizado para determinar la relación semántica entre conceptos. "Wikificar" documentos es explotar los enlaces internos de Wikipedia para obtener información relacional y sus textos de anclaje como información léxica.
Es interesante destacar que Witten es precursor en la temática de bibliotecas digitales y es quien actualmente está a cargo del Laboratorio de Biblioteca Digital de la Universidad de Waikato, Nueva Zelanda. Allí se están desarrollando proyectos de interés. Entre ellos, el software Greenstone que ha ayudado a difundir la tecnología de bibliotecas digitales en todo el mundo, con especial énfasis en los países en desarrollo.


Curso de WEKAUno de los dos días de las jornadas fue dedicado a un curso práctico de Weka. A cargo de Ian Witten.
En el curso de Weka, se describieron conceptos fundamentales como overfitting y evaluación. Se mostraron algoritmos simples de aprendizaje automático, modelado estadístico, arboles de decisión, reglas de asociación, modelos lineales y clustering.


Morosidad
Hubo una charla acerca de riesgo de morosidad, donde se presentó un proyecto que trata con todos los riesgos relacionados al pago tardío. Administrar estos riesgos asociados a los clientes es un proceso continuo basado en la observación y análisis del comportamiento. Las consecuencias financieras de ser más eficientes en el proceso de cobranza impactan directamente en la facturación y la rentabilidad de la compañía, y también están vinculadas a la relación con los clientes.
Se explicaron conceptos de Payment Risk dentro de las áreas de prevención de pago tardío y optimización del proceso de cobranza.
Con esta solución se busca colaborar con las decisiones de aceptación de clientes y ajuste de límites de créditos. Se busca también reducir los costos en los procesos de recupero de deuda y minimizar los tiempos.


Social Network Analysis
Otro tema de interés fue la presentación de técnicas de SNA , aplicadas al desarrollo de modelos en la industria de telecomunicaciones.
Las personas que son afines entre sí -es decir, que pertenecen a determinado grupo social- comparten gustos, ideales y visiones.
Por lo tanto si un miembro de ese grupo adquiere determinado equipo o ringtone o juego o inclusive, abandona el servicio, es probable que los otros miembros de ese grupo también lo hagan.
El análisis de las redes sociales, determinadas por los llamados y mensajes de celular de una persona, permite identificar dichos grupos y los líderes de los mismos. En esta charla vimos cómo se utiliza el análisis de Redes Sociales en los modelos predictivos, y la mejora obtenida respecto a los modelos tradicionales que no utilizan dicha información.


VisualizaciónFinalmente alumnos de la maestría presentaron trabajos. Algunos alumnos participaron en el concurso organizado por VAST CHALLENGE 2011. Esta competencia es una de las iniciativas de la IEEE para impulsar la innovación de herramientas gráficas que resuelvan situaciones de la vida real. El desafío consistía en analizar conjuntos de datos y resolver problemas utilizando visualizaciones. En concreto, había que analizar secuencias de ataques a una red informática. Uno de los trabajos logró una mención especial por parte del comité evaluador del concurso. En la charla se presentó este trabajo: uso de mapas de calor y gráficos de coordenadas paralelas los cuales permitieron identificar eventos relevantes en los conjuntos de datos. Estos gráficos fueron desarrollados en Canvas y Processing.