En este artículo daremos una breve introducción a la ciencia de datos y cómo comenzar en su estudio. En primer lugar debemos pensar en los datos como un cúmulo de información (más adelante daremos una definición más formal), sobre los cuales queremos obtener información o conclusiones. Esto no es fácil, dado que los datos que tenemos no siempre son el total de los que queremos estudiar (población), o son demasiado grandes para utilizar métodos comunes en estadística (mas de cien variables, por ejemplo). Otro problema es que los fenómenos que pretendemos estudiar no siempre corresponden a una distribución normal, por lo que métodos estadísticos "comunes" no son aplicables. Si bien, la persona que conoce de estadística no paramétrica y multivariante podría dar algunas respuestas a los problemas planteados, es necesario hacer notar que existe una amplia gama de análisis que pueden ser aplicados a los datos. La ciencia de datos se ha convertido en una pujante área que intersecta estadística y ciencias de la computación y por lo tanto se ha convertido en algo muy importante para un programador.

Tipos de análisis de datos

Cuando tenemos frente a nosotros datos, podemos realizar una serie de análisis con ellos y el uso de cada uno depende del tipo de pregunta que hacemos. La pregunta científica que queremos contestar es lo fundamental en nuestro estudio. A continuación explicaremos en que consisten y cuales con las ventajas y desventajas de cada uno de ellos.

  • Descriptivo. Este tipo de análisis se centra en describir un conjunto de datos, y es comúnmente el primer tipo de análisis que se hace sobre los datos. El problema de esto es que la descripción que generan los datos no pueden ser generalizados para el total del fenómeno, por lo que es común realizarlo para datos censales. 
  • Exploratorio. Ahora bien, un siguiente paso, es encontrar relaciones entre los datos que no se conocían previamente. Los modelos exploratorios son bueno para esto, así cómo para definir estudios futuros, pero usualmente no son concluyentes. Al igual que el análisis descriptivo, sus resultados no deben ser usados para generalizar fenómenos. Es también importante notar que las correlaciones encontradas no necesariamente implican causalidad.
  • Inferenciales. En este caso usamos una muestra reducida de datos de una población mas grande para poder generalizar información a partir de la muestra. Esto es común en los modelos estadísticos, y puede ser de carácter cualitativo o cuantitativo. Pero, esta inferencia depende en gran medida en el tipo de población y de muestra sobre las cuales estamos trabajando. 
  • Predictivas. El objetivo que persigue el análisis predictivo es usar los datos sobre cierto objeto o fenómeno para predecir los valores de otro fenómeno u objeto. Hay que ser claros que predicción no es lo mismo que causalidad. Las predicciones exactas dependen en gran medida de haber medido las variables correctas, sin embargo, también los modelos pueden ser mejores o peores para una cierta tarea. Pero, regularmente, un modelo simple con más datos debe de trabajar bien. Si usted se pregunta: Qué tan difícil es predecir el futuro? La respuesta es clara: la predicción de eventos futuros es una tarea muy difícil. 
  • Causales. Esta tarea es sustancialmente más difícil que la predicción. Se trata de encontrar que pasa con una variable si se varían otras. Para realizar este tipo de estudios se requiere  usualmente estudios aleatorios para descubrir la causalidad, pero también existen métodos para inferir causalidad en estudios no aleatorios, con la desventaja de ser complicados y sensibles a las suposiciones iniciales. Las relaciones de causalidad son identificadas como efectos generales, pero esto puede variar en cada individuo. Estos métodos son los mas usados y tomados como estado del arte. 
  • Mecanistas. Este tipo de análisis es muy raro en análisis de datos. Se trata de entender los cambios exactos de las variables que han cambios en otras variables, esto lo vuelve muy difícil de inferir y por lo tanto es usualmente usado en modelos deterministas y el componente aleatorio es la medición del error. 

Sobre los datos

 Hemos hablado sobre diversas formas de estudiar los datos, pero ahora veamos que son los datos:

Los datos son valores de variables cuantitativas o cualitativas que pertenecen a un conjunto de objetos.

 Donde un conjunto de objetos se refiere a la población, como pueden ser un conjunto de páginas, o datos biológicos, etc. Las variables se refieren a una medición de las características de un objeto, y estas pueden ser cuantitativas o culitativas. Por ejemplo, las caulitativas son sexo, países, etc, mientras que cuntitativas tienen un orden. 

Cuando hablamos de datos, estos la mayoría de veces no se encuentran en una forma ordenada, si no que se encuentran mezclados en texto u otros archivos. También se puede conseguirlo desde un API, por ejemplo los datos de twitter. El problem central es cómo extraer la información que se requiere de todo tipo de presentaciones, ya sea texto, audio o video. 

Para comenzar con el análisis de datos, lo más importante es formular la pregunta que queremos contestar. Posteriormente son los datos, ya que estos pueden limitar la pregunta. Lo que nunca se debe de olvidar es que los datos nunca deben de guiar la pregunta, si bien si puede adaptarla.

¿Qué es big data?

 Seguro muchos hemos escuchado hablar sobre big data. Obviamente big data son datos en una gran extensión o cantidad. El concepto de lo que significa grande ha variado según la historia misma. Procesar dos mil datos a mano es una gran tarea y puede ser considerado como big data para personas sin computadora. Para nuestros tiempos esto significa una cantidad muy superior. basta con imaginarse la cantidad de datos que puede tener google o amazon almacenada. El problema reside en que muchas veces únicamente una fracción de esos datos sirven para contestar las preguntas planteadas. 

La limitante para analizar big data en realidad es la limitante del hardware que disponemos para analizar estos datos. Si bien hoy en día es posible obtener datos de manera más sencilla y barata, también es cierto que usar esta cantidad de datos no necesariamente llevará a resultados muy diferentes que si se escogen los datos corretos.

Como conclusión, es más importante contar con los datos correctos, que tener muchos datos.  

 

Share This