Imprimir

En este artículo daremos una breve introducción a la ciencia de datos y cómo comenzar en su estudio. En primer lugar debemos pensar en los datos como un cúmulo de información (más adelante daremos una definición más formal), sobre los cuales queremos obtener información o conclusiones. Esto no es fácil, dado que los datos que tenemos no siempre son el total de los que queremos estudiar (población), o son demasiado grandes para utilizar métodos comunes en estadística (mas de cien variables, por ejemplo). Otro problema es que los fenómenos que pretendemos estudiar no siempre corresponden a una distribución normal, por lo que métodos estadísticos "comunes" no son aplicables. Si bien, la persona que conoce de estadística no paramétrica y multivariante podría dar algunas respuestas a los problemas planteados, es necesario hacer notar que existe una amplia gama de análisis que pueden ser aplicados a los datos. La ciencia de datos se ha convertido en una pujante área que intersecta estadística y ciencias de la computación y por lo tanto se ha convertido en algo muy importante para un programador.

Tipos de análisis de datos

Cuando tenemos frente a nosotros datos, podemos realizar una serie de análisis con ellos y el uso de cada uno depende del tipo de pregunta que hacemos. La pregunta científica que queremos contestar es lo fundamental en nuestro estudio. A continuación explicaremos en que consisten y cuales con las ventajas y desventajas de cada uno de ellos.

Sobre los datos

 Hemos hablado sobre diversas formas de estudiar los datos, pero ahora veamos que son los datos:

Los datos son valores de variables cuantitativas o cualitativas que pertenecen a un conjunto de objetos.

 Donde un conjunto de objetos se refiere a la población, como pueden ser un conjunto de páginas, o datos biológicos, etc. Las variables se refieren a una medición de las características de un objeto, y estas pueden ser cuantitativas o culitativas. Por ejemplo, las caulitativas son sexo, países, etc, mientras que cuntitativas tienen un orden. 

Cuando hablamos de datos, estos la mayoría de veces no se encuentran en una forma ordenada, si no que se encuentran mezclados en texto u otros archivos. También se puede conseguirlo desde un API, por ejemplo los datos de twitter. El problem central es cómo extraer la información que se requiere de todo tipo de presentaciones, ya sea texto, audio o video. 

Para comenzar con el análisis de datos, lo más importante es formular la pregunta que queremos contestar. Posteriormente son los datos, ya que estos pueden limitar la pregunta. Lo que nunca se debe de olvidar es que los datos nunca deben de guiar la pregunta, si bien si puede adaptarla.

¿Qué es big data?

 Seguro muchos hemos escuchado hablar sobre big data. Obviamente big data son datos en una gran extensión o cantidad. El concepto de lo que significa grande ha variado según la historia misma. Procesar dos mil datos a mano es una gran tarea y puede ser considerado como big data para personas sin computadora. Para nuestros tiempos esto significa una cantidad muy superior. basta con imaginarse la cantidad de datos que puede tener google o amazon almacenada. El problema reside en que muchas veces únicamente una fracción de esos datos sirven para contestar las preguntas planteadas. 

La limitante para analizar big data en realidad es la limitante del hardware que disponemos para analizar estos datos. Si bien hoy en día es posible obtener datos de manera más sencilla y barata, también es cierto que usar esta cantidad de datos no necesariamente llevará a resultados muy diferentes que si se escogen los datos corretos.

Como conclusión, es más importante contar con los datos correctos, que tener muchos datos.