El origen de Data Science y su influencia
El origen de Data Science y su influencia
Si intenta encontrar las raíces de las prácticas de la
ciencia de datos, probablemente terminará descubriendo evidencia al comienzo de
la civilización. En el siglo XVIII, los gobiernos recopilaban datos
demográficos y financieros con fines impositivos, una práctica denominada
estadística. Con el paso de los años, el uso de este término se amplió para
incluir el resumen y el análisis de los datos recopilados. En 1805,
Adrien-Marie Legendre, un matemático francés, publicó un artículo que describía
los mínimos cuadrados para ajustar ecuaciones lineales, aunque la mayoría de la
gente le da crédito a Carl Friedrich Gauss por la descripción completa que
publicó un par de años después. En 1900, Karl Pearson publicó en Philosophical
Magazine sus observaciones sobre la estadística chi-cuadrado, una piedra
angular en la ciencia de datos para la prueba de hipótesis. En 1962, John
Tukey, el científico famoso por la transformación rápida de Fourier y el
diagrama de caja, publicó un artículo en el que expresaba su pasión por el
análisis de datos y cómo la estadística necesitaba evolucionar hacia una nueva
ciencia.
Por otro lado, con el auge de la informática a mediados del siglo XX, John McCarthy introdujo en 1955 el campo de la Inteligencia Artificial (IA) como el término oficial para las máquinas pensantes. La IA es un campo de la informática que desarrolla sistemas que pueden imitar el comportamiento humano inteligente. Usando lenguajes de programación como el Lenguaje de procesamiento de información (IPL) y el Procesador LISt (LISP), los desarrolladores estaban escribiendo programas que podían manipular listas y otras estructuras de datos para resolver problemas complejos. En 1955, el jugador de damas de Arthur Samuel fue la primera pieza de software que aprendería de los juegos que ya había jugado al almacenar los estados del tablero y la posibilidad de ganar si terminaba en ese estado en un caché. Este programa de damas puede haber sido el primer ejemplo de aprendizaje automático, un subcampo de IA que utiliza datos históricos y los patrones codificados en los datos para entrenar modelos y permitir que los sistemas imiten las tareas humanas sin codificar explícitamente toda la lógica. De hecho, puede pensar en los modelos de aprendizaje automático como un código de software que se genera al entrenar un algoritmo contra un conjunto de datos para reconocer ciertos tipos de patrones.
En 2001, William S. Cleveland publicó el primer artículo en el que se utilizó el término ciencia de datos en la forma en que nos referimos hoy, una ciencia en la intersección de la estadística, el análisis de datos y la informática que intenta explicar fenómenos basados en datos.
Aunque la mayoría de las personas correlacionan la ciencia de datos con el aprendizaje automático, la ciencia de datos tiene un alcance mucho más amplio, que incluye el análisis y la preparación de datos antes del proceso de entrenamiento del modelo de aprendizaje automático real.
La influencia del data science
La ciencia de datos tiene un enorme potencial. Ya afecta nuestra vida diaria. Las empresas de atención médica están aprendiendo a diagnosticar y predecir los principales problemas de salud. Las empresas lo utilizan para encontrar nuevas estrategias para ganar nuevos clientes y personalizar sus servicios. Usamos análisis de big data en genética y física de partículas. Gracias a los avances en la ciencia de datos, los autos sin conductor ahora son una realidad. Gracias a Internet y la informatización global, creamos grandes cantidades de datos diariamente. Los volúmenes cada vez mayores de datos nos permiten automatizar el trabajo humano. Lamentablemente, para cada caso de uso que mejora nuestra vida, fácilmente podemos encontrar dos que la empeoran. Para darle un ejemplo inquietante, echemos un vistazo a China. El gobierno chino está experimentando con un nuevo sistema de crédito social. Utiliza cámaras de vigilancia para rastrear la vida diaria de sus ciudadanos a gran escala. Los sistemas de visión por computadora pueden reconocer y registrar cada acción que realiza mientras viaja al trabajo, espera en las filas en una oficina del gobierno o regresa a casa después de una fiesta. A continuación, se calcula una puntuación social especial basada en sus acciones supervisadas. Esta puntuación afecta a la vida de personas reales. En particular, las tarifas de transporte público pueden cambiar dependiendo de su puntaje; Los puntajes bajos pueden prohibirle entrevistarse para una variedad de trabajos gubernamentales.
Comentarios
Publicar un comentario