Big DataConsultoría TITecnología¿Cómo trabajar en datos sin ser informático?

https://orientecloud.com/wp-content/uploads/2023/04/Como-trabajar-en-datos-sin-ser-informatico-Orientecloud-1280x853.jpg

Es de público conocimiento que la industria de las Tecnologías de la Información (TI) está mostrando un crecimiento exponencial en los últimos años, y esta tendencia se acentuó aún más desde el desencadenamiento de la pandemia del COVID. Este crecimiento trae como resultado el aumento de la oferta de empleo y salarios altamente competitivos, sumado a que es la industria donde se puede conseguir empleo remoto con mayor facilidad.

Esta combinación de factores hace que sea cada vez mayor el número de profesionales de distintas ramas que quieren dar un giro en sus carreras e iniciarse en la informática. Dentro de este sector, el “mundo de los datos” trae nuevas profesiones que ganan cada vez más adeptos por tratarse de un área que se puede complementar con otras profesiones como administración, finanzas, marketing, contabilidad, economía, entre otras. Tal es el auge de estas nuevas profesiones que este artículo de la Harvard Business Review posiciona al Científico de Datos como la “Profesión más sexy del siglo XXI”.

 

Conceptos para trabajar con datos

Business Intelligence

El Business Intelligence (BI) nace para facilitar la extracción, depuración, transformación y explotación de los datos contenidos en los diferentes sistemas de una empresa, generando conocimiento en el cual se apoyan las decisiones de negocio. Esto se logra mediante el uso de técnicas de análisis y visualización para interpretar y comprender los datos. BI incluye tanto la recopilación de datos internos de la empresa como la de datos externos, que generalmente se almacenan en bases de datos estructuradas de una manera homogénea en los denominados “Data Warehouse”.

Gracias a este conjunto de estrategias se podrán resolver preguntas cotidianas que se realizan en cualquier empresa, como: ¿en qué estado se encuentra la empresa?, ¿Qué sectores tienen más éxito?, ¿a qué clientes hay que orientar hacia un producto determinado?, etc.

El Business Intelligence es la aplicación más tradicional en el ámbito empresarial y engloba a la gran mayoría de los proyectos de datos en la actualidad.

Big Data

El término “big data” se refiere a conjuntos de datos muy grandes y complejos que exceden la capacidad de procesamiento de los sistemas tradicionales de BI. Se trata de una cantidad masiva de datos estructurados y no estructurados, que pueden incluir desde transacciones comerciales hasta publicaciones en redes sociales y muchas veces son utilizados para la toma de decisiones en tiempo real. Esto se resume en las “tres V” del big data:

  • Variedad: los datos que gestiona no son homogéneos como en el BI sino que se presentan en diferentes formatos: tablas, archivos de audio, PDFs, videos, textos, etc.
  • Volumen: la cantidad de datos que se almacenan es mucho mayor.
  • Velocidad: se refiere a la necesidad de procesar y analizar los datos de manera rápida para obtener información valiosa y relevante en tiempo real.

Estas tres características hacen que el big data sea complejo y desafiante de procesar y analizar, y requieren la utilización de tecnologías y herramientas especializadas para manejarlo efectivamente.

Tanto el BI como el big data son importantes para la toma de decisiones en las empresas, pero tienen enfoques y objetivos diferentes.

Machine Learning

Otro concepto que ha tomado mucha relevancia en los últimos años es el de Machine Learning. Se trata de una rama de la inteligencia artificial que se centra en el uso de algoritmos de aprendizaje automático para analizar y entender grandes conjuntos de datos sin la necesidad de programación específica. Esto permite que las máquinas «aprendan» a partir de los datos y realicen tareas de manera autónoma sin necesidad de ser explícitamente programadas para hacerlo.

El machine learning se utiliza comúnmente para realizar tareas complejas como el reconocimiento de patrones y la predicción de resultados. Mediante estas técnicas podemos predecir las ventas a futuro, determinar si un determinado cliente comprará o no nuestro producto, detectar fraudes, entre otras cosas. Para ello, consume los datos almacenados ya sea en bases de datos estructuradas de una manera tradicional o mediante el Big Data.

Es decir que, mientras el Business Intelligence se enfoca principalmente en un análisis descriptivo, respondiendo al “¿qué sucedió?”, el Machine Learning se orienta al análisis predictivo, respondiendo al “¿qué sucederá?”

Una vez entendemos estos conceptos más relevantes, el siguiente paso es conocer cuáles son los perfiles profesionales que se encuentran en estos campos y en cuál encajaríamos mejor en base a nuestros conocimientos y preferencias.

Cómo trabajar con datos: perfiles más importantes

En términos generales, cualquier profesional que se desempeñe en este sector debe contar con conocimientos en los siguientes tres componentes:

  • Negocio: el objetivo final de cualquier proyecto de tratamiento de datos es contribuir a resolver determinada problemática y tomar mejores decisiones de negocio. Es por ello que a mayor conocimiento del negocio en el que se está trabajando, mayor puede ser el aporte profesional.
  • Matemática y estadística: dependiendo el tipo de proyecto y el rol que se desempeñe, es necesario dominar desde matemática básica hasta estadística avanzada.
  • Informática: es necesario utilizar determinados programas informáticos para el tratamiento de los datos en las distintas etapas de su ciclo de vida, ya sea lenguajes de programación, lenguajes de bases de datos, herramientas de análisis y visualización, etc.

Dependiendo el perfil profesional se necesita una mayor expertise en un componente que en otro, pero los tres son necesarios en todos los casos.

 

Arquitecto de datos

En un perfil con un alto componente técnico y tecnológico tenemos al arquitecto de datos. Como su nombre indica, el “arquitecto” es quien se encarga de diseñar y crear la infraestructura con la cual se van a almacenar y explotar los datos dentro de una empresa.

Esto incluye la planificación y el diseño de la estructura de almacenamiento de datos, la selección e implementación de herramientas de análisis, la definición de políticas y estándares de seguridad de datos, y el mantenimiento de la plataforma.

En cuanto a los conocimientos técnicos, debe comprender bases de datos, lenguajes de programación y tecnología en la nube. Una ruta de aprendizaje recomendable es la siguiente:

  1. Fundamentos de bases de datos: para empezar en el camino de la arquitectura de datos, es importante tener un conocimiento sólido de las bases de datos. Se deben aprender los fundamentos de las bases de datos relacionales y no relacionales, así como las diferentes tecnologías y herramientas de bases de datos que se utilizan actualmente.
  2. Tecnologías de Big Data: las tecnologías de Big Data son herramientas críticas para la arquitectura de datos. Es recomendable aprender sobre tecnologías como Hadoop, Spark y Cassandra, entre otras. Puedes encontrar cursos en línea gratuitos o pagos sobre tecnologías de Big Data en plataformas como Coursera, edX, Datacamp, entre otros.
  3. Diseño y modelado de datos: es importante tener un conocimiento sólido de diseño y modelado de datos. Diseñar esquemas de bases de datos eficientes y escalables y cómo modelar datos utilizando técnicas como normalización y desnormalización.
  4. Integración de datos: la integración de datos es un aspecto clave de la arquitectura de datos. Se deben dominar técnicas y herramientas de integración de datos, como ETL (extracción, transformación y carga) y ELT (extracción, carga y transformación), e integración de datos de diferentes fuentes.
  5. Seguridad y privacidad de datos: la seguridad y la privacidad de datos son importantes en la arquitectura de datos. Aprende sobre los principios de seguridad y privacidad de datos, las regulaciones y normativas relevantes, y cómo implementar medidas de seguridad y privacidad en la arquitectura de datos.

Ingeniero de datos

Si bien existen similitudes entre ambos roles, mientras el arquitecto de datos se encarga de diseñar y construir la infraestructura de trabajo, el ingeniero de datos es quien se encarga de utilizar esta infraestructura para crear las “tuberías” (pipelines) y poner en marcha el flujo de datos desde sus diferentes orígenes hasta su destino final para ser analizados.

En cuanto a los conocimientos técnicos, son muy similares a los del arquitecto de datos ya que deben dominar lenguajes de programación como Python y R, bases de datos SQL y NoSQL, plataformas cloud y, principalmente, herramientas ETL.

Se trata de dos perfiles con un alto componente técnico que deben trabajar en conjunto ya que sus tareas están estrechamente relacionadas. En ninguno de los dos casos se suele necesitar demasiado conocimiento de negocio, pero el ingeniero debe entender un poco más al respecto ya que tiene mayor relación con los perfiles más analíticos que se explican a continuación.

Científico de datos

En el cuadrante superior derecho, con un mayor componente de negocio, pero con preponderancia del componente analítico, se encuentran los científicos de datos o data scientist. Estos profesionales suelen trabajar con un alto volumen de datos, proveniente de diversas fuentes y en diferentes formatos -por lo que se benefician de las bondades del big data-, para analizarlos y obtener respuestas concretas a problemáticas de negocio.

Su principal característica es que llevan a cabo técnicas avanzadas de análisis utilizando algoritmos de aprendizaje automático (Machine Learning) que les permite identificar patrones y predecir comportamientos futuros. Para ello, cuentan con conocimientos de estadística avanzada y lenguajes de programación como Python aplicado al Machine Learning.

El científico de datos es un perfil mixto que necesita conocimientos de negocio -si bien no es necesario que sea un experto- ya que su objetivo es dar respuesta a problemas concretos, y el dominio de las tecnologías mencionadas.

La ruta de aprendizaje del científico de datos es la siguiente:

  1. Fundamentos de programación: para comenzar en el camino de la ciencia de datos, es importante tener un conocimiento básico de programación. Es recomendable comenzar con Python, ya que es un lenguaje muy utilizado en la ciencia de datos.
  2. Estadística y Matemáticas: la estadística y las matemáticas son fundamentales en la ciencia de datos. Es importante tener una comprensión sólida de conceptos como probabilidad, distribuciones, regresión, etc.
  3. Bases de datos: el almacenamiento y manejo de grandes conjuntos de datos es un aspecto clave en la ciencia de datos. Si bien existen distintos tipos de bases de datos, es recomendable comenzar con SQL ya que es la más utilizada.
  4. Ciencia de datos: después de tener una base en programación, estadística y matemáticas, el siguiente paso es aprender ciencia de datos propiamente dicha. Esto puede incluir el uso de librerías como Numpy, Pandas, Scikit-learn, Matplotlib y Seaborn para análisis y visualización de datos.

Analista de negocio o analista de datos

Estos son dos perfiles muy similares, pero con algunas diferencias. Ambos están orientados más al negocio y tienen como objetivo analizar datos para resolver problemáticas empresariales. La principal diferencia radica en que el analista de datos está más enfocado al procesamiento y análisis propiamente dicho y la obtención de información valiosa, mientras que el analista de negocio o business analyst está enfocado en la aplicación de los insights identificados a través del análisis para tomar decisiones concretas y prácticas en una empresa.

El analista de negocio, como su nombre indica, es el perfil más orientado a negocio de todos los mencionados. Este rol debe ser un experto en la materia y está más cerca de la toma de decisiones. Su principal agregado de valor radica en “contar historias” a través de los datos, para lo cual deben contar con excelentes habilidades de comunicación, y garantizar la aplicabilidad al negocio.

A nivel técnico, ambos perfiles suelen utilizar como herramientas principales SQL y herramientas de visualización y análisis como Power BI o Tableau, entre otras. El analista de datos, dependiendo de la empresa y del proyecto, también puede cumplir un rol más amplio con funciones similares a las de un ingeniero de datos y necesitar de conocimientos más amplios como lenguajes de programación o herramientas ETL.

Salvando las diferencias comentadas para estos dos perfiles, la ruta de aprendizaje se compone de los siguientes puntos:

  1. Fundamentos de estadística y matemáticas: es necesario adquirir conocimientos en estadística y matemáticas, ya que estos son los fundamentos para entender y analizar datos.
  2. Bases de datos y SQL: las bases de datos son la fuente principal de datos para un data Analyst. Es recomendable aprender sobre bases de datos y su estructura, así como el lenguaje SQL para realizar consultas y análisis de datos.
  3. Visualización de datos: los datos son más fáciles de entender y comunicar cuando se representan gráficamente. Se tratan de herramientas de visualización de datos como Tableau, Power BI, Qlick, entre otras.
  4. Técnicas de limpieza y preparación de datos: los datos rara vez están listos para el análisis inmediatamente después de ser recopilados. Python es una de las herramientas más utilizadas para limpiar y preparad datos para el análisis, aunque dependiendo cómo estén organizados los equipos de trabajo esta tarea puede quedar supeditada exclusivamente a los ingenieros de datos.
  5. Técnicas de análisis: para realizar el análisis propiamente dicho se requiere el dominio técnicas como regresión lineal, análisis de series de tiempo, clasificación, agrupamiento, entre otros.

Esto nos permite ver que, para aquellos profesionales que vienen de carreras “business” como contabilidad, finanzas, administración, marketing, entre otras, los perfiles que mejor se adaptan son los de data scientist, data analyst o business analyst, ya que es donde se puede aprovechar en mayor medida el background profesional y complementar la experiencia en business con el conocimiento técnico.