top of page

Al Robot: Saber dónde buscar


Saber dónde buscar


Por Edgar Tercer.


Es medio año, la situación económica mundial sigue en incertidumbre, el peso sigue ganando terreno, no sabremos hasta cuándo. Pero lo que si sabemos es que las tasas no pueden mantenerse altas todo el tiempo y deberá llegar una compensación. Inclusive sabemos lo que ha tenido que hacer Estados Unidos en el pasado para seguir pagando a sus inversores, emitir más dinero o endeudarse más.


Esto no es una adivinanza, esto es parte de analizar los datos del pasado para predecir lo que acontecerá en el futuro, o al menos logremos una mejor inferencia o interpretación de lo que pudiera suceder, para ello requerimos de diferentes fuentes de datos, algo que ya no es novedad en 2023, ya que los datos están por todas partes.


Los datos son el corazón de las aplicaciones que usan algoritmos para volverse cada vez más buenos en la realización de una tarea en particular, ya que están expuestos a más y más datos relacionados con una tarea. Estas tareas pueden ser cualquier cosa, desde responder preguntas y crear texto o imágenes (como lo demuestran aplicaciones como ChatGPT) hasta reconocer imágenes (visión por computadora) o navegar vehículos autónomos de un punto A a un punto B.


Todas estas tareas requieren datos, y las empresas que desean entrenar sus propios algoritmos de ML (La inteligencia artificial más utilizada en la actualidad) para automatizar sus tareas diarias necesitan fuentes de datos.


¿Qué tipo de datos existen?


Los datos comerciales se dividen comúnmente en una de dos categorías: datos internos y externos.


Los datos internos son datos recopilados por las propias organizaciones dentro de sus propias operaciones. Esto comúnmente incluye datos financieros, datos de comentarios de clientes, datos de recursos humanos, datos operativos y muchas más fuentes. Se dice que los datos recopilados por una organización que supervisa sus propias operaciones son datos patentados y son valiosos porque brindan información específica para ese negocio.


Los datos externos provienen de fuentes externas a la organización y, por lo general, se recopilan de fuentes de datos de terceros. Si los datos están disponibles gratuitamente para cualquier persona, se denominan datos abiertos. Créanme que estos son abundantes, solo hay que saber buscar en el lugar correcto, tan sencillo como aprender a explotar el buscador de Google cuando navegamos en internet.


Además de esto, los datos también se pueden clasificar como datos estructurados, no estructurados o semiestructurados.


Los datos estructurados son información que se ajusta bien y ordenadamente en las tablas; por ejemplo, los datos de ventas que muestran qué productos se vendieron en una empresa, cuándo, dónde y a qué precio serían un ejemplo de datos estructurados internos. Alternativamente, podría optar por analizar datos de mercado históricos e indicadores económicos para predecir movimientos futuros en los mercados en los que operan (datos externos estructurados).


Los datos no estructurados han ido en aumento en la última década, donde ya no basta con tener tablas, se requiere de analizar otro tipo de objetos, no solo números y letras, por ejemplo, imágenes, videos, texto y publicaciones en redes sociales. Ciertamente puede contener información valiosa, pero es más difícil de analizar. Sin embargo, la IA ha demostrado ser particularmente útil para extraer significado de datos no estructurados. Los algoritmos de reconocimiento de imágenes, por ejemplo, pueden informarle a una empresa datos útiles sobre el comportamiento del cliente mediante el análisis de imágenes de CCTV en la tienda (datos internos no estructurados). También pueden encontrar información valiosa mediante el análisis de imágenes relacionadas con el negocio publicadas en las redes sociales (datos externos no estructurados).



Afortunadamente, los datos están en todas partes. Independientemente de lo que intente hacer, si requiere datos externos, es probable que haya una fuente en línea. Los gobiernos, las instituciones de investigación, las empresas privadas y las organizaciones no gubernamentales suelen hacer que los datos estén disponibles de forma gratuita con fines de investigación e incluso comerciales. Veamos algunos sitios que ofrece Google como fuentes de datos que se pueden acceder para buscar desde palabras, imágenes, vídeos, sonidos:


* Búsqueda de conjuntos de datos de Google (https://datasetsearch.research.google.com): este es en realidad un motor de búsqueda de conjuntos de datos catalogados por Google; use esto para encontrar datos sobre casi cualquier cosa que pueda necesitar.


* Imágenes abiertas de Google (https://storage.googleapis.com/openimages/web/index.html): millones de imágenes clasificadas y etiquetadas de varias maneras, adecuadas para entrenar muchos tipos diferentes de algoritmos de visión por computadora.


* Conjunto de audio (https://research.google.com/audioset/): otro conjunto de datos seleccionado por Google, este se centra en los sonidos y contiene cientos de miles de muestras de 10 segundos divididas en categorías como instrumentos musicales, vehículos y voces.

* Conjunto de datos abiertos de Waymo (https://waymo.com/open/): la subsidiaria de conducción autónoma de Alphabet, Waymo, hace que una gran cantidad de datos recopilados a través de vehículos autónomos sean de acceso público, incluidos los datos de sensores de cámaras y LiDAR.


Y esto es solo lo que ofrece una compañía, podemos buscar más opciones abiertas a todo público, inclusive nos podemos dar cuenta que estas fuentes alimentan a las aplicaciones más comunes hoy en día, entre ellas la muy famosa ChatGPT, pero son estos pequeños detalles que nos abren los ojos ante la inmensa cantidad de posibilidades que tenemos en nuestras manos el día de hoy, y que no resultan tan complejas como algunos quieren hacer creer.


“Analfabeto será aquel que no pueda leer datos”




Aviso Oportuno

1/13
1/468
diseño banner 1.1.jpg
organon_Mesa de trabajo 1.jpg
la lealtad (1).jpg
LA LEALTAD NOTICIAS 243 X 400 (4).jpg
bottom of page