Puede que sus nombres no te suenen. Pero deberían. Databricks y Snowflake son dos de los principales actores que están protagonizando la actual revolución que estamos viviendo en materia de inteligencia artificial y machine learning. Te vamos a dar sólo un dato para que entiendas la magnitud del fenómeno: la semana pasada, durante una ronda de financiación, DataBricks obtuvo 500 millones de dólares más para añadir a su actual valoración de 43.000 millones de dólares. Casi nada. Entre los inversores, por cierto, estaba Nvidia. Ese nombre sí nos suena más, ¿no?

(Relacionado: La importancia de Nvidia en el mundo de la inteligencia artificial)

Snowflake y Databricks: lucha de titanes IA

En caso de que fueran necesarias más pruebas de que vivimos inmersos en una histeria colectiva que bien recuerda a la burbuja de las puntocom y, en menor medida, a la locura colectiva de las criptomonedas y el metaverso de hace unos años, lo que te vamos a contar a continuación evidencia cómo el mundo de las startups está volcado colectivamente en las inteligencias artificiales. La mencionada ronda de financiación de fondos del principio de este reportaje ha hecho de Databricks la octava empresa privada más valiosa del mundo, según datos de Crunchbase.

Databricks y Snowflake se han situado como los proveedores predominantes de plataformas de análisis de big data en la nube.

(Relacionado: El «todo o nada» de Microsoft y la IA con Windows Copilot, Bing, Office 365, Azure & Edge)

Es más que probable que todos aquellos que estén pensando en trasladar sus operaciones de datos a la nube hayan considerado usar los servicios de Databricks y Snowflake, dos de las empresas más grandes y de más rápido crecimiento en este espacio. Ambas parecen beneficiarse de la relativa independencia de no llevar el nombre de AWS (Amazon), Google Cloud o Microsoft Azure, ya que el miedo a encerrarse en sí mismas impulsa a las empresas a adoptar estrategias y plataformas multicloud.

que es snowflake

Pero, hablando claro, ¿a qué se dedican exáctamente Databricks y Snowflake?

Databricks es una plataforma basada en la nube que proporciona un espacio de trabajo analítico unificado para el procesamiento de big data, el aprendizaje automático (o machine learning) y las aplicaciones de IA. Está construida sobre el popular marco Apache Spark, lo que permite a los usuarios escalar sus tareas de procesamiento y análisis de datos de manera eficiente.

Snowflake, por su parte, es una solución de almacén de datos basada en la nube que se centra en el almacenamiento, la gestión y el análisis de datos estructurados y semiestructurados. Está diseñado para soportar el procesamiento paralelo masivo (MPP), que permite realizar consultas y análisis de datos con rapidez.

(Relacionado: Máster ejecutivo en inteligencia artificial: ¿cuál es el mejor?)

Databricks: ¿Qué es el LakeHouse?

Databricks se fundó en 2013, justo un año después de Snowflake (de la que hablaremos más adelante). A diferencia de Snowflake, fundada por profesionales de la industria, Databricks fue fundada por un grupo con profundas raíces en el mundo académico y la comunidad de código abierto. Sus siete cofundadores originales, incluido el actual CEO Ali Ghodsi, eran investigadores del AMP Lab de UC Berkeley, donde concibieron Apache Spark, un motor analítico unificado de código abierto para el procesamiento de datos a gran escala. Spark se ha convertido en uno de los mayores y más utilizados marcos de procesamiento de datos, que ejecuta ingeniería de datos, ciencia de datos y aprendizaje automático a escala.

Databricks se creó inicialmente para comercializar Spark, introduciendo una versión empresarial de Spark con todas las características (gobernanza, soporte, alojamiento, etc.) que necesitaban las grandes organizaciones. Desde entonces, Databricks ha evolucionado hasta convertirse en la novedosa «Lakehouse Platform», que unifica datos, analítica e IA. El concepto unificado de Lakehouse reúne «una plataforma para la integración, el almacenamiento, el procesamiento, la gobernanza, el intercambio, la analítica y la IA».

A diferencia de otras startups como Twitter o Facebook (empresas a las que les costó mucho demostrar una fuente de ingresos sólida en sus inicios), Databricks recientemente superó el hito de los 1.000 millones de dólares de ingresos. Sirven a miles de clientes empresariales y usuarios de código abierto y su salida a bolsa se considera una de las OPI más esperadas. A lo largo de todo este crecimiento, se están posicionando cada vez más como un líder en IA y recientemente han realizado adquisiciones y anuncios clave, incluida la adquisición de MosaicML por 1.300 millones de dólares (más información a continuación) y Dolly de código abierto, un LLM ajustado a las instrucciones entrenado por menos de 30 dólares. DataBricks le habla de tú a tú a gigantes del sector de la IA como Google, OpenIA o Snowflake.

(Relacionado: Las 10 tendencias en IA para 2024, según Forbes)

Snowflake: Del almacén de datos a la nube de datos

Snowflake fue fundada en 2012 por Benoît Dageville y Thierry Cruanes, dos expertos en bases de datos que previamente habían pasado muchos años en Oracle, donde hicieron la astuta observación de que la mayoría de los almacenes de datos eran «rígidos, caros y difíciles de usar.» Dageville y Cruanes se asociaron con Marcin Zukowski, antiguo CEO de Vectorwise (ahora Actian Vector), para construir el almacén de datos del futuro basado en tres premisas fundamentales:

  1. Una arquitectura totalmente basada en la nube.
  2. La separación de la computación del almacenamiento para permitir un escalado casi ilimitado.
  3. La elasticidad en el uso de los recursos informáticos, lo que se traduce en una velocidad de procesamiento de consultas y una flexibilidad sin precedentes.

En la actualidad, Snowflake ha pasado de ser «simplemente» un almacén de datos en la nube a convertirse en una «nube de datos», una plataforma única para que los clientes accedan a sus datos, los creen, colaboren con ellos y los rentabilicen. En poco más de una década, se ha convertido en una empresa pública con una capitalización bursátil de 55.000 millones de dólares que presta servicios a más de 6.000 clientes y a gran parte de la lista Fortune 500. Después de abrirse camino junto a los principales hiperescaladores (Azure, AWS y GCP), Snowflake ha fijado claramente su visión en ganar más cuota de mercado en inteligencia artificial.

(Relacionado: Guía para crear logos con IA gratis)

Para ello, han realizado varias adquisiciones y lanzamientos de productos en IA y ML, entre ellos los que destacan los siguientes:

  • Snowpark permite a los científicos de datos trabajar con sus lenguajes de programación preferidos para permitir el desarrollo, despliegue y orquestación de cargas de trabajo ML de extremo a extremo. Los clientes pueden ingerir, analizar y transformar sus datos para entrenar modelos de ML y ejecutar análisis más predictivos.
  • Streamlit es un creador de aplicaciones basado en datos que Snowflake adquirió por 800 millones de dólares en marzo de 2022, lo que permite a los clientes desarrollar aplicaciones intensivas en datos con sólo unas pocas líneas de código. Streamlit simplifica el proceso de contextualización de las tareas de análisis de datos y los resultados de los modelos ML a través de aplicaciones web front-end.
  • Neeva, que Snowflake adquirió a principios de este año en un esfuerzo por acelerar la forma en que las empresas interactúan y buscan con sus datos, en particular de una manera más conversacional.

(Relacionado: ¿Quién es quién en la lista Time 100 AI?)

Comparativa entre Snowflake y Databricks: lucha de titanes IA

databricks vs snowflake

Snowflake y Databricks están bien posicionadas para seguir capitalizando las tendencias seculares a largo plazo a medida que las empresas se posicionan para el cambio de paradigma de la IA generativa. Con la proliferación de aplicaciones de IA generativa, ambas empresas intentan posicionarse como plataformas estratégicas de datos multiproducto. A continuación, destacamos algunos de los principales anuncios recientes y nuestra opinión sobre la estrategia general de IA de cada empresa.

Puntos fuertes de DataBricks

LakehouseIQ: Interfaz de lenguaje natural impulsada por LLM para la búsqueda y consulta de datos y una potente comprensión de los datos del cliente, la jerga interna y los patrones de uso para comprender los esquemas, documentos, consultas, linaje y mucho más del cliente.

LakehouseAI: Databricks anunció varias capacidades nuevas en torno a Databricks ML, incluidas varias capacidades LLMOps como la agrupación de datos, la preparación de conjuntos de datos para ML, el ajuste y la curación de modelos ML y el despliegue de los propios modelos. Databricks también ha anunciado varias funciones en torno a la búsqueda vectorial, el servicio de características y MLFlow Gateway.

MosaicML: Justo antes del inicio de la Cumbre, Databricks anunció la adquisición de MosaicML por 1.300 millones de dólares, que durante la Cumbre se posicionó como «la máquina para construir tus modelos GenAI».

Otros anuncios destacados: Delta Lake 3.0, MLFlow 2.5 para soportar a través de diferentes LLMs backend, Lakehouse Apps, y Monitorización Inteligente con Databricks Lakehouse Monitoring.

Databricks ha adoptado un enfoque de unificación de la IA al reunir datos, modelos de IA y capacidades de supervisión y gobernanza en la plataforma Lakehouse. Como resultado, Databricks ha permitido a los clientes desarrollar sus soluciones GenAI de forma más eficiente, y los clientes los ven como un socio de confianza que es, de media, más rápido, más barato y más fácil de usar para facilitar el desarrollo de ML.

Aunque ya se le consideraba un actor clave en la pila de IA, Databricks ha reforzado su posición como líder en GenAI mediante inversiones en modelos como Dolly (un LLM de código abierto que sigue instrucciones) y su importante adquisición de MosaicML. Databricks continúa haciéndose eco del mensaje de que su Lakehouse es la mejor manera para que las startups gen-native entrenen y desplieguen sus propios modelos de IA, aprovechando sus datos propietarios de una manera rentable sin estar atados a Big Tech.

Puntos fuertes de Snowflake

Marco de aplicaciones nativas de Snowflake: Se trata de una nueva forma de poner los datos a trabajar permitiendo a los desarrolladores crear, distribuir y monetizar aplicaciones que pueden escalar con la Nube de Datos de Snowflake.

Servicios de contenedores Snowpark: Amplía la programabilidad de los datos y la infraestructura informática para admitir lenguajes de programación, acceder a software de terceros y mejorar la seguridad y la gobernanza para alojar aplicaciones full-stack y LLM. Proporciona más flexibilidad al generalizar la plataforma informática de Snowflake de modo que los clientes puedan ejecutar una aplicación completa de extremo a extremo desde la base de la pila (capa de datos) hasta la capa de interfaz de usuario.

Capacidades de streaming de Snowpipe; Tablas Dinámicas (también conocidas como Tablas Materializadas); Document AI (un nuevo servicio para extraer datos no estructurados dentro de documentos); y Iceberg Tables.

Anuncios de asociación: Snowflake ha anunciado varias asociaciones notables con NVIDIA, Microsoft y Weights & Biases.

  • Con Nvidia, Snowflake planea integrar el marco de desarrollo empresarial NeMo de la compañía en su Data Cloud, lo que permitirá a los clientes de Snowflake crear y desplegar LLM y aplicaciones basadas en IA aprovechando los datos propios que residen en Snowflake.
  • Con Microsoft, Snowflake amplía la asociación con Azure para centrarse en nuevas integraciones de productos en torno a los servicios OpenAI y Azure AI/ML de Microsoft Azure. La asociación tiene el potencial de aumentar las cargas de trabajo y los clientes en Data Cloud.
  • Con Weights & Biases, una plataforma líder de MLOps, los Servicios de Contenedores de Snowflake permiten a Weights & Biases acelerar el desarrollo iterativo de modelos ML, LLMs y aplicaciones impulsadas por LLM en Snowflake Data Cloud. En última instancia, esta asociación ayudará a las empresas y usuarios a construir y aprovechar más fácilmente la IA generativa.

Además de estas dos, Snowflake ha anunciado otras asociaciones con empresas como Alteryx, Hex, Dataiku, RelationalAI y Pinecone, entre otras.

Hasta hace muy poco, Snowflake no había revelado ningún plan para añadir IA generativa a sus capacidades existentes, y muchos inversores habían expresado su preocupación por que Snowflake estuviera siendo superado en este espacio (en particular por Databricks). Sin embargo, en la Cumbre 2023, Snowflake presentó una sólida historia en torno a su visión de ser una plataforma para la IA generativa, posicionándose como el proveedor de nube de datos de confianza.

La asociación de Snowflake con Nvidia y el anuncio de los servicios Snowpark Container ayudan a la empresa a afianzarse como un actor viable en la pila de datos de IA. Su mensaje principal es que pueden permitir a los clientes acceder, desarrollar y desplegar de forma segura LLM y aplicaciones basadas en IA dentro de Snowflake Data Cloud, a la vez que proporcionan acceso a computación acelerada con GPUs Nvidia y software de IA.

La capacidad de Snowflake para afianzar su posición en el mercado y con los clientes que confían sus datos a la compañía es evidente, y están creando el conjunto de herramientas para ser un competidor real en el mundo de la IA.

Databricks & Snowflake: Características principales, frente a frente

Databricks

Plataforma analítica unificada

Databricks combina capacidades de ingeniería de datos, ciencia de datos e IA en una sola plataforma, lo que permite la colaboración entre diferentes equipos y roles.

Apache Spark

Como plataforma basada en Spark, Databricks ofrece un alto rendimiento y escalabilidad para el procesamiento de big data y cargas de trabajo de aprendizaje automático.

Espacio de trabajo interactivo

Databricks proporciona un espacio de trabajo interactivo con soporte para varios lenguajes, incluyendo Python, R, Scala y SQL. También integra [Jupyter Notebook].

MLflow

Databricks incluye MLflow, una plataforma de código abierto para gestionar el ciclo de vida del aprendizaje automático de extremo a extremo, simplificando el desarrollo y la implementación de modelos.

Delta Lake

Delta Lake es una capa de almacenamiento de código abierto que aporta transacciones ACID y otras características de fiabilidad de datos a su lago de datos, mejorando la calidad y consistencia de los datos.

Snowflake

Almacén de datos en la nube

El objetivo principal de Snowflake es proporcionar una solución de almacén de datos en la nube escalable y fácil de usar.

Arquitectura única

La arquitectura de Snowflake separa el almacenamiento, la computación y los servicios en la nube, lo que permite un escalado independiente y la optimización de costes.

Compatibilidad con datos estructurados y semiestructurados

Snowflake puede manejar datos estructurados y semiestructurados, como JSON, Avro, Parquet y XML.

Intercambio e integración de datos

Snowflake ofrece capacidades nativas para compartir datos, simplificando la colaboración de datos entre organizaciones. También proporciona una amplia gama de [herramientas de integración de datos] para agilizar la ingestión y el procesamiento de datos.

Seguridad y conformidad

Snowflake pone un gran énfasis en la seguridad y el cumplimiento, con funciones como el cifrado, el control de acceso basado en funciones y la compatibilidad con diversas normas de cumplimiento.

En definitiva, Databricks y Snowflake son dos potentes plataformas diseñadas para abordar diferentes aspectos del procesamiento de datos y la analítica. Databricks destaca en el procesamiento de big data, el aprendizaje automático y las cargas de trabajo de IA, mientras que Snowflake sobresale en almacenamiento de datos, almacenamiento y análisis. El futuro les sonríe.

La IA generativa está en el centro de esta lucha por acaparar cuota de mercado que vamos a ver evolucionar durante los próximos años. Cada una de las empresas involucradas está reivindicando su posición como plataforma preeminente para impulsar el futuro de la IA. Como atestigua la historia de la tecnología, las rivalidades aceleran la innovación, y podríamos estar asistiendo a un combate igual al que dio lugar a la actual pugna entre Google y Microsoft. El de Databricks contra Snowflake bien podría ser el combate más importante de los próximos diez años. Recuerda dónde lo leíste primero.