Por Douglas Wallace
Gerente General, América Latina y el
Caribe (excepto Brasil) en Pure Storage
En Pure Storage no estamos satisfechos solo con mejorar
gradualmente lo que existe hoy día. Particularmente en el contexto de la era
los datos “modernos”. Si has escuchado sobre Pure Storage, sabes que nos
enfocamos en innovar, innovar e innovar.
Pero primero ... ¿Qué son los datos "modernos"?
Los datos modernos son cualquier cosa excepto algo básico.
Los datos modernos son siempre de misión crítica (y se encuentran bajo
constante amenaza). Nacen digitalmente, son multidimensionales, multimodales,
están geodistribuidos y nunca se encuentran en reposo. Y son por naturaleza
vastos. Realmente vastos.
- Nacimiento digital: los datos generados por una máquina no
encajan todos perfectamente en una base de datos. Ni siquiera se generan todos
de forma interna. Son multidimensionales y pueden ser muy impredecibles.
- Multimodalidad: los archivos ofrecen flexibilidad y
compatibilidad para los flujos de trabajo existentes. Los objetos ofrecen
compatibilidad e interoperabilidad con aplicaciones nativas de la nube. Las
aplicaciones del mundo real las combinan cada vez más en flujos consolidados.
De acuerdo con diferentes estudios, las empresas triplicarán sus requisitos de
datos de objetos y archivos no estructurados en los próximos tres años.
- Flujo constante: se generan, procesan y analizan miles de
millones de archivos y objetos en tiempo real a escala.
- Geodistribución: los datos modernos deben replicarse para
su protección y / o distribución, a veces desde la nube y otras hacia la nube.
Quizás lo más importante para tener en cuenta al administrar
datos modernos es que los detalles importan. Una plataforma optimizada para
datos modernos necesita ofrecer las mismas cosas de las que se ha hablado
durante años: rendimiento, simplicidad y la capacidad de consolidación.
Ese es el rendimiento, la simplicidad y la capacidad de
consolidación.
Cuando te ves obligado a elegir entre el rendimiento o la
simplicidad o la capacidad de consolidación, las cosas salen mal. Con datos
modernos, la arquitectura y los detalles de las características realmente importan.
Determinan si una plataforma realmente puede ofrecer las tres cosas de una
manera que aborde de manera única los desafíos de datos modernos.
Los datos modernos exigen nuevos paradigmas de rendimiento
El almacenamiento rápido de archivos no es nuevo. Sin
embargo, la mayoría de las arquitecturas tradicionales pueden ofrecer un alto
rendimiento para archivos pequeños o grandes y cargas de trabajo de archivos
secuenciales o aleatorias. Pero los datos modernos requieren todo lo anterior
al mismo tiempo.
¡Debido a que las máquinas pueden generar muchos tipos
diferentes de datos y a menudo debes capturar y analizar datos en tiempo real!
Porque diseñar para el futuro significa construir para lo desconocido, y la
carga de trabajo que tienes hoy puede cambiar mañana. Y porque la verdadera
consolidación significa no estar limitado en qué tipos de aplicaciones se
pueden combinar para compartir infraestructura.
En contraste, FlashBlade de Pure Storage ofrece rendimiento
de archivos y objetos multidimensionales a través de una arquitectura altamente
paralelizada. Este es un diferenciador clave del nivel de creación de categoría
y es fundamental para la capacidad de FlashBlade de llevar la consolidación al
siguiente nivel.
Entonces, ¿por qué objeto rápido? Es una pregunta
comprensible. De hecho, un analista comentó a nuestro equipo que "hace
solo unos años, el almacenamiento rápido de objetos era básicamente
imposible". Y tenía razón. El almacenamiento de objetos se introdujo
inicialmente como una forma simple de almacenar grandes cantidades de archivos
y datos menos críticos.
Pero no podíamos ignorar el hecho de que las aplicaciones
nativas de la nube usaban objetos como su almacenamiento predeterminado, también
conocido como capa de persistencia, y que el diseño de la aplicación estaba
cambiando para alinearse con estos conceptos nativos de la nube a menudo
basados en Amazon S3.
Vimos un futuro en el que algunas aplicaciones requerirían
un rendimiento superior al que se puede entregar en la nube pública. Una en la
que muchas organizaciones necesitarían la capacidad de ejecutar objetos rápidos
localmente o en una arquitectura de nube híbrida.
Un futuro en el que la nube múltiple, incluida la nube que
posees en tus instalaciones, necesitaría una estructura de almacenamiento de
objetos rápida. Con esta lógica en mente, diseñamos muy intencionalmente la
arquitectura subyacente de FlashBlade para dirigirnos hacia lo que sería una
nueva realidad.
Consolidación (no de antaño)
Desde que se introdujeron las primeras redes de
almacenamiento (SAN, por sus siglas en inglés) hace décadas, los proveedores de
almacenamiento (incluido Pure) han demostrado los principales beneficios de
alejarse del almacenamiento en silos y consolidación.
La consolidación se traduce en una capacidad menos lenta,
una mayor eficiencia ambiental y menos cosas para administrar. También es la
clave para permitir que diferentes aplicaciones aprovechen los mismos datos en
lugar de duplicarlos en silos. Es por eso por lo que ha sido interesante ver,
durante la última década, el resurgimiento de los entornos de almacenamiento de
conexión directa (DAS) en el que se requieren todos los recursos (computación +
almacenamiento, en particular) para crecer juntos, independientemente de la
necesidad. Es como agregar un motor a un tren cada vez que agregas un vagón: no
solo es un uso ineficiente y deficiente de los recursos, sino que es costoso y
complejo.
Si bien existen ventajas significativas para la
consolidación, el rendimiento y la escala siguen siendo grandes apuestas. Y
hasta FlashBlade, no había una sola plataforma que pudiera ofrecer el
rendimiento multidimensional necesario a escala para permitir que las
aplicaciones se alejen del DAS u otras arquitecturas aisladas y se den cuenta
de los beneficios de la consolidación.
Ahora hablemos de escala.
En el contexto de la consolidación, la "escala"
abarca diferentes puntos:
- Primero, la
forma más común de pensar sobre la escala de datos es en GB, TB y PB. Pero ese
es realmente solo un aspecto de la escala. Del mismo modo crítico es el número
de archivos u objetos en un conjunto de datos, que debe ser capaz de alcanzar
decenas o cientos de miles de millones en aplicaciones de datos modernas.
- En segundo
lugar, el rendimiento: la capacidad de comenzar con altos niveles de
rendimiento, pero también de aumentar previsiblemente ese rendimiento según sea
necesario.
- El tercero es
la capacidad de desbloquear ese rendimiento en múltiples dimensiones. Para
consolidar las cargas de trabajo con diferentes necesidades y patrones de E /
S, una solución debe proporcionar un alto rendimiento simultáneamente en
múltiples dimensiones.
- Por último, y
quizás lo más importante, es cómo escalas. Los requisitos de las cargas de
trabajo modernas rara vez se conocen por adelantado o estáticos, por lo que la
capacidad de escalar sin interrupciones y bajo demanda es crítica en entornos
consolidados.
Simplicidad: los datos modernos saben que menos es siempre
más
La simplicidad es una de las razones clave por las que las
organizaciones han gravitado hacia las ofertas de nube pública, y es
comprensible. "Archivos y objetos rápidos complicados" no solo no se
ajustan al proyecto de ley, sino que anula el propósito. Y no resuelve los
desafíos de costo, ineficiencia y complejidad de silos dispares o DAS difíciles
de manejar que se extienden por todas partes.
Pero la simplicidad, como el rendimiento, es
multidimensional y requiere mucho trabajo de diseño inicial para hacerlo bien.
A veces, una gran parte de esa simplicidad ni siquiera está en la capa de
almacenamiento en sí. A menudo hemos visto que el mayor desafío es la complejidad
de hacer que la red sea correcta. Tomamos este desafío de frente. No nos
detuvimos al inicio del problema y dejamos que la creación de redes sea un
ejercicio para el lector. En cambio, incorporamos e integramos redes en
FlashBlade.
Si fuera simple construir un sistema de escalabilidad que
sea accesible como una única dirección IP y con equilibrio de carga dinámico en
todos los servidores, no veríamos que tomaría 10 veces más tiempo configurar
otros entornos en comparación con FlashBlade.
Las plataformas competitivas requieren un ajuste extenso de
la configuración, como conteos de nodos, agregados de disco y agrupaciones, y
esquemas de protección, y tiempos de trabajo en segundo plano, entre otros
factores para ofrecer rendimiento.
Pero FlashBlade maneja algunas de las cargas de trabajo más
exigentes del mundo, incluidos los entornos masivos de IA, sin ajuste manual.
La configuración de la replicación en FlashBlade requiere solo dos pasos
comparado con un sinfín de manuales o una especialidad en almacenamiento.
Ahora, más que nunca, esto realmente importa para los datos modernos.