miércoles, julio 01, 2020

Archivo y objeto unificados: una nueva categoría de almacenamiento


Por Douglas Wallace
Gerente General, América Latina y el Caribe (excepto Brasil) en Pure Storage

En Pure Storage no estamos satisfechos solo con mejorar gradualmente lo que existe hoy día. Particularmente en el contexto de la era los datos “modernos”. Si has escuchado sobre Pure Storage, sabes que nos enfocamos en innovar, innovar e innovar.
Pero primero ... ¿Qué son los datos "modernos"?
Los datos modernos son cualquier cosa excepto algo básico. Los datos modernos son siempre de misión crítica (y se encuentran bajo constante amenaza). Nacen digitalmente, son multidimensionales, multimodales, están geodistribuidos y nunca se encuentran en reposo. Y son por naturaleza vastos. Realmente vastos.

- Nacimiento digital: los datos generados por una máquina no encajan todos perfectamente en una base de datos. Ni siquiera se generan todos de forma interna. Son multidimensionales y pueden ser muy impredecibles.

- Multimodalidad: los archivos ofrecen flexibilidad y compatibilidad para los flujos de trabajo existentes. Los objetos ofrecen compatibilidad e interoperabilidad con aplicaciones nativas de la nube. Las aplicaciones del mundo real las combinan cada vez más en flujos consolidados. De acuerdo con diferentes estudios, las empresas triplicarán sus requisitos de datos de objetos y archivos no estructurados en los próximos tres años.

- Flujo constante: se generan, procesan y analizan miles de millones de archivos y objetos en tiempo real a escala.

- Geodistribución: los datos modernos deben replicarse para su protección y / o distribución, a veces desde la nube y otras hacia la nube.
Quizás lo más importante para tener en cuenta al administrar datos modernos es que los detalles importan. Una plataforma optimizada para datos modernos necesita ofrecer las mismas cosas de las que se ha hablado durante años: rendimiento, simplicidad y la capacidad de consolidación.
Ese es el rendimiento, la simplicidad y la capacidad de consolidación.
Cuando te ves obligado a elegir entre el rendimiento o la simplicidad o la capacidad de consolidación, las cosas salen mal. Con datos modernos, la arquitectura y los detalles de las características realmente importan. Determinan si una plataforma realmente puede ofrecer las tres cosas de una manera que aborde de manera única los desafíos de datos modernos.

Los datos modernos exigen nuevos paradigmas de rendimiento
El almacenamiento rápido de archivos no es nuevo. Sin embargo, la mayoría de las arquitecturas tradicionales pueden ofrecer un alto rendimiento para archivos pequeños o grandes y cargas de trabajo de archivos secuenciales o aleatorias. Pero los datos modernos requieren todo lo anterior al mismo tiempo.
¡Debido a que las máquinas pueden generar muchos tipos diferentes de datos y a menudo debes capturar y analizar datos en tiempo real! Porque diseñar para el futuro significa construir para lo desconocido, y la carga de trabajo que tienes hoy puede cambiar mañana. Y porque la verdadera consolidación significa no estar limitado en qué tipos de aplicaciones se pueden combinar para compartir infraestructura.
En contraste, FlashBlade de Pure Storage ofrece rendimiento de archivos y objetos multidimensionales a través de una arquitectura altamente paralelizada. Este es un diferenciador clave del nivel de creación de categoría y es fundamental para la capacidad de FlashBlade de llevar la consolidación al siguiente nivel.
Entonces, ¿por qué objeto rápido? Es una pregunta comprensible. De hecho, un analista comentó a nuestro equipo que "hace solo unos años, el almacenamiento rápido de objetos era básicamente imposible". Y tenía razón. El almacenamiento de objetos se introdujo inicialmente como una forma simple de almacenar grandes cantidades de archivos y datos menos críticos.
Pero no podíamos ignorar el hecho de que las aplicaciones nativas de la nube usaban objetos como su almacenamiento predeterminado, también conocido como capa de persistencia, y que el diseño de la aplicación estaba cambiando para alinearse con estos conceptos nativos de la nube a menudo basados ​​en Amazon S3.
Vimos un futuro en el que algunas aplicaciones requerirían un rendimiento superior al que se puede entregar en la nube pública. Una en la que muchas organizaciones necesitarían la capacidad de ejecutar objetos rápidos localmente o en una arquitectura de nube híbrida.
Un futuro en el que la nube múltiple, incluida la nube que posees en tus instalaciones, necesitaría una estructura de almacenamiento de objetos rápida. Con esta lógica en mente, diseñamos muy intencionalmente la arquitectura subyacente de FlashBlade para dirigirnos hacia lo que sería una nueva realidad.

Consolidación (no de antaño)
Desde que se introdujeron las primeras redes de almacenamiento (SAN, por sus siglas en inglés) hace décadas, los proveedores de almacenamiento (incluido Pure) han demostrado los principales beneficios de alejarse del almacenamiento en silos y consolidación.
La consolidación se traduce en una capacidad menos lenta, una mayor eficiencia ambiental y menos cosas para administrar. También es la clave para permitir que diferentes aplicaciones aprovechen los mismos datos en lugar de duplicarlos en silos. Es por eso por lo que ha sido interesante ver, durante la última década, el resurgimiento de los entornos de almacenamiento de conexión directa (DAS) en el que se requieren todos los recursos (computación + almacenamiento, en particular) para crecer juntos, independientemente de la necesidad. Es como agregar un motor a un tren cada vez que agregas un vagón: no solo es un uso ineficiente y deficiente de los recursos, sino que es costoso y complejo.
Si bien existen ventajas significativas para la consolidación, el rendimiento y la escala siguen siendo grandes apuestas. Y hasta FlashBlade, no había una sola plataforma que pudiera ofrecer el rendimiento multidimensional necesario a escala para permitir que las aplicaciones se alejen del DAS u otras arquitecturas aisladas y se den cuenta de los beneficios de la consolidación.
Ahora hablemos de escala.
En el contexto de la consolidación, la "escala" abarca diferentes puntos:

-      Primero, la forma más común de pensar sobre la escala de datos es en GB, TB y PB. Pero ese es realmente solo un aspecto de la escala. Del mismo modo crítico es el número de archivos u objetos en un conjunto de datos, que debe ser capaz de alcanzar decenas o cientos de miles de millones en aplicaciones de datos modernas.

-      En segundo lugar, el rendimiento: la capacidad de comenzar con altos niveles de rendimiento, pero también de aumentar previsiblemente ese rendimiento según sea necesario.

-      El tercero es la capacidad de desbloquear ese rendimiento en múltiples dimensiones. Para consolidar las cargas de trabajo con diferentes necesidades y patrones de E / S, una solución debe proporcionar un alto rendimiento simultáneamente en múltiples dimensiones.

-      Por último, y quizás lo más importante, es cómo escalas. Los requisitos de las cargas de trabajo modernas rara vez se conocen por adelantado o estáticos, por lo que la capacidad de escalar sin interrupciones y bajo demanda es crítica en entornos consolidados.

Simplicidad: los datos modernos saben que menos es siempre más
La simplicidad es una de las razones clave por las que las organizaciones han gravitado hacia las ofertas de nube pública, y es comprensible. "Archivos y objetos rápidos complicados" no solo no se ajustan al proyecto de ley, sino que anula el propósito. Y no resuelve los desafíos de costo, ineficiencia y complejidad de silos dispares o DAS difíciles de manejar que se extienden por todas partes.
Pero la simplicidad, como el rendimiento, es multidimensional y requiere mucho trabajo de diseño inicial para hacerlo bien. A veces, una gran parte de esa simplicidad ni siquiera está en la capa de almacenamiento en sí. A menudo hemos visto que el mayor desafío es la complejidad de hacer que la red sea correcta. Tomamos este desafío de frente. No nos detuvimos al inicio del problema y dejamos que la creación de redes sea un ejercicio para el lector. En cambio, incorporamos e integramos redes en FlashBlade.
Si fuera simple construir un sistema de escalabilidad que sea accesible como una única dirección IP y con equilibrio de carga dinámico en todos los servidores, no veríamos que tomaría 10 veces más tiempo configurar otros entornos en comparación con FlashBlade.
Las plataformas competitivas requieren un ajuste extenso de la configuración, como conteos de nodos, agregados de disco y agrupaciones, y esquemas de protección, y tiempos de trabajo en segundo plano, entre otros factores para ofrecer rendimiento.
Pero FlashBlade maneja algunas de las cargas de trabajo más exigentes del mundo, incluidos los entornos masivos de IA, sin ajuste manual. La configuración de la replicación en FlashBlade requiere solo dos pasos comparado con un sinfín de manuales o una especialidad en almacenamiento. Ahora, más que nunca, esto realmente importa para los datos modernos.