PCA & PRA

Avez-vous déjà testé l’efficacité de votre solution de PCA ou de PRA ?

Notre équipe se déplace et vous fait vivre en direct le fonctionnement d’un PCA / PRA.

Il existe un grand nombre de solutions PCA et de PRA sur le marché. Qu’elles utilisent un logiciel dans le Cloud ou « on premise » (installé chez vous), qu’elles s’appuient sur deux exploitations (production – secours) ou sur une seule (cluster), elles ont un point commun : elles sont présentées et vendues sur papier ou sur Powerpoint mais rarement testées en situation réelle chez vous . Leur efficacité est souvent mise à mal lorsqu’un incident se produit.


C'est pourquoi nous souhaitons vous présenter les réflexions qui nous ont amenées à élaborer la solution de PCA/PRA que nous avons élaborée pour vous : l'HYPERDISPONIBILITE


Si vous le souhaitez, nous pouvons vous montrer cette solution, en "live" chez vous, et vous montrer son fonctionnement et son efficacité. Prenez contact avec nous, c'est sans engagement.


PCA & PRA

Le Data Center face aux risques


A elles seules, les pannent représentent 40% des indisponibilités. Ensuite, les sinistres majeurs représentent 35% des situations difficiles à gérer pour les entreprises. Depuis quelques temps, les entreprises sont exposées à de nouveaux risques : les virus et les cyber-attaques.

Face à ces risques, il est impératif de protéger l’exploitation mais également les données et l’ensemble du patrimoine digital de l’entreprise.

J’ai rédigé une série de billets. Ils ont pour but de vous accompagner dans vos réflexions ; réflexions souvent personnelles et centrées sur l’entreprise.

Néanmoins, les questions clés que j’ai voulu aborder sont centrées sur le plan de continuité d’activité PCA et le plan de reprise d’activité PRA. Mais au fait, qu’est-ce que ce truc-là ?

Enfin vous trouverez quelques explications sur la solution que CERIEL a bâti spécifiquement pour les PME et PMI. L’objectif de ce dispositif est de répondre à leurs besoins de disponibilité élevée du data center tout en respectant leurs contraintes budgétaires.

Comment et pourquoi choisir une technologie plutôt qu’une autre ?

Convergence, Hyperconvergence, SAN, SAS… Nous vous expliquons nos choix au travers de la suite de billets schématisée ci-dessus.



PCA / PRA quelques réflexions


Avez-vous estimé le coût de l’indisponibilité de vos data centers ?

Un arrêt de production a inévitablement un coût. Plus l’interruption est longue et plus ce coût risque d’être élevé.

Dans certaines entreprises, l’arrêt peut avoir un impact négligeable et n’engager aucun coût. Pour d’autres, au contraire, la moindre interruption de l’activité peut être catastrophique et se chiffrer rapidement en centaines de milliers d’euros de pertes. Ainsi, l’activité et la taille de l’entreprise influent sur les moyens à mettre en œuvre pour protéger l’exploitation.

 

Avez-vous déjà pris le temps d’identifier les risques auxquels votre entreprise est exposée ?

  • Panne matérielle
  • Erreur humaine
  • Défaut d’alimentation électrique
  • Sinistre divers (lesquels ?)
  • Incendie, catastrophe naturelle,
  • Etc.

La durée d’indisponibilité de vos data centers peut varier en fonction du type d’événement rencontré.

Au bout de combien de temps une interruption d’exploitation pourrait-elle mettre en péril votre activité : 30 minutes, une demi-journée, une journée, deux jours ?


Estimez-vous être à l’abri de ces risques ?

Les statistiques mondiales sont formelles :

A chaque situation à risque, sa ou ses parades

Si on établit une échelle croissante du risque, on peut définir ainsi les solutions à mettre en œuvre :

  • schéma risques pca et pcr

    Slide title

    Write your caption here
    Button

Avez-vous réfléchi au niveau de protection minimum nécessaire pour protéger votre entreprise ?

Certaines entreprises ont besoin d’un niveau de disponibilité élevé.

Même si c’est difficile à admettre, la prise de risque est élevée dans bon nombre de PME-PMI.


Il existe des solutions simples permettant de mettre en œuvre une protection de haut niveau à budget raisonnable.

Qu’il s’agisse d’un simple PCA permettant d’assurer une continuité de service malgré une panne ou d’un PRA permettant de redémarrer rapidement les services suite à un sinistre, il faut réfléchir aux solutions qui seraient les mieux adaptées aux exigences de l’activité de l’entreprise.


Expert en infrastructure sécurisée, nous vous conseillons dans vos réflexions et vos choix et vous accompagnons dans la mise en œuvre de votre projet.

 

Bibliographie

Blog Aureon.com : https://www.aureon.com/blog/5-downtime–recovery-statistics-for-your-business-to-avoid

Etude Forester « The State of IT Resiliency and Preparedness »: https://www.drj.com/images/surveys_pdf/forrester/2013-Forrester-Survey.pdf

PCA / PRA Organisation


Infrastructure - Par William SYDNEY-SMITH

En phase d’élaboration d’un PCA / PRA, l’organisation des ressources du data center est une des approches qui va permettre de définir les processus à mettre en œuvre en cas de panne ou de sinistre.


Dans la perspective de mise en place d’un PCA / PRA, deux objectifs doivent être définis par la direction générale de l’entreprise :

  • RTO : la durée maximale d’interruption admissible ou temps maximal pour reprendre l’activité
  • RPO : la perte de données maximale acceptable (ou delta de temps entre la perte maximale de données tolérée lors du sinistre et au moment de reprise de l’activité, point de redémarrage)
  • Slide title

    Write your caption here
    Button

Le PCA

La continuité de service du data center en cas de panne permet de s’assurer de la poursuite de l’activité de l’entreprise.

Comment peut-on assurer un niveau élevé de continuité de service d’un data center ?

S’appuyer sur ses ressources prévues pour un PRA n’est pas toujours la bonne solution.

Quels sont les paramètres qui vont permettre d’augmenter la résilience d’un data center ?

  • Les défaillances d’alimentation électrique représentent la majeure partie des pannes.
  • Les autres pannes dans un serveur se répartissent entre la mémoire (en 2ème) et les cartes adaptateurs de connexion réseau et SAN.
  • Les défauts de processeur et de carte mère représentent un niveau très faible de pannes.

La solution idéale consiste à prévoir la redondance des éléments les plus fréquemment soumis aux pannes. Il est conseillé de compléter cette solution par un contrat de maintenance dont le niveau de service peut être adapté au profil de l’entreprise (temps de prise en charge, temps d’intervention, etc.).

Aujourd’hui, les pannes ne se cantonnent plus aux simples ressources matérielles. Il faut désormais considérer les OS et les hyperviseurs. En ce qui les concerne, un abonnement au support des constructeurs et éditeurs est essentiel.

En assurant régulièrement un bon niveau de maintenance de tous ses composants (mise à jour des micro-codes, mise à jour des versions les plus récentes des OS et hyperviseurs, etc.), la disponibilité du data center sera naturellement à son niveau le plus élevé.

Toutefois, cela ne garantit aucunement une continuité permanente du service. Pour assurer la continuité de service, il va falloir investir plus.

Comment optimiser ces investissements ?

En premier lieu, il faut s’assurer que les objectifs fixés soient atteignables.

Habituellement, on se fixe pour objectif de respecter un niveau de perte de données proche de 0 soit un RPO = 0.

Le temps de reprise de l’activité de l’entreprise est variable. Il dépend de la gravité de la panne.

Un SAN sur lequel sont gérées toutes les données de l’entreprise, doit permettre d’optimiser la résilience de l’ensemble de la chaîne en mutualisant les disques et en offrant un niveau de protection des données plus élevé qu’une répartition des disques dans les serveurs.

Les principes arithmétiques peuvent également voler au secours de l’entreprise. En effet les taux de panne étant constants pour les mêmes éléments, il n’est pas judicieux de multiplier la quantité d’éléments identiques.

La bonne stratégie consiste donc (comme en SAN) à mutualiser ce qui peut l’être :

  • alimentation électrique,
  • ventilateur,
  • accès au réseau,

C’est à ce niveau que les technologies peuvent venir au secours du PCA.


Le PRA

La reprise d’activité après un sinistre reste un sujet plus difficile à cerner. Pour en juger, il suffit de noter sur le marché le nombre important de solutions pour traiter ce sujet.

Du redémarrage à froid (sur du matériel dédié au secours) à la solution dans le Cloud, les solutions sont multiples.

Quelles solutions seraient les mieux adaptées à votre entreprise ? Comment faire un choix ?

En ce qui concerne le PCA, l’atteinte des objectifs dépend des contrats de maintenance, des principes de redondance et de mutualisation de certains dispositifs.

Au niveau du PRA, l’architecture de la solution doit être le premier élément pris en considération.

  • Slide title

    Write your caption here
    Button

Et si une seule solution permettait de répondre aux deux objectifs :

  • se protéger des pannes,
  • reprendre l’activité après un sinistre avec un RPO et un RTO = 0 ?

La mise en œuvre d’une telle solution dépend des ressources dont l’entreprise a besoin.

Pour y parvenir, l’architecture serait la suivante :

  • schema data center

    Slide title

    Write your caption here
    Button

En ne voyant dans cette architecture qu’une seule exploitation, et grâce à l’apport de certaines fonctionnalités des hyperviseurs et du SAN, il est possible d’atteindre et un RPO = 0 soit aucune perte de données, et un RTO très proche de zéro dans certains cas. Cette méthode est efficace pour faire face à des pannes, comme à des sinistres.


Bien sûr, il faut prendre en compte les paramètres de faisabilité :

  • type de lien entre les deux sites,
  • distance entre les deux sites
  • ressources réparties et mode de fonctionnement en PRA


Tout comme pour le PCA, les technologies du marché peuvent également venir au secours du PRA.

PCA PRA : optimiser les solutions et les investissements


Sécurité - Par William Sydney-Smith

Disposer d’un data center dans l’entreprise a un coût qui peut être important. Alors qu’il devrait être vu comme un centre de profit stratégique, le data center est très souvent considéré comme un centre de coûts.

Il est donc très difficile pour la direction de l’entreprise de décider d’investir dans des dispositifs visant à garantir sa disponibilité.

Peut-on optimiser les investissements pour déployer un PCA / PRA ?

Cette question en amène d’autres telles que :

  • Comment s’assurer que chaque euro investi améliorera réellement la disponibilité du data center ?
  • Est-il raisonnable d’envisager de mettre en œuvre un PCA / PRA sans allouer un budget spécifique à la continuité et la reprise d’activité ?
  • engrenage data management

    Slide title

    Write your caption here
    Button

Grâce à ces réflexions, nous avons pu choisir des technologies et des architectures permettant de disposer des bonnes ressources pour le data center, d’offrir aux utilisateurs des performances à la hauteur de leurs attentes et respecter les bonnes pratiques en matière d’exploitation du data center.

Imaginons qu’il vous soit proposé de profiter de la fin d’amortissement de votre data center pour évoluer vers

une solution qui non seulement le moderniserait mais surtout vous permettrait d’en garantir sa disponibilité au travers de la mise en œuvre d’un PCA / PRA.

Saisiriez-vous cette opportunité ?

C’est précisément pour répondre aux besoins de l’entreprise en matière de modernisation de son data center et de mise en œuvre de son PCA / PRA que CERIEL a imaginé la démarche de l’ Hyperdisponibilité. 

PCA PRA Des technologies au secours de l'entreprise


Comment améliorer les ressources face aux exigences du PCA ?

Comment réduire la complexité et le coût d’un PRA ?

C’est par le choix des technologies que l’on pourra atteindre la meilleure optimisation du PCA / PRA.


La résilience optimale d’un data center 

Elle peut être obtenue en mariant trois approches déjà largement adoptées par le marché :


-         Le serveur lame / noeud

-         La mutualisation de serveurs avec un hyperviseur

-         La mutualisation des volumes disques avec le SAN


Le serveur lame

Il permet de réduire le nombre d’occurrences de panne des éléments communs à tous les serveurs en les mutualisant.

Le châssis serveur lame va donc prendre en charge, avec redondance, les missions :

-         d’alimentation électrique,

-         des ventilateurs,

-         de l’accès au réseau,

-         de l’accès au SAN


La mutualisation de serveurs avec un hyperviseur :

Cette approche permet de réduire les investissements matériels. Plus important : certaines fonctions de l’hyperviseur vont permettre d’assurer le fonctionnement de toutes les machines virtuelles même en cas de perte de l’une d’entre elles.

 

La mutualisation des volumes disques avec le SAN

Elle permet de mettre en œuvre une protection de disque de haut niveau. Le contrôleur disque disposera de deux canisters distincts (en actif actif) avec chacun de 2 à 4 liens possibles vers les serveurs.

Les alimentations électriques sont redondées dans la plupart des solutions du marché.

Les principes de protection disque seront pratiquement tous disponibles chez tous les constructeurs (stratégies RAID – 1, 5, 6, 10).


A noter :

Pour les petites organisations, il existe une solution qui permet d’investir de manière plus réduite, sans le serveur lame, mais avec une approche plus sécurisée.

Dans certains cas la redondance du serveur lame peut être simulée avec du matériels plus classique : deux serveurs avec Hyperviseur, un onduleur mutualisé, et un SAN connecté aux serveurs ( soit en SAS full mesh soit en FC via deux switch) Et pour le PRA, cette solution peut être répartie sur deux salles. Le Data Center de l’entreprise devient don virtuel, sur eux salles.


Apport de l’arithmétique :

  • Slide title

    Write your caption here
    Button

Sur un serveur lame contenant 3 serveurs, le nombre d’alimentations électriques est réduit de moitié voire de 2/3 en fonction de la stratégie de protection. Alors, le taux de panne diminue pour le même nombre de serveurs.

Cette approche sera la même pour les ventilateurs, les adaptateurs réseaux et les disques.


Soit statistiquement, 3 fois moins de pannes.

 

Exemple d’améliorations de la disponibilité apportées par les technologies :

  • schema ameliorations

    Slide title

    Write your caption here
    Button

Apport des différentes technologies

 

Lexique

PCA : plan de continuité d’activité. Il protège des pannes.

PRA : plan de reprise d’activité (Disaster Recovery en anglais). Il permet la reprise d’activité après un sinistre (feu, inondation, etc.)

RTO : Recovery Time Objective, durée maximale d’interruption admissible

RPO : Recovery Point Objective, perte de données maximale acceptable

Demandez une démonstration PCA/PRA aujourd’hui 

Contactez-nous
Share by: