| |
| |
| |
Qu'est-ce qu'une sauvegarde en ligne ? |
| |
| |
La sauvegarde en ligne, appelée également sauvegarde distante est un espace de stockage en ligne qui permet de sauvegarder ses données à distance (online data backup). Ce « disque dur » en ligne permet de sauvegarder et de protéger tout type de données (textes, photos, feuilles de calcul, présentations etc.) sans limite, si ce n’est celle imposée par l’offre choisie. |
| |
| |
Chez Sauvegarde Distante, la capacité moyenne de stockage en ligne varie de 5 Go à 1000 Go, facturés jusqu'à moins de 0,5 € par giga-octet et par mois. |
| |
| |
| |
Quelle est l’utilité d’une sauvegarde en ligne ? |
| |
|
| |
Lors du lancement de la 4ème « Journée Sécurité », le 29 avril 2009 le site Clusif a souhaité sensibiliser ses lecteurs aux risques de l’informatique par l’étude suivante : « En 2007, 1 société Européenne sur 4 a été victime d'une attaque informatique ou d'une panne système. Cette perte, totale ou partielle d'information, impacte directement le business des entreprises. » (http://www.clusif.asso.fr). |
| |
|
| |
Ce constat met en évidence l’importance vitale des données pour toute entreprise ainsi que la nécessité de les sauvegarder et de les conserver dans un endroit sûr. |
| |
|
| |
Aujourd’hui, de nombreuses solutions de sauvegarde externe physique existent : clés USB, CD-DVD gravés, disques durs externes fixes ou portables…
Toutefois, ces différents supports présentent plusieurs inconvénients :
- Clés USB et les CD-DVD gravés ont une capacité de stockage inadaptée à la sauvegarde de données en grande quantité.
- Pour les CD et DVD se pose également le problème de la pérennité des données, en effet le support peut être altéré et ainsi perdre définitivement vos données.
- Enfin, tous ces supports ne sont pas à l’abri d’incidents physiques (chute, incendie, dégât des eaux, vol) ou matériels (erreurs de manipulation, courts-circuits, piratage, vandalisme) qui pourraient conduire une entreprise saine à la faillite. |
| |
|
| |
Il existe tout de même une solution efficace et sûre : la sauvegarde en ligne ou sauvegarde distante. |
| |
|
| |
En effet, dans le cas de la sauvegarde externalisée, la pérennité des données stockées est assurée par le prestataire, qui assure la maintenance de ses serveurs, vérifie le bon déroulement des transferts de données et effectue une sauvegarde en interne des données stockées pour se prémunir de toute panne. La plupart des hébergeurs utilisent la technique de la redondance des données, c’est-à-dire qu’ils utilisent deux disques durs reliés qui enregistrent simultanément les mêmes informations. Ainsi, en cas de crash ou de défaillance de l’un des disques l’autre prend le relais. |
| |
|
| |
Son utilité est double, car en plus de sauvegarder et sécuriser les données, il rend accessible vos données depuis tout ordinateur équipé d’une connexion internet. Il suffit donc de se connecter à son espace personnel pour retrouver l’intégralité de son contenu. |
| |
|
| |
|
| |
Comment différencier les offres de sauvegarde en ligne ? |
| |
|
| |
Les différents sites de sauvegarde distante se différencient sur plusieurs points :
• Les tarifs pratiqués : souvent compris entre 1€ et 2€ par giga et par mois.
• La méthode de sauvegarde utilisée : incrémentielle, différentielle, complète, etc. (cf. ci-dessous).
• La restauration des données : certains prestataires font parvenir à leurs utilisateurs en cas d’incident des CD-Rom/DVD-Rom de restauration dans un délai de 24 à 48h, d’autres laissent la possibilité à l’utilisateur de restaurer lui-même son système à partir des sauvegardes distantes, etc.
• La gestion des utilisateurs : autoriser l’accès aux données sauvegardées à certains utilisateurs, autoriser l’accès à certaines données seulement, etc.
• Le cryptage des données : certaines offres proposent pour plus de sécurité un cryptage des données avant transfert ce qui prévient toute intrusion pendant le transfert, d’autres fournissent un cryptage sur leur serveur ou encore aucun cryptage.
• La compression des données. La compression des données n’est pas systématique, mais certains sites de sauvegarde y sont favorables car elle permet de réduire l’espace stocké, ou si elle est effectuée avant le transfert des données elle permet de réduire le temps de transfert et ainsi de diminuer l’exposition au risque de piratage dans le cas où les données ne sont pas cryptées.
• La récupération des données : certains prestataires proposent une récupération de vos données basée sur des dates, par exemple 7 jours, ce qui signifie les différentes versions d’un même fichier sont récupérables pendant 7 jours. C’est la technique la plus courante toutefois elle présente un désavantage, lors d’une période d’inactivité supérieure au cycle fixé le système effectue des sauvegardes bien qu’il n’y ait pas eu de modifications aux fichiers, ainsi seule la dernière version reste exploitable.
Une autre technique, bien supérieure, repose sur les versions, par exemple 3 versions, ce qui signifie que 3 versions sont sauvegardées, pendant une durée limitée ou illimitée. Elle augmente en revanche la taille des données à cause de la conservation des archives historiques, mais cette contrainte est faible par rapport à l'avantage apporté. |
| |
|
| |
|
| |
Les différentes méthodes de sauvegarde |
| |
|
| |
Toutes les méthodes de sauvegarde distante professionnelles font appel à une technique de gestion des versions appelée le versioning. Il s’agit d’une technique permettant de conserver une trace des modifications successives apportées à un fichier. Cette technique permet de savoir quelles sont les données qui ont subi une modification (nom, taille, horodatage) et qui sont donc à sauvegarder.
Le versioning permet ainsi de retrouver des données effacées, mais aussi des versions antérieures des données. |
| |
|
| |
Remarque : cette technique repose sur un cycle (basé sur un nombre de jours ou de versions) défini par l’utilisateur ou le prestataire. |
| |
|
| |
Par exemple dans le cas d’un cycle de 7 jours glissants, la version récupérable la plus ancienne est celle datant de 7 jours ; dans le cas d’un cycle basé sur 7 versions la version récupérable la plus ancienne sera celle remontant à 7 modifications quelque soit leur ancienneté. |
| |
|
| |
Pour une compréhension plus aisée des différents types de backup, nous allons reprendre le même exemple pour chaque type de backup. Dans cet exemple, l’entreprise possède 5 fichiers : A, B, C, D et E et procède à une sauvegarde quotidienne de ses fichiers. Lorsqu’un fichier est modifié, il porte une astérisque, ainsi si on modifie une fois A on aura A* la version modifiée de A, A** la version modifiée de A* etc. L’appellation « disque local » fait référence au disque dur de l’entreprise et « sauvegarde en ligne » fait référence à ce qui est sauvegardé sur l’espace de stockage en ligne enfin la case « données transférées » matérialise le contenu transféré lors des sauvegardes. |
| |
|
| |
L’exemple : Au jour 2 l’entrepreneur modifie uniquement le fichier A. Au jour 3 il modifie B et C et au jour 4 il modifie de nouveau B. |
| |
|
| |
• La sauvegarde complète : le principe est simple, à une échéance donnée le serveur va procéder à une sauvegarde de vos fichiers. |
| |
|
| |
 |
| |
|
| |
Inconvénients : La sauvegarde complète des fichiers est très lourde, elle prend beaucoup de place sur le serveur et est très longue en raison de l’importance des données transmises à chaque sauvegarde. Si aucune modification n’est réalisée sur les données les sauvegardes seront tout de même effectuées, il faut donc faire attention à la multiplication des versions identiques.
Avantages : Ce type de sauvegarde permet de garder toutes les versions de ses fichiers. Si l’on a un problème et que l’on souhaite rétablir son système à un instant T, il suffit de charger la sauvegarde réalisée à cette date. |
| |
|
| |
• La sauvegarde incrémentielle ou incrémentale : lors de la mise en œuvre de ce type de sauvegarde, le serveur procède tout d’abord à la sauvegarde complète des données N0. Par la suite les données modifiées seront sauvegardées en écrasant les anciennes versions, les nouvelles données seront ajoutées et les données supprimées le seront également sur la sauvegarde. La sauvegarde incrémentielle courante N se base sur la version N -1 de vos données. |
| |
|
| |
 |
| |
|
| |
Inconvénients : Pour charger une version précise, je dois charger la sauvegarde initiale puis toutes les sauvegardes intermédiaires.
Avantages : Je peux choisir de revenir à une version précise. Une fois la sauvegarde initiale effectuée les sauvegardes sont rapides car seuls les fichiers modifiés, crées ou supprimés sont pris en compte. |
| |
|
| |
• La sauvegarde différentielle : ce type de backup repose également sur une sauvegarde initiale complète de vos données N0. Les données modifiées sont ensuite sauvegardées au fil de l’eau. Dans cette méthode, les données sauvegardées sont toutes celles modifiées par rapport à N0. C’est-à-dire que la sauvegarde différentielle repose sur un cycle déterminé par l’utilisateur ou l’hébergeur. A un instant « t » le serveur effectue une sauvegarde de votre système et pendant la période de choisie (x jours, y semaines, z mois...) chaque mise à jour de la sauvegarde se fera en fonction de l’image de votre disque dur à l’instant t.
Cette méthode offre un avantage, si l’on veut restaurer la dernière version de ses fichiers, il suffit de charger la sauvegarde complète à « t » et la sauvegarde différentielle contenant la dernière version de nos fichiers.
Cette manipulation n’est pas permise par la sauvegarde incrémentale, qui nous oblige à charger la sauvegarde complète ainsi que toutes les sauvegardes incrémentales précédant la version souhaitée. |
| |
|
| |
 |
| |
|
| |
Inconvénients : Le cycle de sauvegarde. Une fois le cycle de sauvegarde écoulé il n’est plus possible de revenir à la version datant du début cycle.
Avantages : La rapidité du transfert, car il ne s’agit aussi que d’une « mise à jour » de la sauvegarde initiale. Le fait que la sauvegarde de référence soit la sauvegarde initiale, cela permet de ne charger que la sauvegarde initiale ainsi que la sauvegarde de la version souhaitée. |
| |
|
| |
• La synchronisation unidirectionnelle : dans cette méthode, les modifications vont de votre disque dur physique vers votre sauvegarde distante online, à sens unique et automatiquement. La sauvegarde est un miroir du serveur
(mirroring). |
| |
|
| |
 |
| |
|
| |
Inconvénients : l’absence de gestion des versions. Pour que cette technique soit efficace il faut la coupler à un versioning.
Avantages : plus rapide que la sauvegarde complète ; car elle ne synchronise que les données modifiées, créées ou supprimées, elle dispose des mêmes avantages. |
| |
|
| |
|
| |
La redondance des données |
| |
|
| |
La redondance des données permet de répartir les données sur plusieurs disques durs afin de réduire le risque de panne, d’augmenter la sécurité et les performances de l’ensemble.
Les techniques utilisées pour faire de la redondance de données en informatique s’appellent RAID, pour Matrice Redondante de Disques Indépendants (Redundant Array of Independant Disks). Elles ont été élaborées par les chercheurs de l’Université de Berkeley en 1987 à partir des travaux de Norman Ken Ouchi, employé d’IBM. |
| |
|
| |
LES DIFFERENTS TYPES DE RAID : |
| |
|
| |
La technique RAID permet donc la gestion de la distribution et de la validité des données. Cette technologie repose sur deux supports, matériels ou logiciels.
• Le RAID logiciel : le contrôleur RAID est fait par un logiciel intégré au système d’exploitation, intercalé entre le pilote et le système des fichiers.
Avantages : le coût, cette méthode ne nécessite l’achat d’aucun matériel supplémentaire et est donc la moins chère. La compatibilité, la technique est compatible avec toutes les machines équipées du même système d’exploitation et enfin la souplesse d’administration.
Les inconvénients : l’inconvénient principal est le fait que le logiciel ne prend pas en compte la gestion des périphériques qui composent le RAID. Ainsi en cas de défaillance du matériel le système peut ne pas la détecter ce qui est problématique car il y a un risque de perdre des données. De plus, la gestion du logiciel est assez lourde pour le système et elle utilise des ressources au détriment d’autres programmes, ce qui conduit à une baisse de performances. Tous les systèmes ne supportent pas l’utilisation du RAID.
• Le RAID matériel : ici le contrôleur RAID est interne à l’unité centrale ou externe pour plus de sécurité, le firmware (microcode embarqué) lui permet de gérer l’intégralité du système de stockage RAID. Il est en général complètement indépendant du système d’exploitation et possède son propre processeur, sa propre mémoire, et parfois même une batterie lui permettant de ne pas subir la perte de données en cas de panne électrique.
Avantages : contrairement au contrôleur logiciel, il permet de déceler les défaillances matérielles, le remplacement à chaud des éléments défectueux et la reconstruction transparente des disques déficients. De plus, le système n’est pas alourdi.
Inconvénients : L’inconvénient principal est l’absence de compatibilité étendue. En effet, pour être transférables les disques doivent disposer d’un contrôleur RAID identique en tous points. La solution à ce problème est d’acheter deux contrôleurs RAID identiques. Il y a également un problème de compatibilité en terme d’outils de gestion logicielle, qui diffèrent d’un constructeur à l’autre. Le choix du constructeur est très important, en effet il faut qu’il soit fiable, qu’il ne risque pas de disparaître et qu’il garantisse son produit contre l’obsolescence en proposant un support prolongé permettant entre autres la mise à jour des composants. Le choix du produit doit aussi être éclairé, à cause des différences de puissance entre les ordinateurs et les contrôleurs, qui peuvent entraîner une perte de performances. Enfin, il y a le risque de panne, il s’agit d’un composant matériel qui n’est pas à l’abris de la défaillance. |
| |
|
| |
LES DIFFERENTS NIVEAUX DE RAID : |
| |
|
| |
|
| |
|
| |
 |
| |
|
| |
• Le RAID 1 ou le miroitage. Chaque disque dur contient les mêmes informations, les données sont écrites simultanément sur chaque disque, c’est la redondance des données. Tous les disques sont donc interchangeables à tout moment et si un disque rencontre une défaillance (technique ou matérielle) le contrôleur RAID le désactive et un autre disque prend le relais après reconstitution manuelle ou automatique du miroir. Ce type de RAID permet d’optimiser la sécurité, en cas de panne les données ne sont pas perdues.
|
| |
|
| |
 |
| |
|
| |
• Le RAID 2 ou volume agrégé par bandes à parité. Aujourd’hui obsolète à cause des mauvaises performances qu’elle offre, cette technique combine la méthode du « volume agrégé par bande » à l’écriture d’un code de Hamming, permettant de contrôler les erreurs (détection et résolution), sur un disque dur indépendant. |
| |
|
| |
• Le RAID 3 combine les avantages du RAID0 en terme d’amélioration des performances et ceux du RAID1 concernant la sécurité des données. Ce niveau de RAID fonctionne avec 3 disques au minimum, un disque a une fonction de parité tandis que les autres disques se divisent le traitement des données, ce qui augmente les performances. Le disque de parité permet de reconstruire les données sur un nouveau disque, si un disque tombe en panne.
Remarque, dans ce type de RAID, la taille des segments (de disque dur) est fixée à 512 octets. |
| |
|
| |
 |
| |
|
| |
• Le RAID 4, très proche du RAID 3 celui-ci se distingue par l’organisation des données. Dans ce niveau de RAID, la taille des segments de disque dur et variable et se modifie en temps réel. Les informations de parité doivent donc être perpétuellement mises à jour afin de contrôler la taille de ces segments et la modifier si besoin est. |
| |
|
| |
• Le RAID 5 ou volume agrégé par bandes à parité répartie. Cette technique reprend des éléments du RAID 4 tout en l’améliorant. En effet, ce niveau de RAID combine à la fois le stripping (enlacement des disques) et la parité. Les deux différentes principales sont que la taille des blocs doit être préalablement répartie, et surtout que la parité est répartie sur les différents disques. Cette technique permet donc d’augmenter les performances, de réduire l’exposition aux défaillances mais également d’empêcher l’usure prématurée du disque de parité qui est plus sollicité que les autres. Cependant cette technique entraîne une perte de capacité de stockage égale à la taille d’un disque (la parité étant répartie de façon égale sur chaque disque). |
| |
|
| |
 |
| |
|
| |
• Le RAID 6 reprend les principes du RAID 5 en y intégrant une double parité ou double redondance des données, ce qui implique au moins quatre disques durs. Tout comme pour le RAID 5 on perd de l’espace de stockage, la perte s’élève ici à deux disques durs. Grâce à ce niveau de RAID, la sécurité est renforcée (double redondance des données) mais les performances sont réduites du fait de la double écriture. De même en cas de défaillance d’un disque le temps de reconstruction est allongé. |
| |
|
| |
 |
| |
|
| |
• Le RAID 7, c’est le niveau de RAID le plus performant (de 1,5 à 6 fois supérieur aux autres en écriture) grâce au transfert asynchrone des données. Il s’agit d’une évolution du RAID 3, ce qui implique des disques dédiés à la parité. En effet, le RAID 7 permet de choisir le nombre de disques dédiés à la parité et le nombre de disques dédiés au stockage de données, chaque disque possède son propre contrôleur RAID et une carte microprocesseur gère l’ensemble du système (calcul de la parité, gestion des disques et surveillance des disques en temps réel). |
| |
|
 |
| |
|
| |
|