0.01美元的Amazon Glacier(冰川)服务介绍

发表于2012 年 08 月 23 日 | 标签: ,

在现代企业,数据的重要性不言而喻,而在企业的进程中,留下的各种历史数据,尤其是商业历史档案以及IT系统的历史档案,可能是巨大的。也许你正在花大量的时间和大量的金钱来归档这些电子资料。你会使用磁盘、光盘甚至磁带等各种介质进行数据的存储,然后再把这些存储介质放在办公室的某个储藏室。然而,某些方案可能比你想的更复杂和昂贵。你需要花时间维护磁盘、光盘、备份机器等硬件设备,需要规划归档数据的周期计划,需要和供应商谈判这些设备的管理等。

亚马逊aws在8月20日推出了一项名为Glacier(冰川)的服务。该服务的推出,意在为企业的归档数据存储提供一种更廉价的方案——每月每GB的存储成本,只需要1便士(即0.01美元,合人民币6.5分钱)。以此推算一下,50G数据存储存上一年,我仅仅花6美元(¥39元人民币)。和aws的S3服务一样,Glacier服务可以存储任意类型的电子数据,和硬件设备、存储设施有关的烦恼,你都可以忽略掉,扔给亚马逊帮你解决。而且亚马逊保证,你的数据是存储在安全(使用AES-256加密你的数据)、可靠(每个文件99.999999999%的可用性保证)、高冗余(多地多设备的备份)的环境中,无需担心泄密、灾难性丢失等。

看客看到这里,肯定有疑问,怎么这些文字的背后的数字听起来象是在说着S3服务,那Glacier到底是不是一种廉价的S3服务呢?不是的。Glacier冰川的设计特点,显然是用于和S3有区别的具体场合中,下面我们来进行比较:

1. 服务场合的不同

S3服务被设计用于快速检索的场合,为快速检索的请求进行过优化。而Glacier顾名思义,它的设计并不适合用于需要快速取回数据的场合。就象一座巨大而行动缓慢的北极冰山,它可以存储巨大的数据,适合存储那些不常用而又重要的历史数据资料。在Glacier服务中,你的回取数据的请求会被系统排队处理,而请求的处理过程则有些缓慢。一般来说,你所请求的存档文件将会在3~5小时候后可以被下载。

每一个你对Glacier发出的检索请求,都称之为一个job。你可以使用API随时查询,看看你要的数据是否准备好了,或者,你也可以选择设定使用AWS的SNS服务,一旦数据准备好就给你发送消息通知。数据准备好后,你可以通过HTTP GET请求来访问以及下载。而这些数据将会在24小时内可用。

2. 服务收费的差异

  • Glacier和S3的上传下载费用相同,都是上传免费,下载同价。因此我们忽略。
  • PUT/COPY/UPLOAD等请求的处理收费,Glacier和S3各有差异,但如果次数差别不大,这项费用影响较小,也因此忽略。
  • 下面我们关注的,是两项服务存储费用的差别

以最便宜的美国东海岸服务为例:

Glacier的存储收费:

定额收费,$0.01 per GB / month,每月每GB数据0.01美元。而且,Glacier中的数据可靠性,是号称99.999999999%的那种。

而S3的收费如下:

数据量大小             标准存储         减少冗余存储
First 1 TB / month    $0.125 per GB    $0.093 per GB
Next 49 TB / month    $0.110 per GB    $0.083 per GB

Over 5000 TB / month     $0.055 per GB    $0.037 per GB

请注意,可以看出,在1TB(即1000GB)存储数据以下,相应的S3服务收费(标准存储,99.999999999%可靠度),是Glacier的12倍。即使愿意牺牲一点S3的可靠性换取更低的服务收费,也依然是Glacier的9倍。对比起S3服务,Glacier冰川可谓是超级便宜了。

然而不要忽略一个事情,S3的数据检索,完全免费;而Glacier的数据检索(即重新取回数据,准备下载),可以说是收费的,虽然它宣称在许可的范围内免费,但其条件非常苛刻。Glacier服务中,每个月只能免费检索5%的存储量,并且要平分在30天内使用。如果超了的话,将会按每GB 0.01美元进行收费。乍一看,这也并没什么,收就是了。但请注意,这里是相当有猫腻的,我将在下一篇文章进行分析。

所以,如果你需要频繁的访问数据,或者访问的的数据量又很大的时候,S3会是一个更具效益的服务。

3. 操作方式

Glacier:

  • 通过AWS console或Glacier API来创建一个自定义名的存储库vaults(类似S3中的桶)。使用这些valuts来管理你上传到Glacier的对象。
  • 目前只能使用Glacier API来上传和取回对象文件。
  • 使用Glacier API来监视你发出请求的jobs。或者,你可以通过配置vault的设定,让jobs在处理完后给你发SNS提醒消息。
  • 整个过程如下图:

S3:

  • 通过AWS console可以完成所有对象的上传下载过程
  • 通过API也可以完成这个过程。

4. 命名方式

S3服务中,允许你自定义每个上传对象的名称。而在Glacier冰川服务中,系统将会在对象被上传操作时,自动的为其分配指定的ID。

 

Glacier适用的场合

1. 企业信息的归档

越来越多的企业有着很多办公室和分公司。各个独立的办事处有不同数量的电子档案产生,例如电子邮件、法律记录、业务文件等。这些数据往往要保留几年甚至几十年,但却很少被拿出来浏览。

2. 媒体公司的资产

媒体公司的核心内容是其内容,其中包括书籍、电影、音乐、图片、新闻素材以及电视节目。这些资产的数量和规模不断的增长,基于前面的材料,带动新产品新技术的发展。这些产品可以增长到数十甚至数百PB。安全的保存这些资产非常重要,数据的取回也非常关键。这些归档文件通常需要冗余存储以避免意外。一般来说也很少访问。

3. 研究和科学数据

研究和科研机构,如制药和生物技术公司、以及大学和研究机构,都有大量的数据归档需求。药物的开发,产生大量的数据必须保留,以便研究人员可以验证实验性药物测试的结果。传统上,这些会存储在基于磁带的存储系统。这将会相当的不灵活。

4. 数字资源的长期存储

图书馆、历史会社、非营利组织和政府机构,一般会有措施,有计划的保留一些有价值但已经过时的数字材料内容。例如,过去的一些网站、软件的源代码、已退出历史舞台的视频游戏、使用者的一些内容和其他数字文物等,这些都已不再有用处。这些资料的归档,开始时可能很小,但也可能会增长到PB级别的大小。

5. 磁带方案的替换

磁带是一种低成本的方案,但不能忽略的是,磁带的出错率很高,且数据的取回需要一个过程,效率很低。与其周期性的进行硬件的升级,不如把投资放在亚马逊的Glacier。

 

现在,AWS SDK中,已经加入了对Glacier的支持,如果你想继续了解更多关于Glacier的内容,请访问Glacier的相关文档

 

 

发表评论

*

  

icon_wink.gificon_neutral.gificon_mad.gificon_twisted.gificon_smile.gificon_eek.gificon_sad.gificon_rolleyes.gificon_razz.gificon_redface.gificon_surprised.gificon_mrgreen.gificon_lol.gificon_idea.gificon_biggrin.gificon_evil.gificon_cry.gificon_cool.gificon_arrow.gificon_confused.gificon_question.gificon_exclaim.gif