阿里云飞天云计算平台简介

什么是云——云计算的通俗解读

什么是云计算

美国国家标准与技术研究院(NIST)定义:
云计算是一种业务模型。它可以实现随时随地、便捷地、随需应变地从可配置计算资源共享池中获取所需的资源(例如网络、服务器、存储、应用及服务),资源能够快速供应并释放,使管理资源的工作量和与服务提供商的交互减小到最低限度。

通俗来说,云计算服务其实就是让计算、存储、网络、数据、算法、应用等软硬件资源像电一样,随时随地、即插即用。

从产品角度看,云计算是服务化的计算和数据设施,服务于业务应用。

虚拟化和分布式有啥用

目前来说,市场当中大部分云的底层架构确实是通过虚拟化和分布式来实现的,毕竟技术成熟,节省成本、容易管理。

虚拟化和分布式在共同解决一个问题,就是物理资源重新配置形成为逻辑资源。
其中虚拟化做的是造一个资源池,而分布式做的是用一个资源池。

公有云?私有云?混合云?

公有云是为大众所建立的,所有入住到公有云平台(如阿里云)上的用户都被称之为租户,整个平台上不仅同时拥有很多租户,一个租户离开,它的资源能够立刻释放给其他租户,达到资源的充分利用。

私有云可以理解成是单纯为某一个特定用户或机构建立的,实现小范围内的资源优化。

混合云则可以被看做是将私有云服务和公有云服务的二者结合体,将云平台的计算与存储性能更好地结合起来,混合云是一种较为理想的平滑过渡方式。

Iaas? PaaS? SaaS?

甲乙丙三人都是做买卖的,甲种小麦,相当于IaaS提供商、乙卖面粉,相当于PaaS提供商、丙卖馒头,相当于SaaS提供商。

IaaS:基础设施即服务,提供的一般是通用计算、存储和网络三大基础资源,前面提到的虚拟化、分布式等大多集中在本层,飞天云计算平台也主要在本层。

PaaS:平台即服务,提供除计算、存储和网络三大基础资源之外的其他能力(如通用开发能力,细分能力,业务交付能力),但并不对终端用户提供成熟产品。

SaaS:软件即服务,具有一定复杂度的,通常应该在C/S架构下主要通过C端完成的软件服务,在B/S架构下完成了,始于上世纪九十年代末Salesforce等公司,随着移动互联网和HTML5的发展而蓬勃发展。

飞天神话——内核系统初探

飞天是什么?

飞天是由阿里云开发的一个大规模分布式计算系统,项目代号Apsara,其中包括飞天内核和飞天开放服务。它的主要设计目标是通过构建一套综合性的软硬件系统,使得用户(或应用系统)可以像使用一台计算机一样,便捷的使用数以千计的服务器的存储资源和计算资源。

飞天内核负责管理数据中心Linux集群的物理资源,控制分布式程序运行,隐藏下层故障恢复和数据冗余等细节,有效提供分布式存储和资源调度等功能。

飞天开放服务为用户应用程序提供了计算和存储两方面的接口和服务,包括弹性计算服务(Elastic ComputeService,简称ECS)、开放存储服务(Open Storage Service,简称OSS)、开放结构化数据服务(Open Table Service,简称OTS)、关系型数据库服务(Relational Database Service,简称RDS)和开放数据处理服务(Open Data Processing Service,简称ODPS)等。

飞天云平台架构

女娲:分布式协同服务


为飞天平台提供高可用的协同服务(Coordination Service),是整个飞天系统的一个核心服务,它的作用是采用类似文件系统的树形命名空间来让分布式进程互相协同工作。女娲系统与Google的Chubby和Hadoop的ZooKeeper系统的功能与实现相似。

  • 女娲服务存储了大量的键值对(key-value pair)
  • 女娲支持发布/订阅模式
  • 女娲还可以用来实现负载均衡

钟馗:安全管理


飞天操作系统的安全管理机制,提供了以用户为单位的身份认证和授权,以及对集群数据资源和服务进行的访问控制。

  • 用户身份认证(Authentication)是基于秘钥机制的
  • 用户对资源的访问控制是基于Capbility机制进行授权的,类似于乘地铁的地铁票。

夸父:远程过程调用(RPC)


夸父Kuafu是飞天平台中负责网络通信的组件,它提供了一个RPC接口,简化编写基于网络的分布式应用。

  • 异步调用:RPC函数调用时不等接受到的结果立即返回;用户必须通过显示调用接收函数取得请求结果。
  • 同步调用:RPC函数调用时会等待,直到接收到结果才返回。在实现中,同步调用时通过封装异步调用来实现的。

盘古:分布式文件系统


飞天操作系统中的数据存储是由分布式文件系统(项目代号盘古Pangu)完成的。

盘古与Google的GFS和Hadoop的HDFS文件系统设计目标有一致的部分,都是将大量廉价机器的存储资源聚合在一起,为用户提供大规模、高可靠、高吞吐量、高可用和可扩展的存储服务,是飞天操作系统中一个重要的组成部分。

盘古还能很好的支持在线应用的低延时需求,这是GFS和HDFS所不具备的。

  • 大规模:能够支撑5000台规模的大集群,支持10PB量级的存储大小。
  • 高可靠:保证数据和元数据是持久保存并能够正确访问的,保证所有数据存储在处于不同机架的三个节点上面。
  • 高可用:保证用户能够不中断的访问数据,降低系统的不可用服务时间。
  • 高吞吐量:运行时系统I/O吞吐量能够随机器规模线性增长,保证响应时间。
  • 高可扩展性:保证系统的容量能够通过增加机器的方式得到自动扩展,下线机器存储的数据能够自动迁移到新加入的节点上。

伏羲:资源管理和任务调度(飞天平台的大脑)


在资源管理方面,伏羲主要负责调度和分配集群的存储、计算等资源给上层应用;管理运行在集群节点上任务的生命周期;在多用户运行环境中,支持计算额度、访问控制、作业优先级和资源抢占,在保证公平的前提下,达到有效地共享集群资源。

在任务调度方面,伏羲面向海量数据处理和大规模计算类型的复杂应用,提供了一个数据驱动的多级流水线并行计算框架,在表述能力上兼容MapReduce、Map-Reduce-Merge等多种编程模式;自动检测故障和系统热点,重试失败任务,保证作业稳定可靠运行完成;具有高可扩展性,能够根据数据分布优化网络开销。

神农:集群监控


神农是飞天平台上是负责信息收集、监控和诊断的系统。

它通过在每台物理机器上部署轻量级的信息采集模块,获取各个机器的操作系统和应用软件运行状态,监控集群中的故障,并通过分析引擎对整个飞天操作系统的运行状态进行评估。

神农系统包括三部分:
Agent:是部署在每台物理机器的后台程序。
Inspector:是部署在每一台机器上的进程,负责采集当前机器和集成的通用信息,并实时发送给Agent。
Master:负责管理所有神农 Agent,病对外提供统一接口来处理神农用户的订阅请求。

大禹:集群部署


大禹(Dayu)是飞天内核中负责提供配置管理和部署的模块,它包括一套为集群的运维人员提供的完整工具集,功能涵盖了集群配置信息的集中管理、集群的自动化部署、集群的在线升级、集群扩容、集群缩容,以及为其他模块提供集群基本信息等。

每个飞天模块的发布包都包含一个部署升级的描述文件,定义了该模块部署和升级的流程,提供给大禹使用。

在结构上,大禹包含了集群配置数据库、节点守护进程、客户端工具集等部分。

海纳百川——丰富的开放服务

飞天云服务分类


飞天平台当前主要提供:弹性计算及网络服务、存储与数据库服务、大数据计算平台服务、云安全管理服务;除此之外还提供搜索、PAAS平台等中间件及平台服务。

ECS弹性计算服务

弹性计算服务(Elastic Compute Service, 简称ECS)是一种处理能力可弹性伸缩的计算服务,俗称云主机服务。弹性计算服务提供普通云主机服务和高性能云主机服务,可以根据业务特性选择不同性能的云主机。

SLB负载均衡服务

负载均衡服务为位于同一数据中心的多台ECS提供流量分发的负载均衡服务。SLB可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。

OSS对象存储服务

负载均衡服务为位于同一数据中心的多台ECS提供流量分发的负载均衡服务。SLB可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。

RDS关系型数据库服务

关系型数据库服务RDS支持MySQL,SQLServer,PostgreSQL、PPAS等多种关系型数据库引擎,并提供专业的配套数据库迁移服务。

VPC虚拟专有网服务

网络隔离服务构建一个网络环境。各业务可以完全账务自己的虚拟网络,包括选择自有IP地址范围、规划网段、路由表、网管、安全策略等,从底层实现各个业务的隔离。

想了解更多服务,请上阿里云官网

0%