加入收藏 | 设为首页 | 会员中心 | 我要投稿 天瑞地安资讯网 (https://www.huanghaiwang.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 云计算 > 正文

云计算关键技术及基于Hadoop的云计算模型研究

发布时间:2022-12-13 10:47:58 所属栏目:云计算 来源:
导读:  云计算关键技术及基于 Hadoop 的云计算模型研究洪沙,杨深远(重庆大学 软件学院, 重庆 400030)摘要: 云计算是在网格计算基础上新兴的计算模型, 是互联网公司争相追逐的新技术。 云计算作为一种商业计算模型
  云计算关键技术及基于 Hadoop 的云计算模型研究洪沙,杨深远(重庆大学 软件学院, 重庆 400030)摘要: 云计算是在网格计算基础上新兴的计算模型, 是互联网公司争相追逐的新技术。 云计算作为一种商业计算模型,可以把任务分布在大量的计算机构成的资源池上。 介绍了 云计算的关键技术, 这些技术包含虚拟机和计算模型等,还基于 Hadoop 对云计算模型进行了研究。关键词: 云计算;云计算关键技术; 云计算计算模型;Hadoop中图分类号:TP393.02文献标识码:A文章编号:1672-7800(2010)09-0009-030引言云计算是由企业界开始发展, 然后才进入学术界引 起重视的, 这与网格计算相反。 经过对迄今为止的云计算相关学术论文进行统计分析后, 显示学术界对于云计算的研究主要集中在云技术关键技术方面。 云计算研究的关键技术包括虚拟机、安全管理、数据管理、云监测、能耗管理和计算模型等。 云计算的计算模型是研究如何针对某类应用 特点提出 效率更高的编程方式, 目 前云计算模型众多, 而 Hadoop 是一个开源的分布式系统基本架构, 正日 益成为具有较强实用 性的开发平台 , 淘宝就是国内率先使用 Hadoop 的公司之一。
 
  1云计算关键技术1.1虚拟机虚拟机是云计算的关键技术之一。目 前在云计算中使用的主要虚拟机之一就是 VMware Infrastructure。 它是一个虚拟数据中心操作系统, 可以将离散的硬件资源统一起来以创建共享平台。 其优点有:①整合服务器以降低 IT 成本;②暗哨计划内和计划外停机以改进业务连续性;③运行较少的服务器并且动态关闭不使用的服务器。1.2安全管理云计算是计算机资源的整合, 通过云计算设施中的任何一台计算机, 任何隐私信息都能够被找到。 云计算安全问题已经成为急需解决的重要问题。 其中,Siani Persion 等提出 了在云计算服务设计过程中保护用户 隐私的一些设计原则:①发送尽量少的个人信息到云中, 或者对系统进行分析后只对一小部分个人信息进行必要的收集和采集;②采用安全措施防止未授权的访问、复制、使用或者修改个人信息来保护云中的个人信息;③最大限度地实现用户 控制。 在云计算环境中, 让用户 完全控制个人信息是比较困难的。 要加强对个人信息的控制: 一可以允许用户 控制最重要的个人信息; 二可以委托信任的第三方来管理;④允许用 户 对个人信息的使用 进行选择, 即加入、退出 机制;⑤明确以及限制数据使用的目 的。
 
  个人信息必须被身份明确的人使用和处理;⑥有反馈机制。 即设计人及界面清楚地表明云服务中采取的安全措施, 用其向用户 提供安全提示。1.3数据管理云计算具有计算能力可变、 数据储存在不信任的主机上、数据是远程复制等 3 个特点。 从这 3 个特点分析而出 , 只有两种数据管理应用程序可能适合部署到云计算中: 一是和事务处理相关的数据管理系统; 另 一种是和分析相关的数据管理系统。 前者未采用共享的体系结构, 在进行远程数据复制时很难满足 ACID 的需求, 同时在不信任的主机上存储数据也有比较大的风险。 ACID 要求对于基于分析的数据管理系统来说不是必须的, 同时可以保证敏感数据在分析之外, 从而保证其安全。因此, 基于分析的数据管理系统应该很合适部署到云计算环境中去。1.4云监测和能耗管理云监测是随着云计算的推广、云设施不断增加、为了 更好地体现云计算的强大计算处理能力而设置的对虚拟机监控的能力; 能耗管理是如何节省云设施中计算设施所需要的能源、有效整合资源、降低成本。1.5云计算的计算模型现行的分布式计算系统可以提供强大的计算能力, 但非专业用户 并不能有效地利用, 一个庞大的任务很可能由于初学者的偶然操作导致性能的大幅下降。
 
  云计算部署模型_模型云模型_云计算模型
 
  为了解决这些问题, 应该提软 件 导 刊Software Guide第9卷% 第9期2010年 9 月Vol.9 No.9Sep. 2010作者简介: 洪沙(1962-), 男, 重庆人, 博士后, 重庆大学软件学院副教授, 研究方向为企业信息化、数字图像处理、电子政务; 杨深远(1987-), 男, 河南洛阳人, 重庆大学在读硕士, 研究方向为企业信息化。2010 年软 件 导 刊供给用户 一个高度抽象的产品系统, 这些就是云计算的计算模型。提到 云计算模型, 就不得不说一个开源框架, 那就是Hadoop。Hadoop 是一个分布式系统基本架构, 由 Apache 开发, 使用户 在不了解分布式底层细节的情况下, 开发分布式程序。 简单点说,Hadoop 是一个可以更容易 开发和运行处理大规模数据的软件平台。Hadoop 实现了 一个分布式文件系统 (Hadoop DistributedFile System),简称 HDFS。 HDFS 有着高容错性的特点云计算模型, 并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据, 适合那些有着超大数据集的应用 程序。 HDFS 放宽了 POSIX 标准的要求, 这样可以流的形式访问文件系统中的数据。
 
  Hadoop 采用 Master/Slave 结构 ( 如 图 1), 会有一台 Mas-ter, 主要负 责 NameNode 的工作以及 JobTracker 的 工作,Job-Tracker 的主要职责就是启动、跟踪和调度各个 Slave 的任务执行。 还会有多台 Slave, 每一台 Slave 通常具有 DataNode 的功能并负责 TaskTracker 的工作。 TaskTracker 根据应用要求来结合本地数据执行 Map 任务以及 Reduce 任务。图 1Hadoop 结构2Windows下使用Hadoop实例的研究2.1Windows 下使用 Hadoop 的环境配置:(1)安装 Hadoop 前, 首先需要安装 CygwinCygwin 是一个在 Windows 平台 上运行的 Unix 模拟环境,提供了 shell 支持。 安装中需要选中 Net category 中的 openssh,如图 2 所示。图 2下载 Cygwin 安装包(2)配置 Windows 系统变量新建系统变量 CYGWIN, 变量值为 ntsec tty编辑系统变量里的 Path 变量, 加入 C:\cygwin\bin(3)安装 Java, 即安装 jdk, 配置 JAVA 环境变量。
 
  2.2单机模式(1)启动 Cygwin, 解压缩 Hadoop 安装包, 例如 Hapoop 安装包位于 e:\ 下 , 则 解压命令为$ tar -zxvf/cygdrive /e/hadoop-0.19.2.tar.gz。解压默认目 录在 C:\cygwin\home\user 文件夹下。(2)编辑 C:\cygwin\home\Administrator\hadoop-0.19.2\conf 里的 hadoop-env.sh, 将 JAVA_HOME 变量设置成 JDK 安装目 录,如果路径中有空格,需要把 Program Files 改成 Progra~1。 如图 3。图 3编辑 hadoop-env.sh 文件(3)配置完后即可运行 WordCount 实例。在 C:\cygwin\home\Administrator\hadoop-0.19.2 下 创 建 一个输入目 录 input, 新建 2 个本文文件:txt1.txt: yangshenyuan hello world hello hadoooptxt2.txt: yangshenyuan bye hadoop然后运行实例, 并将结果输出到 output 目 录下:$ bin/hadoop jar hadoop-0.19.2-examples.jar wordcount in-put output执行结果如图 4 所示:图 4WordCount 实例输出结果2.3伪分布模式(1)编辑文件 conf/hadoop-site.xml<? xml version="1.0"? ><? xml-stylesheet type="text/xsl" href="configuration.xsl"? ><! -- Put site-specific property overrides in this file. --><configuration><property><name>fs.default.name< /name>< /property><property><name>mapred.job.tracker< /name><value>localhost:9001< /value>< /property><property><name>dfs.replication< /name><value>1< /value>< /property>< /configuration>(2)安装配置 SSH启动 cygwin, 执行命令:$ ssh-host-config。
 
  云计算部署模型_模型云模型_云计算模型
 
  当询问"Should privilege separation be used"时,输入 no;当询问"Do you want to install sshd as a service? "选 yes;当提示"Enterthe value ofCYGWIN for the daemon: [ntsec]"时,选择 ntsec。提示 sshd 服务已经在本地系统安装完毕。 输入命令$ netstartsshd,启动 SSH,或者在 Windows 服务项里启动 CYGWIN sshd。然后执行$ ssh-keygen 来生成密钥对, 然后一直回车键确定。 这样会把生产的密钥对保存在.ssh 目 录下。 使用 命令将RSA 公钥加入到公钥授权文件 authorized_keys 中:10··第 9 期洪沙, 杨深远: 云计算关键技术及基于 Hadoop 的云计算模型研究$ cd .ssh$ cat id_rsa.pub >> authorized_keys最后执行$ ssh localhost,就可以实现无需密码的 SSH 连接。(3)Hadoop 运行运行 WorldCount 实例。
 
  在本地文件系 统上建立 input 目录, 放入若干文件并复制到 HDFS 的目 录下, 在重命名为 in, 并运行:$ bin/hadoop dfs -put input in$ bin/hadoop jar hadoop-0.19.2-examples.jar wordcount inoutout 为数据处理完成后输出 目 录, 默认在 Hadoop 根目 录下。 任务执行完, 用以下命令查看分布式文件系统上数据处理的结果:$ bin/hadoop dfs -cat out/*(4)停止 Hadoop 进程, 命令如下:$ bin/stop-all.sh2.4完全分布式模式完全分布式模式步骤有以下几步:(1)修改所有机器的 C:\WINDOWS\system32\drivers\etc\hosts 文件, 加入各机器的 IP 地址及对应的主机名127.0.0.1localhost172.20.25.35grid1172.20.25.77grid2172.20.25.101grid3(2)在所有机器上配置相同的帐号 grid(3)在所有的机器上进行 SSH 配置执行$ ssh-keygen 生产密钥对并保存:$ cd ~ /.ssh$ cat id_rsa.pub >> authorized_keys在 grid1 上执行以下代码:$ cd ~ /.ssh$ scp authorized_keys grid2: /home/grid/.ssh$ scp authorized_keys grid3: /home/grid/.ssh再 分 别 进 入 grid2 和 grid3 的 .ssh 目 录 ,更 改 autho-rized_keys 文件的权限, 命令如下:$ chmod 644 authorized_keys(4)所有机器上配置 Hadoopgrid1 上:$ tar -zxvf/cygdrive/e/hadoop-0.19.2.tar.gz。
 
  编辑 conf/hadoop-site.xml<property><name>fs.default.name< /name><value>grid1:9000< /value>< /property><property><name>mapred.job.tracker< /name><value>grid1:9001< /value>< /property><property><name>dfs.replication< /name><value>3< /value>< /property>编辑 conf/master, 修改 master 的主机名, 每个主机名一行,在这里就是 grid1。 编辑 conf/slaves, 加入所有 slaves 主机名, 即grid2 和 grid3。 把 hadoop 复制到其他主机。 命令如下:$ scp ~ /hadoop-0.19.2 grid2: /home /grid/$ scp ~ /hadoop-0.19.2 grid3: /home /grid/(5)Hadoop 运行grid1 上:$ bin/hadoop NameNote -format启动 Hadoop 进程$ bin/start-all.sh运行 wordcount 实例:$ bin/hadoop dfs -put input in$ bin/hadoop jar hadoop-0.19.2-examples.jar wordcount in out访问 http: //grid1:50070 可以查看 NameNote 以及整个分布 式 文 件 系 统 的 状 态 , 访 问 http: //grid1:50060 可 以 查 看TaskTracker 的运行状态。
 

(编辑:天瑞地安资讯网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!