新技术总结
摘要
云计算
云计算概念
概念:云计算指通过计算机网络形成的计算能力极强的系统,可存储集合相关资源并按需配置,向用户提供个性化服务。因此,云计算涵盖服务和平台两个方面。
计算方式发展的几个阶段
- 图灵计算到网络计算:摩尔定律(65年),吉尔德定律(90年代初),麦特卡尔弗定率(N-N^2,以太网发明人)
- 网络计算到云计算:并行计算(群集),网格计算
基本特征
虚拟化:将不同资源解耦并组成统一的资源池(CPU池、内存池),以逻辑可管理的形式提供用户使用。
服务化:信息资源可以同其他生产生活资源一样,采用服务的方式提供。
柔性化:资源可以按需分配。
个性化:用户可以自由地选择与配置自己的计算坏境。
社会化:计算资源形成大规模、高效能、社会分工明确的云服务中心。
智能化
云计算的设计目标
将计算从桌面移向数据中心、服务可配置和按需付费、性能可扩展、数据隐私保护、云服务标准化
云计算的系统架构(四层两域)
业务域:提供资源承载客户应用
基础设施层:硬件(存储设备、网络设备)和基础软件(操作系统、系统软件)
虚拟池层:提供虚拟化资源池(计算、存储、网络)和云组件(云数据库、中间件)
服务层:提供标准化的云服务(IaaS、PaaS、SaaS、DaaS)
应用层:客户应用系统(工业、政务、金融)
管理域:协调管理云数据中心
云服务的服务模型
基础设置即服务(IaaS):通过虚拟化技术形成资源池,提供底层基础服务。包括存储、计算实例和通信,例如Amazon EC2虚拟机就是IaaS。
平台即服务(PaaS):云平台提供运行环境持支,部署用户的应用程序。例如在微软Azure部署Web应用。
软件即服务(SaaS):客户使用的特殊接口。例如谷歌的Gmail。
数据即服务(DaaS):提供数据管理服务。需要包括的内容:数据采集、数据治理与标准化、数据聚合、数据服务。Hadoop时DaaS的主要技术之一。
函数即服务(FaaS)、后端即服务(BaaS)
云的部署模型:
公有云、私有云、混合云
云计算设计的主要技术
虚拟化:虚拟机、容器
分布式:分布式计算、分布式存储
云平台:
服务计算(SOA),服务提供者,服务消费者,服务代理,角色
边缘计算,“云-边-端”的形态
虚拟化技术
概念:虚拟化指屏蔽物理计算资源与上层软件之间的紧密耦合联系(解耦合),从而达到资源的动态配置。
虚拟化对象
计算虚拟化、存储虚拟化、网络虚拟化、桌面虚拟化
虚拟化实现的层次
计算机系统结构的基本层次:底层硬件 —-”指令集“—> 操作系统 —-”系统调用“—> 程序集 —-”应用程序接口“—> 应用程序
硬件层次(不同操作系统和应用独立):虚拟机
指令集层次(当应用于硬件无关时):指令虚拟机
操作系统层次(应用独立):容器技术
库支持层次(跨操作系统运行应用):WINE(实现 Windows API 调用的接口来实现虚拟化,使得Linux、macOS可以执行exe程序)
应用程序层次:高级语言虚拟机,例如JVM(Java虚拟机)和Node.js
硬件虚拟化
硬件虚拟化在真实硬件和传统操作系统之间插入一层软件,称为虚拟机监视器(VMM),负责管理硬件资源。
完全虚拟化:创建出于真实硬件完全相同的硬件环境。但二进制代码翻译时,需要在VMM中插入陷入指令,从而会产生性能开销,使虚拟机性能逊色于物理机。优点是不需要操作系统干预。
半虚拟化:需要VMM在操作系统的持支下将部分指令转为对VMM的超级调用,避免二进制代码动态翻译。优点是虚拟机效率接近物理机。
容器技术
概念:容器技术有效的将单个操作系统的资源划分到孤立的组中,以便更好的在孤立的组之间平衡有冲突的资源使用需求。容器是轻量的操作系统级虚拟化。
Docker:
- 是一个开源的应用容器引擎;
- 可以快速构建隔离的、标准化的运行环境或轻量的PaaS,构建自动化测试和持续集成环境;
- 镜像、容器、仓库是其三大核心组成部分
Kubernetes:
- 是Google开源的一个容器编排引擎;
- 构建在Docker之上,管理跨机器运行的容器化应用。
分布式计算
概念:利用分布式系统解决计算问题就是分布式计算。
分布式系统
集中式系统:是指一个主机带多个终端的系统,整个系统的数据存储、控制与处理完全交由主机来完成;
分布式计算机系统:是指由多台分散的计算机,经网络的连接形成的系统,系统的处理和控制功能分布在各个计算机上。分布式系统的内部结构、通信方式和功能实现对用户透明。
分布式系统主要特性:资源可访问、透明性、开放性、可扩展性
分布式计算
分布式计算的灵魂是负载均衡和共享资源。
优点:
- 降低对机器性能的要求,从而降低了硬件成本;
- 扩展性极佳;
- 处理能力极强。
分布式系统的计算模型
- 面向对象模型OOM:基于C/S模型,如CORBA,DCOM,JavaRMI
- 面向服务模式SOM:核心是服务,采用松散耦合灵活的体系结构适应业务的变化
- 公用计算模式UBM:提供公共的计算能力(如同公共事业,电力,供水)
- 志愿参与模式VJM:利用网上空闲计算能力
分布式存储
存储技术发展阶段
- 存储和计算部署在一起
- 存储和计算分离,又称网络存储系统
- 分布式存储
分布式文件系统
概念:分布式文件系统是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。
分类:
- 网络文件系统:分布式C/S文件系统,采用Remote Access Model的访问模式,非本地文件不会复制到本地。
- Andrew系统:共享与获得在计算机网络中存放的文件。采用upload/download model的形式,即文件无论读取还是修改,都会复制到本地。
- KASS系统:基于Java的纯分布式文件系统。
- Google的GFS系统:节点有三类角色:主服务器、块服务器和客户。主服务器逻辑上只有一个,保存系统所有元数据。块服务器负责存储工作,每个文件按64MB切块,每份数据在系统中保存3个以上的冗余备份。
- HDFS系统:是目前应用最广的分布式文件系统之一。特点(1)元数据和数据分离;(2)文件被切分为64MB的数据块,均匀分布到多个数据节点上。(3)检测硬件故障并恢复所造成的丢失数据。
分布式数据库
概念:分布式数据库使用计算机网络将物理机上的多个数据库节点连接起来组成的逻辑上统一的数据库管理系统。
特点:
- 独立透明性:数据的逻辑分区,物理位置对用户透明;
- 集中和自治结合:局部DBMS可以独立地管理局部数据库,系统也有集中控制机制,协调各局部DBMS工作;
- 复制透明性:复制的数据对用户透明;
- 易于扩展性:可以增加服务器进一步分布数据。
设计目标:适应性、可靠性可用性、充分性、扩展性
体系结构:
- 全局外层:由多个用户视图组成,从一个虚拟的由各局部数据库逻辑集合中抽取;
- 全局概念层:是分布式数据的整体抽象,包含系统中全部数据的特性和逻辑结构,是对数据库的整体描述;
- 局部概念层:从数据模型角度看,集中式数据库与分布式数据库都有局部概念层部分
- 局部内层:分布式数据库中关于物理数据库的描述。
分布式数据库的一致性问题
数据库中的一致性概念(ACID理论):原子性(Atomic)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)
分布式系统中的数据一致性(CAP理论):一致性(Consistency)、可用性(Availability)、分区容错性(Partition tolerance)。一个分布式系统,不可能同时满足一致性、可用性(矛盾,二选一),但分区容错性必须满足。
BASE理论:基本可用(Basically Available)、软状态(Soft State)、最终一致性(Eventually Consistent)。BASE是ACID的反面强调基本可用性,如果需要高可用性,就要牺牲一致性和容错性。
HBASE分布式数据库:依托于Hadoop的HDFS作为底层的存储单元。基于列存储。
ZooKeeper:是一个分布式的、开放源码的分布式应用程序协调服务,为分布式应用提供一致性服务的软件。
物联网
物联网的概念
概念:物联网是一个基于互联网、传统电信网等信息承载体,让所有能够被独立寻址的普通物理对象实现互联互通的网络。它具有普通对象设备化,自治终端互联化和普通服务智能化3个重要特征。
物联网起源
- 1999年,提出”万物皆可通过网络互联“,RFID技术为重点
- 2005年,信息社会世界峰会 ITU发布《ITU互联网报告2005:物联网》,各国开始把物联网基础设施列为国家战略发展计划
- 2009年8月,温家宝”感知中国“把我国物联网领域研究和应用推向高潮,无锡市率先建立”感知中国“研究中心
物联网的驱动力
- 国家意志,振兴经济
- 社会急需,减少资源浪费,人力浪费,提高安全,节约成本
- IT产业机遇,从计算机的连接,到人的连接,再到物的连接
物联网基础架构
- 应用层:应用层+应用支撑子层
- 网络层(基础):互联网
- 感知层(重点):感知采集(感知+识别),协同信息处理互通
传感技术
传感器技术
化学传感器、智能传感器
传感器接口技术:
- 串行接口:串口,信息逐位按序传送。
- SPI接口:串行外围接口(serial Peripheral Interface)是一种同步外设接口。
- $I^2C$接口:用于IC控制的双向两线串行总线(inter-Intergrated Circuit)
标识与自动识别技术
识别技术:条形码、二维码、IC卡、射频技术(RFID)、光学字符识别技术(OCR)、语音识别技术、生物计量识别技术、遥感技术、机器人智能感知技术
RFID构成:电子标签,阅读器,天线
分类:有缘、无缘
- 低频、高频、超高频、微波
- 耦合方式:电感耦合、反向散射耦合
标准:
ISO11784/11785 动物识别(低频)
ISO1443/15693 电子证件等(高频)
EPCglobal:全球统一编码体系、射频识别系统、信息网络系统
自组织网络/传感网络
无线传感网
概念:无线传感网(Wireless Sensor Network, WSN),是由大量传感器以自组织和多跳方式构成的无线网络。传感器网络实现了数据的采集、处理和传输三种功能。
WSN三要素:传感器、感知对象、观察者
传感器组成:敏感元件、转换元件、信号调节与转换电路
目的
各部分传感器写作地感知采集处理和传输网络覆盖地理区域
无线传感器网的体系结构
物理层、数据链路层、网络层、传输层、应用层
无线通信技术及相关协议
个域网(WPAN):
- 蓝牙(2.4G,调频,可传语音数据,主-从模式,微微网,802.15)
- ZigBee(2.4G,868M,915M三个频段,250k-10kbps,多跳连接,802.15.4,三种节点协调器,路由器,终端节点)
- UWB(超宽带,500M带宽或带宽与中心频率比大于25%,几百Mbps,802.15.3)
- 红外、NFC
无线局域网(WLAN):802.11 WiFi
无线城域网:802.16 WiMAX ,LoRA
移动通信网(WAN):2G/3G 4G 5G/NBIOT
大数据
考试内容:数据预处理、数据分析、数据模型、数据挖掘、可视化等
大数据概念
概念:无法在可容忍的时间用传统信息技术和软硬件工具对其进行获取,管理和处理的巨量数据集合,需要可伸缩的计算体系结构以支持其存储处理和分析
大数据的特征(4V/5V)
数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、价值密度低(Value)、真实性(Veracity)
三个发展阶段
- 萌芽期(90年代-21世纪初):数据仓靠、专家系统、知识管理系统
- 成熟期(21世纪前10年):大量非结构化数据、形成并行计算与分布式计算系统
- 大规模应用(2010年后):已渗透到各个行业,数据驱动决策、智能化大幅提高
思维模式
重要的新的科学研究范式:实验科学、理论科学、计算科学、数据密集型科学
大数据处理步骤
(数据采集)、数据平滑与预处理、数据存储和管理、数据处理与分析、数据可视化、数据安全与隐私保护
数据预处理
数据预处理的四种操作
数据清洗、数据集成、数据转换、数据消减
数据的处理工具
结构化数据的处理工具:ETL工具(抽取、转换、加载)
半结构化/非结构化数据处理:分布式并行处理框架(Spark,MapReduce、Sterm)
数据质量问题分类
单数据源定义层、单数据源实例层、多数据源定义层、多数据源实例层
数据预处理方法
数据清洗、数据集成、数据转换、数据消减
数据分析
数据分析的四个层次:描述、诊断、预测、指令
数据模型:传统模型关系模型(多对1、1对多、多对多)
聚合模型(NoSQL:KV键值、文档型数据库、列存储数据库、图关系数据库)
大数据思维
大数据思维方式:全样而非抽样、效率而非精确、相关而非因果、以数据为中心、我为人人人人为我
数据处理与分析
数据挖掘方法:预测模型、数据分割、关联分析、偏离分析
大数据处理技术:批处理计算(MapReduce、Spark),流计算(Sterm),图计算(Preged GraphX),查询分析计算(Dremel Hive)
数据可视化
数据可视化:将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知的信息的处理过程
人工智能
人工智能概述
人工智能定义:与人类行为形似的机器程序
发展阶段
人工智能在60多年间,经历了三起两落(五个阶段)的发展。
- 第一次浪潮(20世纪50年代至70年代):1956年为人工智能元年。
- 第二次浪潮(20世纪80年代)
- 第三次浪潮(20世纪90年代末至今)
算法、算力和大数据是人工智能的三要素。
人工智能基础
机器学习、神经网络、深度学习、概念、模型、NLP
人工智能实现方法:
- 传统编程:有编程者设计逻辑过程
- 模拟法:通过学习获得能力
机器学习基础
机器学习:监督、无监督、强化
传统机器学习:贝叶斯算法、决策树、支持向量机
人工神经网络与机器学习
人工神经网络:神经元模型、输入、权重、偏置、激活函数、输入层、隐藏(含)层、输出层
类型:
- 卷积神经网络:图像分析(检测、分割、识别)
- 循环神经网络:语言识别、语言建模、机器翻译
- 深度信念网络:语音识别
- 生成对抗网络:生成新的样本
深度学习
多层人工神经网络
应用领域:
- 非结构化数据(图像,音频,文本)
- 有大量可用数据
- 有足够计算能力或实践
NLP大模型:包含数百亿及以上参数的深度神经网络构建的语言模型,通常使用自监督学习方法通过大量无标注文本训练
构建流程:预训练、有监督微调、奖励建模、强化学习
参考文章:
参考链接