技术的分类
1、解决功能性的问题:Java、Jsp、RDBMS、Tomcat、HTML、Linux、JDBC、Git
2、解决扩展性的问题:Struts、Spring、SpringMVC、Hibernate、Mybatis
3、解决性能的问题:NoSQL、Java线程、Hadoop、Nginx、MQ、ElasticSearch
Web1.0时代Web1.0的时代,由于数据访问量有限,用高性能的单点服务器可以解决大部分问题。
随着Web2.0的时代的到来,用户访问量大幅度提升,同时产生了大量的用户数据。加上后来的智能移动设备的普及,所有的互联网平台都面临了巨大的性能挑战。暴露了很多难以克服的问题,例如:.
1, High performance-对数据库高并发读写的需求
web2.0网站要根据用户个性化信息来实时生成动态页面和提供动态信息,所以基本上无法使用动态页面静态化技术,因此数据库并发负载非常高,往往要达到每秒上万次读写请求。关系数据库应付上万次SQL查询还勉强顶得住,但是应付上万次SQL写数据请求,硬盘10就已经无法承受了。其实对于普通的BBS网站,往往也存在对高并发写请求的需求,例如网站的实时统计在线用户状态,记录热门帖子的点击次数,投票计数等,因此这是一个相当普遍的需求。
2, Huge Storage-对海量数据的高效率存储和访问的需求
类似Facebook, twitter, Friendfeed这样的SNS网站,每天用户产生海量的用户动态,以Friendfeed为例,一个月就达到了2.5亿条用户动态,对于关系数据库来说,在一张2.5亿条记录的表里面进行SQL查询,效率是极其低下乃至不可忍受的。再例如大型web网站的用户登录系统,例如腾讯,盛大,动辄数以亿计的帐号,关系数据库也很难应付。
3.High Scalability && High Availability-对数据库的高可扩展性和高可用性的需求
在基于web的架构当中,数据库是最难进行横向扩展的,当一个应用系统的用户量和访问量与日俱增的时候,你的数据库却没有办法像web server和app server那样简单的通过添加更多的硬件和服务节点来扩展性能和负载能力。对于很多需要提供24小时不间断服务的网站来说,对数据库系统进行升级和扩展是非常痛苦的事情,往往需要停机维护和数据迁移,为什么数据库不能通过不断的添加服务器节点来实现扩展呢?
NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题
对于一个使用Nginx作为负载均衡的分布式系统或集群,
通过Nginx负载均衡访问不同的服务器,需要考虑到session的存储问题
方案1:将session存储在cookie中
每次请求都会携带session进行访问
缺点:
cookie存放在客户端的浏览器中,是不安全的
方案2:将session存放在文件服务器或者数据库中
缺点:
访问量过大,会频繁进行IO操作,效率变低
方案3:session复制
保证每个服务器都有完整的session
缺点:
session数据冗余,服务器节点越多浪费越大
方案4:session存放在缓存数据库中
不需要IO操作,数据存放在内存中,读写速度快
解决IO压力项目随着业务复杂度的增加,数据量也会随之剧增,对数据库的压力也会增加,效率变低。
我们可以选择进行分库分表、读写分离,但是以这些做法来提高性能是以破坏业务逻辑来换取的。
我们也可以使用缓存数据库,对于需要频繁进行查询的数据可以放入到缓存数据库中,能够减少IO的读操作
还可以根据不同数据结构类型选择使用列式数据库、文档数据库等NoSQL数据库
NoSQL数据库 NoSQL数据库概述NoSQL(NoSQL = Not Only SQL ),意即“不仅仅是SQL”,泛指非关系型的数据库。
NoSQL 不依赖业务逻辑方式存储,而以简单的key-value模式存储。因此大大的增加了数据库的扩展能力。
特性:
不遵循SQL标准。
不支持ACID。(并不是说NoSQL事务)
远超于SQL的性能。
NoSQL适用场景对数据高并发的读写
海量数据的读写
对数据高可扩展性的
NoSQL不适用场景需要事务支持
基于sql的结构化查询存储,处理复杂的关系,需要即席查询。
(对于用不着sql的和用了sq也不行的情况,请考虑用NoSql)
常见的NoSQL数据库我将目前的NoSQL分为四大类
键值(key-value)存储数据库 Memcache


对于SQL中表的数据,我们可以使用行式数据库,将每一行当做一个数据进行存储
这样查询操作速度快,但是对于进行统计操作速度慢
列式数据库列式数据库将每一列当做一个数据进行存储
这样查询操作速度慢,但是对于进行统计操作速度快
HbaseHBase是Hadoop项目中的数据库。它用于需要对大量的数据进行随机、实时的读写操作的场景中。
HBase的目标就是处理数据量非常庞大的表,可以用普通的计算机处理超过10****亿行数据,还可处理有数百万列元素的数据表。
CassandraApache Cassandra是一款免费的开源NoSQL数据库,其设计目的在于管理由大量商用服务器构建起来的庞大集群上的海量数据集(数据量通常达到PB级别)。在众多显著特性当中,Cassandra最为卓越的长处是对写入及读取操作进行规模调整,而且其不强调主集群的设计思路能够以相对直观的方式简化各集群的创建与扩展流程。
图关系型数据库主要应用:社会关系,公共交通网络,地图及网络拓谱(n*(n-1)/2)
http://db-engines.com/en/ranking