您的当前位置：首页正文

apache开源项目--CouchDB

2023-11-09 来源：画鸵萌宠网

Apache CouchDB 是一个面向文档的数据库管理系统。它提供以 JSON 作为数据格式的 REST 接口来对其进行操作，并可以通过视图来操纵文档的组织和呈现。 CouchDB 是 Apache 基金会的顶级开源项目。

CouchDB落实到最底层的数据结构就是两类B+Tree 。

技术分享

与现在流行的关系数据库服务器不同，CouchDB 是围绕一系列语义上自包含的文档而组织的。 CouchDB 中的文档是没有模式的（schema free），也就是说并不要求文档具有某种特定的结构。 CouchDB 的这种特性使得相对于传统的关系数据库而言，有自己的适用范围。一般来说，围绕文档来构建的应用都比较适合使用 CouchDB 作为其后台存储。 CouchDB 强调其中所存储的文档，在语义上是自包含的。这种面向文档的设计思路，更贴近很多应用的问题域的真实情况。对于这类应用，使用 CouchDB 的文档来进行建模，会更加自然和简单。与此同时，CouchDB 也提供基于 MapReduce 编程模型的视图来对文档进行查询，可以提供类似于关系数据库中 SQL 语句的能力。 CouchDB 对于很多应用来说，提供了关系数据库之外的更好的选择。

apache开源项目--CouchDB

标签：

小编还为您整理了以下内容，可能对您也有帮助：

现在最成熟的开源nosql是什么？分别有什么优缺点

Apache三剑客：HBase, Cassandra, CouchDB。HBase的前景最为看好，因为它的开发者众多并且都是顶尖高手。Cassandra目前有很多否定的声音。CouchDB的小而精悍，赞誉很多，将要正式发布的CouchBase融合了MemBase和CouchDB，很令人期待。

HBase和Cassandra都是效仿Google的BigTable的基于列的数据库，它们都是用Java写的。另外一类似的数据库是HyperTable，百度用在一些后台分析，因为它是C++写的，速度比较快。不过HyperTable有点边缘，不太流行。这些基于列的开源数据库目前都比Goolge的BigTable差之少一个数量级

CouchDB是一个文档数据库。其最大的竞争者是MongoDB。MongoDB和HBase都采用主从服务器设计。CouchDB的服务器分布设计和Cassandra类似，Peer to Peer类型的。主从服务器设计一般能更好的strong consistent，属于CAP理论中的CP类型。 CouchDB和Cassandra一般认为都是eventual consistent，属于CAP理论中的AP类型。但其实MongoDB和Cassandra都可以设置成strong consistent或者eventual consistent。

以上所提到的数据库都支持MapRece。好像出了HyperTable都支持非主键索引。HBase和strong consistent配置的MongoDB都支持最基本的锁定（HBase单行锁定，MongoDB单文档锁定），因此可以实现transaction，但是实现有点复杂和低效。单就transaction这一点，目前开源NoSQL数据库没有做的比较好的。

MongoDB的最大卖点是不需构建非主键索引也能执行很多查询。但是MongoDB的服务器分布设计实在不能让人恭维，可以说是NoSQL数据库中最Ugly的实现。

K-V数据库比较多，而且上面提到的基于列的数据库和文档数据库其实也都是K-V数据库。比较流行的纯种K-V数据库有:

Memcached: 非常流行，不支持持久化

VMWare's Redis: 很流行，新浪和知乎都在用，CP类型。

MemBase: 由很多Memcached的开发者开发，使用sqlite作底层存储。在社交游戏中用的比较多, zynga在用，CP类型。

Riak, 分布式实现和CouchDB/Cassandra比较像，AP类型。支持MapRece。

Linkin's Voldemort，在K-V中少见的eventual consistent ，AP类型。

TT, TC

纯基于二维座标索引的是Neo4j。但是现在MongoDB和CouchDB都集成这一特性。

目前CouchDB的开发者成立的公司CouchOne收购了MemBase，将其底层sqlite换成CouchDB推出了CouchBase，从而引入MapRece以支持非主键索引。CouchBase暂时还没有正式发布官方正式版，不过快了。虽然CouchDB是eventual consistent的，但是CouchBase的开发者宣称CouchBase保持了MemBase的strong consistent特性，具体实现有待以后研究。

如果从成熟的角度来看，比较成熟并且十分流行的的有CouchDB，Memcached，Redis。

HBase和MongonDB和Cassandra都比较新，处于频繁更新之中。最有前途的是HBase，但是Hadoop/HBase集群的维护常常需要很多专业人员并且需要构建一个比较大的集群才能最大化体现出威力，因此用户主要是, yahoo, 百度和阿里巴巴等大公司。

个人比较期待CouchBase。

转载仅供参考，版权属于原作者。祝你愉快，满意请采纳哦

nosql数据库有哪些

Membase
Membase 是 NoSQL 家族的一个新的重量级的成员。Membase是开源项目，源代码采用了Apache2.0的使用许可。该项目托管在GitHub.Source tarballs上，可以下载beta版本的Linux二进制包。该产品主要是由North Scale的memcached核心团队成员开发完成，其中还包括Zynga和NHN这两个主要贡献者的工程师，这两个组织都是很大的在线游戏和社区网络空间的供应商。
Membase容易安装、操作，可以从单节点方便的扩展到集群，而且为memcached（有线协议的兼容性）实现了即插即用功能，在应用方面为开发者和经营者提供了一个比较低的门槛。做为缓存解决方案，Memcached已经在不同类型的领域（特别是大容量的Web应用）有了广泛的使用，其中 Memcached的部分基础代码被直接应用到了Membase服务器的前端。
通过兼容多种编程语言和框架，Membase具备了很好的复用性。在安装和配置方面，Membase提供了有效的图形化界面和编程接口，包括可配置的告警信息。
Membase的目标是提供对外的线性扩展能力，包括为了增加集群容量，可以针对统一的节点进行复制。另外，对存储的数据进行再分配仍然是必要的。
这方面的一个有趣的特性是NoSQL解决方案所承诺的可预测的性能，类准确性的延迟和吞吐量。通过如下方式可以获得上面提到的特性：
◆ 自动将在线数据迁移到低延迟的存储介质的技术（内存，固态硬盘，磁盘）
◆ 可选的写操作一一异步，同步（基于复制，持久化）
◆ 反向通道再平衡[未来考虑支持]
◆ 多线程低锁争用
◆ 尽可能使用异步处理
◆ 自动实现重复数据删除
◆ 动态再平衡现有集群
◆ 通过把数据复制到多个集群单元和支持快速失败转移来提供系统的高可用性。
MongoDB
MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。他支持的数据结构非常松散，是类似json的bjson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。它的特点是高性能、易部署、易使用，存储数据非常方便。
主要功能特性：
◆ 面向集合存储，易存储对象类型的数据
“面向集合”（Collenction-Oriented），意思是数据被分组存储在数据集中，被称为一个集合（Collenction)。每个集合在数据库中都有一个唯一的标识名，并且可以包含无限数目的文档。集合的概念类似关系型数据库（RDBMS）里的表（table），不同的是它不需要定义任何模式（schema)。
◆ 模式自由
模式自由（schema-free)，意味着对于存储在mongodb数据库中的文件，我们不需要知道它的任何结构定义。如果需要的话，你完全可以把不同结构的文件存储在同一个数据库里。
◆支持动态查询
◆支持完全索引，包含内部对象
◆支持查询
◆支持复制和故障恢复
◆使用高效的二进制数据存储，包括大型对象（如视频等）
◆自动处理碎片，以支持云计算层次的扩展性
◆支持RUBY，PYTHON，JAVA，C++，PHP等多种语言
◆文件存储格式为BSON（一种JSON的扩展）
BSON（Binary Serialized document Format）存储形式是指：存储在集合中的文档，被存储为键-值对的形式。键用于唯一标识一个文档，为字符串类型，而值则可以是各种复杂的文件类型。
◆可通过网络访问
MongoDB服务端可运行在Linux、Windows或OS X平台，支持32位和64位应用，默认端口为27017。推荐运行在64位平台，因为MongoDB在32位模式运行时支持的最大文件尺寸为2GB。
MongoDB把数据存储在文件中（默认路径为：/data/db），为提高效率使用内存映射文件进行管理。
Hypertable
Hypertable是一个开源、高性能、可伸缩的数据库，它采用与Google的Bigtable相似的模型。在过去数年中，Google为在PC集群上运行的可伸缩计算基础设施设计建造了三个关键部分。第一个关键的基础设施是Google File System（GFS），这是一个高可用的文件系统，提供了一个全局的命名空间。它通过跨机器（和跨机架）的文件数据复制来达到高可用性，并因此免受传统文件存储系统无法避免的许多失败的影响，比如电源、内存和网络端口等失败。第二个基础设施是名为Map-Rece的计算框架，它与GFS紧密协作，帮助处理收集到的海量数据。第三个基础设施是Bigtable，它是传统数据库的替代。Bigtable让你可以通过一些主键来组织海量数据，并实现高效的查询。Hypertable是Bigtable的一个开源实现，并且根据我们的想法进行了一些改进。
Apache Cassandra
Apache Cassandra是一套开源分布式Key-Value存储系统。它最初由*开发，用于储存特别大的数据。*在使用此系统。
主要特性：
◆ 分布式
◆ 基于column的结构化
◆ 高伸展性
Cassandra的主要特点就是它不是一个数据库，而是由一堆数据库节点共同构成的一个分布式网络服务，对Cassandra 的一个写操作，会被复制到其他节点上去，对Cassandra的读操作，也会被路由到某个节点上面去读取。对于一个Cassandra群集来说，扩展性能是比较简单的事情，只管在群集里面添加节点就可以了。
Cassandra是一个混合型的非关系的数据库，类似于Google的BigTable。其主要功能比 Dynomite（分布式的Key-Value存储系统）更丰富，但支持度却不如文档存储MongoDB（介于关系数据库和非关系数据库之间的开源产品，是非关系数据库当中功能最丰富，最像关系数据库的。Cassandra最初由*开发，后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。以Amazon专有的完全分布式的Dynamo为基础，结合了Google BigTable基于列族（Column Family）的数据模型。P2P去中心化的存储。很多方面都可以称之为Dynamo 2.0。
CouchDB
所用语言： Erlang
特点：DB一致性，易于使用
使用许可： Apache
协议： HTTP/REST
双向数据复制，持续进行或临时处理，处理时带冲突检查，因此，采用的是master-master复制
MVCC – 写操作不阻塞读操作
可保存文件之前的版本
Crash-only（可靠的）设计
需要不时地进行数据压缩
视图：嵌入式映射/减少
格式化视图：列表显示
支持进行服务器端文档验证
支持认证
根据变化实时更新
支持附件处理
因此， CouchApps（独立的 js应用程序）
需要 jQuery程序库
最佳应用场景：适用于数据变化较少，执行预定义查询，进行数据统计的应用程序。适用于需要提供数据版本支持的应用程序。
例如：CRM、CMS系统。 master-master复制对于多站点部署是非常有用的。
和其他数据库比较，其突出特点是：
◆ 模式灵活：使用Cassandra，像文档存储，你不必提前解决记录中的字段。你可以在系统运行时随意的添加或移除字段。这是一个惊人的效率提升，特别是在大型部署上。
◆ 真正的可扩展性：Cassandra是纯粹意义上的水平扩展。为给集群添加更多容量，可以指向另一台电脑。你不必重启任何进程，改变应用查询，或手动迁移任何数据。
◆ 多数据中心识别：你可以调整你的节点布局来避免某一个数据中心起火，一个备用的数据中心将至少有每条记录的完全复制。
◆ 范围查询：如果你不喜欢全部的键值查询，则可以设置键的范围来查询。
◆ 列表数据结构：在混合模式可以将超级列添加到5维。对于每个用户的索引，这是非常方便的。
◆ 分布式写操作：有可以在任何地方任何时间集中读或写任何数据。并且不会有任何单点失败。
问度娘，啥都有。

nosql数据库有哪些

hadoop什么意思

hadoop是一款开源软件，主要用于分布式存储和计算，他由HDFS和MapRece计算框架组成的，他们分别是Google的GFS和MapRece的开源实现。由于hadoop的易用性和可扩展性，因此成为最近流行的海量数据处理框架。hadoop这个单词来源于其发明者的儿子为一个玩具大象起的名字。

有哪些nosql软件能在windows平台下运行

MembaseMembase 是 NoSQL 家族的一个新的重量级的成员。Membase是开源项目，源代码采用了Apache2.0的使用许可。该项目托管在GitHub.Source tarballs上，可以下载beta版本的Linux二进制包。该产品主要是由North Scale的memcached核心团队成员开发完成，其中还包括Zynga和NHN这两个主要贡献者的工程师，这两个组织都是很大的在线游戏和社区网络空间的供应商。Membase容易安装、操作，可以从单节点方便的扩展到集群，而且为memcached（有线协议的兼容性）实现了即插即用功能，在应用方面为开发者和经营者提供了一个比较低的门槛。做为缓存解决方案，Memcached已经在不同类型的领域（特别是大容量的Web应用）有了广泛的使用，其中 Memcached的部分基础代码被直接应用到了Membase服务器的前端。通过兼容多种编程语言和框架，Membase具备了很好的复用性。在安装和配置方面，Membase提供了有效的图形化界面和编程接口，包括可配置的告警信息。Membase的目标是提供对外的线性扩展能力，包括为了增加集群容量，可以针对统一的节点进行复制。另外，对存储的数据进行再分配仍然是必要的。这方面的一个有趣的特性是NoSQL解决方案所承诺的可预测的性能，类准确性的延迟和吞吐量。通过如下方式可以获得上面提到的特性：◆ 自动将在线数据迁移到低延迟的存储介质的技术（内存，固态硬盘，磁盘）◆ 可选的写操作一一异步，同步（基于复制，持久化）◆ 反向通道再平衡[未来考虑支持]◆ 多线程低锁争用◆ 尽可能使用异步处理◆ 自动实现重复数据删除◆ 动态再平衡现有集群◆ 通过把数据复制到多个集群单元和支持快速失败转移来提供系统的高可用性。MongoDBMongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。他支持的数据结构非常松散，是类似json的bjson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。它的特点是高性能、易部署、易使用，存储数据非常方便。主要功能特性：◆ 面向集合存储，易存储对象类型的数据“面向集合”（Collenction-Oriented），意思是数据被分组存储在数据集中，被称为一个集合（Collenction)。每个集合在数据库中都有一个唯一的标识名，并且可以包含无限数目的文档。集合的概念类似关系型数据库（RDBMS）里的表（table），不同的是它不需要定义任何模式（schema)。◆ 模式自由模式自由（schema-free)，意味着对于存储在mongodb数据库中的文件，我们不需要知道它的任何结构定义。如果需要的话，你完全可以把不同结构的文件存储在同一个数据库里。◆支持动态查询◆支持完全索引，包含内部对象◆支持查询◆支持复制和故障恢复◆使用高效的二进制数据存储，包括大型对象（如视频等）◆自动处理碎片，以支持云计算层次的扩展性◆支持RUBY，PYTHON，JAVA，C++，PHP等多种语言◆文件存储格式为BSON（一种JSON的扩展）BSON（Binary Serialized document Format）存储形式是指：存储在集合中的文档，被存储为键-值对的形式。键用于唯一标识一个文档，为字符串类型，而值则可以是各种复杂的文件类型。◆可通过网络访问MongoDB服务端可运行在Linux、Windows或OS X平台，支持32位和64位应用，默认端口为27017。推荐运行在64位平台，因为MongoDB在32位模式运行时支持的最大文件尺寸为2GB。MongoDB把数据存储在文件中（默认路径为：/data/db），为提高效率使用内存映射文件进行管理。HypertableHypertable是一个开源、高性能、可伸缩的数据库，它采用与Google的Bigtable相似的模型。在过去数年中，Google为在PC集群上运行的可伸缩计算基础设施设计建造了三个关键部分。第一个关键的基础设施是Google File System（GFS），这是一个高可用的文件系统，提供了一个全局的命名空间。它通过跨机器（和跨机架）的文件数据复制来达到高可用性，并因此免受传统文件存储系统无法避免的许多失败的影响，比如电源、内存和网络端口等失败。第二个基础设施是名为Map-Rece的计算框架，它与GFS紧密协作，帮助处理收集到的海量数据。第三个基础设施是Bigtable，它是传统数据库的替代。Bigtable让你可以通过一些主键来组织海量数据，并实现高效的查询。Hypertable是Bigtable的一个开源实现，并且根据我们的想法进行了一些改进。Apache CassandraApache Cassandra是一套开源分布式Key-Value存储系统。它最初由*开发，用于储存特别大的数据。*在使用此系统。主要特性：◆ 分布式◆ 基于column的结构化◆ 高伸展性Cassandra的主要特点就是它不是一个数据库，而是由一堆数据库节点共同构成的一个分布式网络服务，对Cassandra 的一个写操作，会被复制到其他节点上去，对Cassandra的读操作，也会被路由到某个节点上面去读取。对于一个Cassandra群集来说，扩展性能是比较简单的事情，只管在群集里面添加节点就可以了。Cassandra是一个混合型的非关系的数据库，类似于Google的BigTable。其主要功能比 Dynomite（分布式的Key-Value存储系统）更丰富，但支持度却不如文档存储MongoDB（介于关系数据库和非关系数据库之间的开源产品，是非关系数据库当中功能最丰富，最像关系数据库的。Cassandra最初由*开发，后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。以Amazon专有的完全分布式的Dynamo为基础，结合了Google BigTable基于列族（Column Family）的数据模型。P2P去中心化的存储。很多方面都可以称之为Dynamo 2.0。CouchDB所用语言： Erlang特点：DB一致性，易于使用使用许可： Apache协议： HTTP/REST双向数据复制，持续进行或临时处理，处理时带冲突检查，因此，采用的是master-master复制MVCC – 写操作不阻塞读操作可保存文件之前的版本Crash-only（可靠的）设计需要不时地进行数据压缩视图：嵌入式映射/减少格式化视图：列表显示支持进行服务器端文档验证支持认证根据变化实时更新支持附件处理因此， CouchApps（独立的 js应用程序）需要 jQuery程序库最佳应用场景：适用于数据变化较少，执行预定义查询，进行数据统计的应用程序。适用于需要提供数据版本支持的应用程序。例如：CRM、CMS系统。 master-master复制对于多站点部署是非常有用的。和其他数据库比较，其突出特点是：◆ 模式灵活：使用Cassandra，像文档存储，你不必提前解决记录中的字段。你可以在系统运行时随意的添加或移除字段。这是一个惊人的效率提升，特别是在大型部署上。◆ 真正的可扩展性：Cassandra是纯粹意义上的水平扩展。为给集群添加更多容量，可以指向另一台电脑。你不必重启任何进程，改变应用查询，或手动迁移任何数据。◆ 多数据中心识别：你可以调整你的节点布局来避免某一个数据中心起火，一个备用的数据中心将至少有每条记录的完全复制。◆ 范围查询：如果你不喜欢全部的键值查询，则可以设置键的范围来查询。◆ 列表数据结构：在混合模式可以将超级列添加到5维。对于每个用户的索引，这是非常方便的。◆ 分布式写操作：有可以在任何地方任何时间集中读或写任何数据。并且不会有任何单点失败。问度娘，啥都有。

有哪些nosql软件能在windows平台下运行

MembaseMembase 是 NoSQL 家族的一个新的重量级的成员。Membase是开源项目，源代码采用了Apache2.0的使用许可。该项目托管在GitHub.Source tarballs上，可以下载beta版本的Linux二进制包。该产品主要是由North Scale的memcached核心团队成员开发完成，其中还包括Zynga和NHN这两个主要贡献者的工程师，这两个组织都是很大的在线游戏和社区网络空间的供应商。Membase容易安装、操作，可以从单节点方便的扩展到集群，而且为memcached（有线协议的兼容性）实现了即插即用功能，在应用方面为开发者和经营者提供了一个比较低的门槛。做为缓存解决方案，Memcached已经在不同类型的领域（特别是大容量的Web应用）有了广泛的使用，其中 Memcached的部分基础代码被直接应用到了Membase服务器的前端。通过兼容多种编程语言和框架，Membase具备了很好的复用性。在安装和配置方面，Membase提供了有效的图形化界面和编程接口，包括可配置的告警信息。Membase的目标是提供对外的线性扩展能力，包括为了增加集群容量，可以针对统一的节点进行复制。另外，对存储的数据进行再分配仍然是必要的。这方面的一个有趣的特性是NoSQL解决方案所承诺的可预测的性能，类准确性的延迟和吞吐量。通过如下方式可以获得上面提到的特性：◆ 自动将在线数据迁移到低延迟的存储介质的技术（内存，固态硬盘，磁盘）◆ 可选的写操作一一异步，同步（基于复制，持久化）◆ 反向通道再平衡[未来考虑支持]◆ 多线程低锁争用◆ 尽可能使用异步处理◆ 自动实现重复数据删除◆ 动态再平衡现有集群◆ 通过把数据复制到多个集群单元和支持快速失败转移来提供系统的高可用性。MongoDBMongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。他支持的数据结构非常松散，是类似json的bjson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。它的特点是高性能、易部署、易使用，存储数据非常方便。主要功能特性：◆ 面向集合存储，易存储对象类型的数据“面向集合”（Collenction-Oriented），意思是数据被分组存储在数据集中，被称为一个集合（Collenction)。每个集合在数据库中都有一个唯一的标识名，并且可以包含无限数目的文档。集合的概念类似关系型数据库（RDBMS）里的表（table），不同的是它不需要定义任何模式（schema)。◆ 模式自由模式自由（schema-free)，意味着对于存储在mongodb数据库中的文件，我们不需要知道它的任何结构定义。如果需要的话，你完全可以把不同结构的文件存储在同一个数据库里。◆支持动态查询◆支持完全索引，包含内部对象◆支持查询◆支持复制和故障恢复◆使用高效的二进制数据存储，包括大型对象（如视频等）◆自动处理碎片，以支持云计算层次的扩展性◆支持RUBY，PYTHON，JAVA，C++，PHP等多种语言◆文件存储格式为BSON（一种JSON的扩展）BSON（Binary Serialized document Format）存储形式是指：存储在集合中的文档，被存储为键-值对的形式。键用于唯一标识一个文档，为字符串类型，而值则可以是各种复杂的文件类型。◆可通过网络访问MongoDB服务端可运行在Linux、Windows或OS X平台，支持32位和64位应用，默认端口为27017。推荐运行在64位平台，因为MongoDB在32位模式运行时支持的最大文件尺寸为2GB。MongoDB把数据存储在文件中（默认路径为：/data/db），为提高效率使用内存映射文件进行管理。HypertableHypertable是一个开源、高性能、可伸缩的数据库，它采用与Google的Bigtable相似的模型。在过去数年中，Google为在PC集群上运行的可伸缩计算基础设施设计建造了三个关键部分。第一个关键的基础设施是Google File System（GFS），这是一个高可用的文件系统，提供了一个全局的命名空间。它通过跨机器（和跨机架）的文件数据复制来达到高可用性，并因此免受传统文件存储系统无法避免的许多失败的影响，比如电源、内存和网络端口等失败。第二个基础设施是名为Map-Rece的计算框架，它与GFS紧密协作，帮助处理收集到的海量数据。第三个基础设施是Bigtable，它是传统数据库的替代。Bigtable让你可以通过一些主键来组织海量数据，并实现高效的查询。Hypertable是Bigtable的一个开源实现，并且根据我们的想法进行了一些改进。Apache CassandraApache Cassandra是一套开源分布式Key-Value存储系统。它最初由*开发，用于储存特别大的数据。*在使用此系统。主要特性：◆ 分布式◆ 基于column的结构化◆ 高伸展性Cassandra的主要特点就是它不是一个数据库，而是由一堆数据库节点共同构成的一个分布式网络服务，对Cassandra 的一个写操作，会被复制到其他节点上去，对Cassandra的读操作，也会被路由到某个节点上面去读取。对于一个Cassandra群集来说，扩展性能是比较简单的事情，只管在群集里面添加节点就可以了。Cassandra是一个混合型的非关系的数据库，类似于Google的BigTable。其主要功能比 Dynomite（分布式的Key-Value存储系统）更丰富，但支持度却不如文档存储MongoDB（介于关系数据库和非关系数据库之间的开源产品，是非关系数据库当中功能最丰富，最像关系数据库的。Cassandra最初由*开发，后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。以Amazon专有的完全分布式的Dynamo为基础，结合了Google BigTable基于列族（Column Family）的数据模型。P2P去中心化的存储。很多方面都可以称之为Dynamo 2.0。CouchDB所用语言： Erlang特点：DB一致性，易于使用使用许可： Apache协议： HTTP/REST双向数据复制，持续进行或临时处理，处理时带冲突检查，因此，采用的是master-master复制MVCC – 写操作不阻塞读操作可保存文件之前的版本Crash-only（可靠的）设计需要不时地进行数据压缩视图：嵌入式映射/减少格式化视图：列表显示支持进行服务器端文档验证支持认证根据变化实时更新支持附件处理因此， CouchApps（独立的 js应用程序）需要 jQuery程序库最佳应用场景：适用于数据变化较少，执行预定义查询，进行数据统计的应用程序。适用于需要提供数据版本支持的应用程序。例如：CRM、CMS系统。 master-master复制对于多站点部署是非常有用的。和其他数据库比较，其突出特点是：◆ 模式灵活：使用Cassandra，像文档存储，你不必提前解决记录中的字段。你可以在系统运行时随意的添加或移除字段。这是一个惊人的效率提升，特别是在大型部署上。◆ 真正的可扩展性：Cassandra是纯粹意义上的水平扩展。为给集群添加更多容量，可以指向另一台电脑。你不必重启任何进程，改变应用查询，或手动迁移任何数据。◆ 多数据中心识别：你可以调整你的节点布局来避免某一个数据中心起火，一个备用的数据中心将至少有每条记录的完全复制。◆ 范围查询：如果你不喜欢全部的键值查询，则可以设置键的范围来查询。◆ 列表数据结构：在混合模式可以将超级列添加到5维。对于每个用户的索引，这是非常方便的。◆ 分布式写操作：有可以在任何地方任何时间集中读或写任何数据。并且不会有任何单点失败。问度娘，啥都有。

hadoop是干什么用的?

提供海量数据存储和计算的。需要java语言基础。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

Hadoop的框架最核心的设计就是：HDFS和MapRece。HDFS为海量的数据提供了存储，而MapRece则为海量的数据提供了计算。

扩展资料

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。能够对大量数据进行分布式处理的软件框架Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。

参考资料：百度百科-Hadoop

Hadoop到底是什么玩意

Hadoop到底是个啥？

答：Hadoop是基于廉价设备利用集群的威力对海量数据进行安全存储和高效计算的分布式存储和分析框架，Hadoop本身是一个庞大的项目家族，其核心家族或者底层是HDFS和MapRece，HDFS和MapRece分别用来实现对海量数据的存储和分析，其它的项目，例如Hive、HBase 等都是基于HDFS和MapRece，是为了解决特定类型的大数据处理问题而提出的子项目，使用Hive、HBase等子项目可以在更高的抽象的基础上更简单的编写分布式大数据处理程序。Hadoop的其它子项目还包括Common, Avro, Pig, ZooKeeper, Sqoop, Oozie 等，随着时间的推移一些新的子项目会被加入进来，一些关注度不高的项目会被移除Hadoop家族，所以Hadoop是一个充满活力的系统。

Apache Hadoop: 是Apache开源组织的一个分布式计算开源框架，提供了一个分布式文件系统子项目(HDFS)和支持MapRece分布式计算的软件架构。

Apache Hive: 是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，通过类SQL语句快速实现简单的MapRece统计，不必开发专门的MapRece应用，十分适合数据仓库的统计分析。

ApachePig: 是一个基于Hadoop的大规模数据分析工具，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapRece运算。

ApacheHBase: 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

Apache Sqoop: 是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Apache Zookeeper: 是一个为分布式应用所设计的分布的、开源的协调服务，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，简化分布式应用协调及其管理的难度，提供高性能的分布式服务 ApacheMahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapRece实现了部分数据挖掘算法，解决了并行挖掘的问题。

ApacheCassandra:是一套开源分布式NoSQL数据库系统。它最初由开发，用于储存简单格式数据，集Google BigTable的数据模型与AmazonDynamo的完全分布式的架构于一身 Apache Avro: 是一个数据序列化系统，设计用于支持数据密集型，大批量数据交换的应用。Avro是新的数据序列化格式与传输工具，将逐步取代Hadoop原有的IPC机制 ApacheAmbari: 是一种基于Web的工具，支持Hadoop集群的供应、管理和监控。

ApacheChukwa: 是一个开源的用于监控大型分布式系统的数据收集系统，它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供Hadoop 进行各种 MapRece 操作。

ApacheHama: 是一个基于HDFS的BSP（Bulk Synchronous Parallel)并行计算框架, Hama可用于包括图、矩阵和网络算法在内的大规模、大数据计算。

ApacheFlume: 是一个分布的、可靠的、高可用的海量日志聚合的系统，可用于日志数据收集，日志数据处理，日志数据传输。

ApacheGiraph: 是一个可伸缩的分布式迭代图处理系统，基于Hadoop平台，灵感来自 BSP (bulk synchronous parallel) 和Google 的 Pregel。

ApacheOozie: 是一个工作流引擎服务器, 用于管理和协调运行在Hadoop平台上（HDFS、Pig和MapRece）的任务。

ApacheCrunch: 是基于Google的FlumeJava库编写的Java库，用于创建MapRece程序。与Hive，Pig类似，Crunch提供了用于实现如连接数据、执行聚合和排序记录等常见任务的模式库 ApacheWhirr: 是一套运行于云服务的类库（包括Hadoop），可提供高度的互补性。Whirr学支持Amazon EC2和Rackspace的服务。

ApacheBigtop: 是一个对Hadoop及其周边生态进行打包，分发和测试的工具。

ApacheHCatalog: 是基于Hadoop的数据表和存储管理，实现的元数据和模式管理，跨越Hadoop和RDBMS，利用Pig和Hive提供关系视图。

ClouderaHue: 是一个基于WEB的监控和管理系统，实现对HDFS，MapRece/YARN, HBase, Hive, Pig的web化操作和管理。