不同目的，同样成功

发布时间：2021-03-14 13:56:56 所属栏目：传媒来源：互联网

导读：Hive是在Hadoop分布式文件系统上运行的开源分布式数据仓库数据库，用于查询和分析大数据。数据以表格的形式存储(就像关系数据库管理系统一样)。数据操作可以使用名为HiveQL的SQL接口来执行。Hive在Hadoop之上引入了SQL功能，使其成为一个水平可扩展的数据库

Hive是在Hadoop分布式文件系统上运行的开源分布式数据仓库数据库，用于查询和分析大数据。数据以表格的形式存储(就像关系数据库管理系统一样)。数据操作可以使用名为HiveQL的SQL接口来执行。Hive在Hadoop之上引入了SQL功能，使其成为一个水平可扩展的数据库，是DWH环境的绝佳选择。

Hive发展史掠影

Hive(即后来的Apache)最初是由Facebook开发的，开发人员发现他们的数据在几天内出现了从GBs到TBs的指数级增长。当时，Facebook使用Python将数据加载到RDBMS数据库中。因为RDBMS数据库只能垂直伸缩，很快就面临着性能和伸缩性问题。他们需要一个可以水平伸缩并处理大量数据的数据库。Hadoop在当时已经很流行了;不久之后，构建在Hadoop之上的Hive出现了。Hive与RDBMS数据库类似，但不是完整的RDBMS。

为什么选择Hive?

选择Hive的核心原因是它是运行在Hadoop上的SQL接口。此外，它还降低了MapReduce框架的复杂性。Hive帮助企业在HDFS上执行大规模数据分析，使其成为一个水平可伸缩的数据库。它的SQL接口HiveQL使具有RDBMS背景的开发人员能够构建和开发性能、使拓展的数据仓库类型框架。

Hive特性和功能

Hive具有企业级的特性和功能，可以帮助企业构建高效的高端数据仓库解决方案。

其中一些特性包括：

Hive使用Hadoop作为存储引擎，仅在HDF上运行。
专门为数据仓库操作而构建的，不适用于OLTP或OLAP。
HiveQL作为SQL引擎，能够帮助为数据仓库类型操作构建复杂的SQL查询。Hive可以与其他分布式数据库(如HBase)和NoSQL数据库(如Cassandra)集成。

Hive结构

Hive架构非常简单。它有一个Hive接口，并使用HDFS跨多个服务器存储数据，用于分布式数据处理。