Get fresh updates from Hortonworks by email

Once a month, receive latest insights, trends, analytics, offering information and knowledge of the Big Data.

CTA

开始

云

是否已准备就绪?

下载 sandbox

我们能为您做什么?

关闭关闭按钮
CTA

快速、轻松和安全的大数据提取

数据提取时间从几个月缩短到几分钟

云 了解您可以如何让数据提取更加快速、轻松和安全

下载白皮书

什么是数据提取

大数据提取是值将数据(特别是非机构化数据)从原始位置移动到可以进行存储和分析的系统(如 Hadoop)。

根据源和目标的特征,数据提取可能是连续或异步、实时和/或批量(Lambda 架构)。在很多情况下,源和目标可能具有不同的数据计时、格式或协议,并且将需要某种类型的变换和转换才能由目标系统重复使用。

随着物联网设备数量的增长,数据源的量级和差异性也随之快速扩大,现在源也需要进行适应,并且通常是实时的。而且就时间和资源角度而言,抽取数据以便由目标系统使用也是一个棘手难题。尽可能提高数据提取效率有助于将资源集中于大数据分析,而不是毫无益处的数据准备和变换工作。

HDF 让大数据提取变得更轻松

之前

复杂、混乱并且需要几周时间才能将正确数据移动到 Hadoop

之后

简洁、高效、轻松

数据提取的典型问题

复杂、缓慢且昂贵

*

专门定制和过渡工程化的工具让大数据提取变得复杂、耗时且昂贵。

*

编写自定义脚本并将多个产品组合到一起来采集和提取与当前大数据提取解决方案相关的数据会花费很长时间,并导致无法做出当今业务环境所需要的实时决策

*

现有工具的命令行界面导致依赖于开发者,妨碍了数据访问和决策制定。

数据的安全性和可信性

*

分享分散的少量数据的需求与当前传输层数据安全功能不兼容,这限制了组或角色级别的访问

*

要遵从合规性和数据安全法规,不仅困难、复杂而且成本高

*

验证数据访问和使用情况不仅困难、耗时,而且涉及到将不同系统和报告分段的人工过程,以验证数据的来源、使用方式、使用者以及使用频率

面向物联网的数据提取的问题

*

难以在有限的电力、计算和带宽资源与数据源生成的数据信号量之间取得均衡

*

不可靠的连接会导致通信中断并导致数据丢失

*

全球大部分已部署传感器缺乏安全性,这使业务和安全性面临着风险

使用 Hortonworks DataFlow 优化数据提取

快速、轻松、安全

*

目前解决很多大数据提取问题的最快速方法

*

实时、交互点和一键控制数据流

*

加速数据收集和移动,以提高大数据 ROI

*

实时运营可见性、反馈和控制

*

业务敏捷性和响应能力

*

通过流数据源实时制定决策

*

消除编码和自定义脚本方法中固有的依赖性和延迟性,从而将运营效能提升到一个前所未有的高度

*

现成可用的基于流的编程,面向大数据基础设施

*

在地理位置分散且带宽不稳定的环境中,进行安全、可靠且优先数据收集

*

端到端数据管制,可实现产销监管链以获得数据合规性和数据“估值”和数据流优化及故障诊断

Single, Flexible, Adaptive Bi-Directional Real-Time System

*

从动态、分散和分布式来源中集成式数据源无关集合

*

在带宽和延迟变化的环境中,自适应地理分散通信链路中的远程、分布式数据源的浮动情况

*

边缘的动态、实时数据优先级划分,以发送、删除或本地存储数据

*

双向移动数据、命令和上下文数据

*

同样精心设计,既可运行于构成物联网的小型数据源,也可运行于当前企业数据中心之中的大型集群

*

可视化数据监管链(溯源)提供了实时事件级别数据沿袭,以验证和信任来自物联网的数据

 
实时数据流如何加速大数据 ROI
保护来自物联网的数据流
实时、可视化数据沿袭
安全的数据访问和控制
动态数据的动态优先级划分

使用 Hortonworks Dataflow 进行数据提取的用例

用例 1

汇入到 Hadoop

通过实时拖放界面,加速将数据移动到 Hadoop 通常所需要的时间 (从几个月到几分钟)阅读真实用例并查看如何在 30 秒内将数据移动到 HDFS。

 

Prescient 视频 | 博客
立即观看 30 秒实时演示

使用案例 2
media img

日志收集/Splunk 优化

日志数据可能难以捕获,通常是以有限数量收集并且难以大规模操作。HDF 帮助高效率收集、汇总和访问数量不断扩大的日志数据,并且可以轻松与日志分析系统(如 Splunk、SumoLogic、Graylog、LogStash 等等)集成以轻松、安全且全方位地对日志文件进行数据提取。

 

日志分析优化白皮书立即下载

使用案例 3
media img

物联网提取

由于物联网数据的分布式和分散特征,要实现通过实时物联网数据制定实时决策的愿望是一项挑战。 HDF 简化了数据收集,并帮助将情报推送到高度分布式网络的最边缘。

 

A. 物联网的边缘情报了解更多
B. 零售业与物联网了解更多
C. Open Energi 物联网了解更多

用例 4
media img

为流处理引擎提供数据

NiFi Kafka 和 Storm 博客、幻灯片、网络研讨会了解更多
Comcast 在 Hadoop 峰会上主旨演讲中 NiFi 到 Spark视频