🏗️ 大数据分层架构
1️⃣ 总体结构
数据源 → 数据采集 → 数据存储 → 数据分析 → 数据应用
2️⃣ 分层详解
📥 数据源层
| 类型 | 示例 |
|---|---|
| 业务系统 | ERP / CRM |
| 日志数据 | 用户行为日志 |
| 外部数据 | API / 第三方 |
🚚 数据采集层(ETL)
| 功能 | 技术 |
|---|---|
| 数据抽取 | Flume / Logstash |
| 数据清洗 | Spark / MapReduce |
| 数据同步 | Sqoop / Kafka |
👉 说明:
- 负责数据采集、清洗、转换
- 支持实时 / 离线
💾 数据存储层
| 类型 | 技术 |
|---|---|
| 分布式存储 | HDFS |
| 数据仓库 | Hive |
| NoSQL | HBase |
👉 说明:
- 存储海量数据
- 支持高扩展
📊 数据分析层
| 类型 | 技术 |
|---|---|
| SQL分析 | Hive / Presto |
| 实时计算 | Spark Streaming / Flink |
| 数据挖掘 | ML / 算法 |
📈 数据应用层
| 类型 | 示例 |
|---|---|
| BI报表 | Tableau |
| 数据接口 | API服务 |
| 可视化 | 大屏 |
3️⃣ 数据流(重点!)
数据源
↓
采集(ETL)
↓
存储(HDFS/Hive)
↓
分析(SQL/计算)
↓
应用(报表/API)