当前位置：首页 > news >正文

AWS Athena 实战：S3 文件直查与 Schema-on-read 原理详解

news 2026/6/11 22:47:26

1. 项目概述：用 Athena 在 S3 上直接查数据，到底省了多少事？

你有没有过这种经历：业务部门凌晨三点甩来一个 Excel 表，说“马上要这个月的用户地域分布热力图”，而你的数仓还在跑昨天的 ETL 任务，ETL 脚本卡在 Spark 的 shuffle 阶段，日志里满屏ExecutorLostFailure；或者运维同事刚清空了临时表，你写的SELECT * FROM staging_orders WHERE dt = '2024-06-15'突然报错Table not found——那一刻，你盯着屏幕，手边的咖啡凉透，心里想的不是 SQL 语法，而是“为什么我非得等数据进表才能看一眼？”

这就是 AWS Athena 存在的根本理由：它让你跳过建模、跳过调度、跳过运维，直接对着 S3 里原始的 CSV、JSON、Parquet 文件写 SQL。核心关键词是AWS Athena、S3 文件查询、无服务器 SQL 引擎、即席分析、Schema-on-read。它不是替代 Redshift 或 EMR 的工具，而是解决“我手头只有 S3 路径，但需要 5 分钟内知道这批日志里有多少 404 错误”这类问题的终极快刀。适合三类人：数据工程师（快速验证上游数据质量）、BI 分析师（绕过数仓审批链做探索性分析）、运维/开发（排查线上问题时直读原始日志）。它不收你集群费用，只按实际扫描的数据量计费（1TB $5），哪怕你只查 10MB 文件，也只付几分钱。我上个月用它查一份 2.3GB 的用户行为 JSON 日志，从上传到拿到结果，全程 4 分 17 秒——比重新部署一个 Airflow DAG 快 11 倍。

2. 整体设计思路与方案选型逻辑

2.1 为什么是 Athena？而不是其他方案？

很多人第一反应是：“我有 EMR，为啥不用 Spark SQL？” 或者 “Redshift Spectrum 不也能查 S3 吗？” 这个选择背后是成本、时效、人力三重算账。我们来拆解真实场景：

假设你有一批新接入的 IoT 设备日志，存为 S3 上的s3://my-bucket/iot-logs/year=2024/month=06/day=15/下的 127 个 Parquet 文件，总大小 89GB。你需要确认设备上报的battery_level字段是否全为数值类型，是否存在空值或异常值（比如 -999）。

用 EMR + Spark SQL：你得先起一个 4 节点的 m5.xlarge 集群（约 $0.32/小时），等待 3 分钟启动，上传 JAR 包，写 Spark 代码（spark.read.parquet(...).select("battery_level").describe().show()），再等 2 分钟执行完成。总耗时 ≥8 分钟，最低成本 $0.05（按分钟计费），且集群空闲时仍在烧钱。
用 Redshift Spectrum：你得先在 Redshift 里建一个外部 schema，指向 S3 路径，再建外部表（需明确定义所有字段类型），最后SELECT COUNT(*) FROM ext_iot_logs WHERE battery_level IS NULL。整个过程涉及 Redshift 集群权限配置、IAM 角色绑定、外部表 DDL 编写——对 BI 同事来说，光是找 DBA 开通权限就要等半天。
用 Athena：你打开控制台，选好数据库（或新建一个），点“Create table”，粘贴 S3 路径，勾选“Automatically detect schema”，点“Create table”。30 秒后，直接在查询编辑器里敲SELECT COUNT(*) FROM iot_logs WHERE battery_level IS NULL OR battery_level < 0，点击运行。结果秒出，费用 $0.00445（89GB × $5/TB）。整个过程无需任何集群管理、无需 DBA 审批、无需写一行 Java/Python。

提示：Athena 的本质是 Presto（现为 Trino）的托管服务，但它把 Presto 最难啃的“元数据管理”和“计算资源伸缩”全包圆了。你付出的唯一代价，是接受它“不支持 UPDATE/DELETE”、“不支持事务”、“高并发下可能排队”的事实——而这恰恰是它轻量化的代价。

2.2 架构设计的核心取舍：Schema-on-read vs Schema-on-write

Athena 的灵魂是Schema-on-read（读时模式），这和传统数据库的 Schema-on-write（写时模式）截然不同。举个生活化例子：Schema-on-write 就像你去图书馆借书，管理员必须提前给每本书贴好分类标签（“计算机/数据库/MySQL 入门”，“文学/小说/百年孤独”），你只能按标签找；而 Schema-on-read 就像你走进一个未整理的旧书摊，摊主只告诉你“这儿有 200 本书”，你拿起一本《MySQL 入门》，自己翻目录看它讲不讲索引，再决定要不要读——Athena 就是那个摊主，它不强制你定义结构，而是等你写 SQL 时，才根据你的SELECT字段和WHERE条件，动态解析文件内容。

这个设计带来三大优势：

零数据移动：数据永远留在 S3，不需INSERT INTO ... SELECT导入；
极致灵活：同一份 Parquet 文件，你可以今天查user_id, event_time，明天加个JSON_PARSE(details).error_code，只要文件里真有这些字段，Athena 就能读；
低成本试错：你想试试用正则提取 URL 参数？写个REGEXP_EXTRACT(url, 'utm_source=([^&]+)')就行，失败了不损失一分钱。

但硬币另一面是：你必须为灵活性买单。比如，如果你的 S3 目录下混着 CSV 和 JSON 文件（.../2024-06-15/part-001.csv,.../2024-06-15/part-002.json），Athena 会直接报错HIVE_UNKNOWN_ERROR，因为它无法为同一张表自动适配两种格式。解决方案？要么用 Lambda 自动归类文件后缀并分目录存储，要么在建表时明确指定STORED AS PARQUET并确保路径下全是 Parquet——这是架构设计的第一道坎：路径即契约。

2.3 成本控制的底层逻辑：为什么按扫描量计费？

Athena 的计费模型常被误解为“按查询次数”，其实核心是Data Scanned（扫描字节数）。它的原理很朴素：当你执行SELECT user_id FROM logs WHERE event_type = 'login'，Athena 不会把整个 100GB 文件拉到内存，而是：

先读 Parquet 文件的 footer（几 KB），获取每个 row group 的统计信息（min/max/bloom filter）；
发现event_type = 'login'这个条件，通过 bloom filter 快速排除掉 92% 的 row group；
只解压并扫描剩余 8% 的 row group 中的user_id列（列式存储的优势）；
最终实际扫描量可能只有 800MB，而非 100GB。

所以，优化扫描量 = 降低费用。这意味着：

用 Parquet 替代 CSV（压缩率提升 3~5 倍，且支持谓词下推）；
合理分区（按dt STRING分区后，WHERE dt = '2024-06-15'只扫当天目录）；
避免SELECT *（只查需要的列，尤其避开大文本字段如raw_log）；
对高频查询字段建分区（如country STRING,app_version STRING），而非全量扫描。

我实测过一组数据：同样 12GB 的用户日志，CSV 格式全表扫描费用 $0.06；转成 Parquet 后，加dt分区，同样查询费用降至 $0.0012——降费 98%。这不是玄学，是列式存储+分区+谓词下推的物理必然。

3. 核心细节解析与实操要点

3.1 S3 数据准备：格式、压缩、分区的硬性要求

Athena 能读的文件格式有限，且每种格式有隐含约束。别以为“S3 能存，Athena 就能读”，踩坑最多的就是格式不兼容。

格式	是否推荐	关键要求	常见陷阱
Parquet	★★★★★	必须是 Snappy 或 Zlib 压缩；schema 必须兼容 Hive Metastore（如`TIMESTAMP`类型需为`16-digit microsecond epoch`）	用 Pandas`to_parquet(compression='lz4')`写的文件，Athena 会报`Invalid Parquet file: missing magic number`—— LZ4 不被支持
ORC	★★★★☆	推荐 Zlib 压缩；支持 ACID 事务（但 Athena 不用此特性）	ORC 的`struct`类型在 Athena 中映射为`ROW`，但`ROW(a INT, b STRING)`的写法必须和文件 schema 严格一致，否则`NULL`值全变成`[]`
CSV	★★☆☆☆	必须有 header 行（或显式声明`skip.header.line.count=1`）；禁止双引号嵌套（`"a,"b",c"`会解析错）	用 Excel 保存的 CSV 默认用`,`分隔但含`\r\n`换行，Athena 会把`\r`当作字段内容，导致`COUNT(*)`多出 1 行
JSON	★★★☆☆	必须是行式 JSON（newline-delimited JSON），即每行一个 JSON 对象`{...}\n{...}\n`，而非一个大 JSON 数组`[{},{}]`	用`json.dumps(data, indent=2)`生成的美化 JSON，Athena 会报`HIVE_BAD_DATA: Error parsing field value for field X`

注意：所有格式都严禁文件名含特殊字符（?,*,&），S3 路径中不能有空格。我曾因一个同事上传的文件名是data 2024-06-15.json（带空格），Athena 死活找不到文件，查了 2 小时才发现是 URL 编码问题——S3 控制台显示正常，但 Athena 底层用的是原始 URL，空格被编码为%20，必须重命名为data_2024-06-15.json。

分区设计是另一个生死线。Athena 的分区不是“锦上添花”，而是“雪中送炭”。假设你的日志路径是s3://my-bucket/logs/2024/06/15/，你有两种建表方式：

方式 A（不推荐）：建表时指定LOCATION 's3://my-bucket/logs/'，然后在 SQL 里写WHERE substr(file_path, 20, 10) = '2024/06/15'——这叫partition pruning failure，Athena 会扫描logs/下所有子目录（包括 2023 年的），费用翻 10 倍。
方式 B（必须）：建表时用 Hive 风格分区，LOCATION 's3://my-bucket/logs/'，并在建表语句中声明PARTITIONED BY (year STRING, month STRING, day STRING)，然后执行MSCK REPAIR TABLE logs让 Athena 自动发现分区。之后WHERE year='2024' AND month='06' AND day='15'，它只扫当天目录。

实操中，我建议用日期分区 + 业务维度二级分区。比如广告日志，路径设为s3://bucket/ad-logs/dt=2024-06-15/country=US/app=ios/，建表时PARTITIONED BY (dt STRING, country STRING, app STRING)。这样查“美国 iOS 用户点击量”，扫描量从 TB 级降到 GB 级。

3.2 表创建全流程：从 S3 路径到可查询表的 7 步

很多人卡在“建表就报错”，其实只是漏了 1-2 个关键参数。以下是我在生产环境验证过的标准流程（以 Parquet 格式为例）：

确认 S3 权限：确保 Athena 所用的 IAM 角色有s3:GetObject和s3:ListBucket权限，且策略中Resource明确列出你的 bucket 名（不能写*）。常见错误：角色有s3:*，但 bucket 启用了 Block Public Access，需额外添加s3:GetBucketLocation。
进入 Athena 控制台：选择区域（必须和 S3 bucket 同区域！跨区访问会报Access Denied，即使权限正确）。
创建数据库：在左侧导航栏点 “Database”，选 “Create database”，输入名称（如ad_analytics），Location填s3://my-bucket/athena-database/（这是元数据存储位置，非数据位置）。
启动建表向导：点 “Create table”，选 “From S3” → 粘贴你的 Parquet 路径（如s3://my-bucket/ad-logs/dt=2024-06-15/）→ 点 “Next”。
设置表名与格式：表名用小写字母+下划线（ad_clicks_20240615），格式选 “Parquet”，关键一步：在 “Input format” 下拉框中，手动选org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat（别用默认的org.apache.hadoop.mapred.TextInputFormat，那是给 CSV 准备的）。
定义分区：如果路径含分区（如.../dt=2024-06-15/country=US/），在 “Partition columns” 中依次添加dt STRING,country STRING。注意：分区列名必须小写，且不能和数据字段名重复。
预览与创建：点 “Preview table”，Athena 会抽样读取 100 行，自动生成字段名和类型（如user_id BIGINT,click_time TIMESTAMP）。检查类型是否合理（click_time若被识别为STRING，说明 Parquet 的 timestamp 未用 microsecond 精度，需重写文件）→ 点 “Create table”。

实操心得：如果预览时报错Failed to create table: HIVE_CANNOT_OPEN_SPLIT，90% 是 S3 权限问题；若预览成功但查询时报HIVE_CURSOR_ERROR，大概率是 Parquet 的 schema 和 Hive Metastore 不兼容（比如用了DECIMAL(18,2)但文件里是DOUBLE）。此时不要硬扛，用aws s3 cp s3://bucket/path/part-001.parquet ./local.parquet下载一个文件，用parquet-tools schema local.parquet查看真实 schema，再对比建表语句。

3.3 查询编写避坑指南：那些让查询变慢 10 倍的写法

Athena 的 SQL 语法基于 Presto，但并非所有 Presto 功能都开放。最常被忽略的是函数兼容性和JOIN 策略。

函数陷阱

DATE_TRUNC('day', event_time)✅ 支持，但DATE_TRUNC('week', event_time)❌ 不支持（会报FUNCTION_NOT_FOUND）。替代方案：date_parse(concat(year(event_time), '-', lpad(cast(week(event_time)) as varchar), 2, '0'), '-1'), '%Y-%m-%d')。
JSON_EXTRACT_SCALAR(details, '$.user_id')✅ 支持，但JSON_EXTRACT(details, '$.items')返回的是VARCHAR，不能直接CROSS JOIN UNNEST—— 必须先CAST(JSON_EXTRACT(...) AS ARRAY<JSON>)。
REGEXP_LIKE(url, 'https?://.*\.com')✅，但REGEXP_REPLACE(url, 'http://', 'https://')❌（Athena 3.0+ 才支持，老版本用replace(url, 'http://', 'https://')）。

JOIN 性能雷区

Athena 的 JOIN 默认是broadcast join（小表广播到所有 worker），但如果两个表都超 1GB，就会退化为shuffle join，性能暴跌。例如：

-- 危险！orders 表 5GB，users 表 3GB，会触发 shuffle，耗时 8 分钟 SELECT o.order_id, u.name FROM orders o JOIN users u ON o.user_id = u.id;

正确解法：用/*+ MAPJOIN(u) */提示强制广播 users 表（前提是 u < 1GB）：

SELECT /*+ MAPJOIN(u) */ o.order_id, u.name FROM orders o JOIN users u ON o.user_id = u.id;

如果 users 表也大？那就得预处理：先用CREATE TABLE users_small AS SELECT id, name FROM users WHERE country = 'US'抽出子集，再 JOIN。

注意：Athena 不支持WITH子句的递归查询（WITH RECURSIVE），也不支持窗口函数的RANGE帧（只支持ROWS BETWEEN ...）。我曾用ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY ts ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW)做累计求和，结果报错，改成ROWS UNBOUNDED PRECEDING才通过。

4. 实操过程与核心环节实现

4.1 从零开始：一次完整的端到端实战（含全部命令与截图逻辑）

我们来走一遍最典型的场景：分析一批用户行为日志，目标是输出“各城市用户次日留存率”。数据已存为 Parquet，路径s3://my-bucket/user-logs/dt=2024-06-15/，字段包括user_id STRING,event_time TIMESTAMP,city STRING,event_type STRING（值为 'login' 或 'purchase'）。

Step 1：创建数据库与表

-- 在 Athena 查询编辑器中执行 CREATE DATABASE IF NOT EXISTS user_analytics; USE user_analytics; -- 创建表，注意 LOCATION 指向父目录，分区列单独声明 CREATE EXTERNAL TABLE user_logs ( user_id STRING, event_time TIMESTAMP, city STRING, event_type STRING ) PARTITIONED BY (dt STRING) STORED AS PARQUET LOCATION 's3://my-bucket/user-logs/' TBLPROPERTIES ("parquet.compression"="SNAPPY");

Step 2：加载分区

-- 手动添加单个分区（适合新增一天） ALTER TABLE user_logs ADD PARTITION (dt = '2024-06-15') LOCATION 's3://my-bucket/user-logs/dt=2024-06-15/'; -- 或批量修复所有分区（适合历史数据补录） MSCK REPAIR TABLE user_logs;

Step 3：验证数据

-- 检查分区是否加载成功 SHOW PARTITIONS user_logs; -- 抽样查看数据（避免全表扫描） SELECT * FROM user_logs WHERE dt = '2024-06-15' LIMIT 10; -- 统计当日登录用户数（确认基础数据可用） SELECT COUNT(DISTINCT user_id) FROM user_logs WHERE dt = '2024-06-15' AND event_type = 'login';

Step 4：计算次日留存率（核心逻辑）留存率 = （在 D 日登录，且在 D+1 日也登录的用户数）/（D 日登录的用户总数）

-- 方案一：用 LAG 窗口函数（需确保 event_time 精确到秒） WITH login_events AS ( SELECT user_id, dt, -- 将 dt 转为日期类型，用于计算 D+1 date(dt) AS login_date, -- 获取用户下一次登录日期 LEAD(date(dt)) OVER (PARTITION BY user_id ORDER BY date(dt)) AS next_login_date FROM user_logs WHERE event_type = 'login' ), retained_users AS ( SELECT user_id FROM login_events WHERE next_login_date = date_add('day', 1, login_date) ) SELECT l.dt, COUNT(DISTINCT l.user_id) AS total_login, COUNT(DISTINCT r.user_id) AS retained_login, ROUND(COUNT(DISTINCT r.user_id) * 100.0 / COUNT(DISTINCT l.user_id), 2) AS retention_rate FROM user_logs l LEFT JOIN retained_users r ON l.user_id = r.user_id WHERE l.dt = '2024-06-15' AND l.event_type = 'login' GROUP BY l.dt;

Step 5：优化查询性能上述查询会扫描全表，我们加分区过滤和列裁剪：

-- 优化版：只查两天数据，且只读必要字段 WITH login_d1 AS ( SELECT DISTINCT user_id FROM user_logs WHERE dt = '2024-06-15' AND event_type = 'login' ), login_d2 AS ( SELECT DISTINCT user_id FROM user_logs WHERE dt = '2024-06-16' AND event_type = 'login' ) SELECT '2024-06-15' AS dt, COUNT(*) AS total_login, COUNT(l2.user_id) AS retained_login, ROUND(COUNT(l2.user_id) * 100.0 / COUNT(*), 2) AS retention_rate FROM login_d1 l1 LEFT JOIN login_d2 l2 ON l1.user_id = l2.user_id;

执行效果：原始查询扫描 12.7GB，耗时 214 秒；优化后扫描 1.8GB，耗时 38 秒，费用从 $0.0635 降至 $0.009。关键差异在于：用DISTINCT预聚合代替窗口函数，用LEFT JOIN替代LEAD，且显式限定dt值。

4.2 高级技巧：用 CTAS 实现数据物化与格式转换

CTAS（Create Table As Select）是 Athena 的隐藏王牌，它能一边查询一边把结果存为新表（Parquet 格式），后续查询直接读优化后的表，速度提升 5~10 倍。

场景：你发现user_logs表里city字段有大量拼写错误（'shanghi', 'beijin'），想建一个清洗后的视图。

-- 创建清洗后的新表，自动存为 Parquet CREATE TABLE user_logs_clean AS SELECT user_id, event_time, -- 标准化城市名 CASE WHEN city IN ('shanghi', 'shanghai', 'shang-hai') THEN 'Shanghai' WHEN city IN ('beijin', 'peking', 'beijing') THEN 'Beijing' ELSE INITCAP(city) -- 首字母大写 END AS city, event_type, dt FROM user_logs; -- 查询新表（注意：新表也有 dt 分区，需手动修复） MSCK REPAIR TABLE user_logs_clean;

CTAS 的三大优势：

自动优化存储：结果表默认用 Snappy 压缩 Parquet，比原始 CSV 小 4 倍；
预计算列：INITCAP(city)在写入时就计算好，后续查询不重复计算；
隔离变更：原始表不动，清洗逻辑全在 SQL 里，可版本化管理。

实操心得：CTAS 不支持INSERT INTO，但支持CREATE OR REPLACE TABLE（Athena 3.0+）。我习惯把清洗逻辑写成.sql文件，用 AWS CLI 定期执行：aws athena start-query-execution --query-string "CREATE OR REPLACE TABLE user_logs_clean AS ..." --database user_analytics --work-group primary。这样就把 ETL 流程变成了“SQL 即代码”。

4.3 权限与安全：如何让分析师只能查特定分区？

生产环境中，绝不能让所有人SELECT * FROM user_logs。Athena 支持细粒度权限控制，核心是Lake Formation或Row-Level Security (RLS)。

方案：用 Lake Formation 做列级+行级控制

在 Lake Formation 控制台，注册你的 S3 bucket 为 Data Lake Location；
为数据库user_analytics设置 LF-Tags（如tag:region=US,tag:region=CN）；
创建权限策略：给分析师组分配SELECT权限，但附加 LF-Tag 条件region=US；
在user_logs表上绑定region=USTag，并在city字段上设置列级屏蔽（隐藏ssn字段）。

这样，当分析师执行SELECT * FROM user_logs WHERE dt='2024-06-15'，Athena 自动注入AND region='US'过滤条件，且返回结果中不包含ssn列。

如果不用 Lake Formation，可用View + IAM Policy替代：

-- 创建视图，只暴露 US 城市数据 CREATE OR REPLACE VIEW user_logs_us AS SELECT user_id, event_time, city, event_type, dt FROM user_logs WHERE city IN ('New York', 'Los Angeles', 'Chicago');

然后在 IAM Policy 中，只允许该用户SELECT这个 View，禁止访问基表user_logs。简单有效，适合中小团队。

5. 常见问题与排查技巧实录

5.1 典型错误代码速查表

错误信息	根本原因	解决方案	我的实测耗时
`HIVE_UNKNOWN_ERROR: Failed to create external table`	S3 路径不存在，或 IAM 角色无`ListBucket`权限	用`aws s3 ls s3://bucket/path/`验证路径；检查 IAM 策略中`Resource`是否精确匹配 bucket 名	3 分钟
`HIVE_CURSOR_ERROR: Cannot read data from S3 location`	Parquet 文件损坏，或 schema 不兼容（如`TIMESTAMP`字段精度不对）	下载一个文件，用`parquet-tools meta part-001.parquet`查看 schema；用 Spark 重写为`TimestampType()`	15 分钟
`GENERIC_USER_ERROR: Query exhausted resources at this scale factor`	查询太复杂（如多层嵌套`WITH`+`CROSS JOIN`），超出 worker 内存	拆分为多个小查询；用`LIMIT`先验证逻辑；升级到 Athena Engine Version 3（内存更大）	8 分钟
`SYNTAX_ERROR: line 1:8: mismatched input 'with'`	使用了 Athena 2.x 不支持的语法（如`WITH ORDINALITY`）	查文档确认引擎版本；降级为`UNNEST(ARRAY[...])`	2 分钟
`HIVE_PARTITION_SCHEMA_MISMATCH: Types in partition columns don't match`	分区列类型不一致（如有的分区`dt`是`STRING`，有的是`DATE`）	删除问题分区：`ALTER TABLE t DROP PARTITION (dt='2024-06-15')`；统一重传数据	5 分钟

5.2 性能诊断三板斧

当查询慢得反常，别急着重写 SQL，先用这三步定位瓶颈：

第一斧：看 Query Execution Plan在 Athena 控制台，点查询的 “Execution details” → “Query plan”。重点关注：

ScanFilterOperator节点下的Rows和Bytes：如果Bytes接近全表大小，说明分区没生效；
HashJoinOperator的BuildSide和ProbeSide：如果 BuildSide > 1GB，考虑加MAPJOIN提示；
ExchangeOperator的Shuffle：出现Shuffle表示数据重分布，是性能杀手。

第二斧：查 S3 Access Logs开启 S3 Server Access Logging，分析 Athena 的 GET 请求：

如果大量GET请求针对同一个前缀（如s3://bucket/logs/dt=2024-06-15/），说明分区正确；
如果GET请求分散在dt=2023-*目录，说明WHERE dt = ...没生效，检查分区列名是否拼错。

第三斧：用EXPLAIN (TYPE DISTRIBUTED)在 SQL 前加EXPLAIN (TYPE DISTRIBUTED)，它会输出物理执行计划：

EXPLAIN (TYPE DISTRIBUTED) SELECT COUNT(*) FROM user_logs WHERE dt = '2024-06-15';

看输出中是否有TableScanNode的predicate字段包含dt = '2024-06-15'。没有？说明分区没绑定成功。

5.3 生产环境避坑清单（血泪总结）

分区列名必须小写：dt可以，Dt或DT会导致MSCK REPAIR失败，且无任何提示；
不要用SELECT *查大表：我曾用SELECT * FROM logs LIMIT 10查一个 500GB 表，结果扫描了 480GB，账单多出 $2.4；
CTAS 表的 LOCATION 必须手动指定：默认会存在s3://bucket/athena-results/，但这里不支持分区，必须显式写LOCATION 's3://bucket/clean-logs/'；
时间函数用 UTC：Athena 所有时间函数（now(),current_date）返回 UTC 时间，WHERE event_time > current_date实际查的是 UTC 今日，不是你本地时区；

结果导出限制：Athena 控制台最多导出 10000 行，超量必须用UNLOAD命令存到 S3：

UNLOAD (SELECT * FROM user_logs WHERE dt='2024-06-15') TO 's3://my-bucket/export/20240615/' WITH (format = 'PARQUET', compression = 'SNAPPY');

最后分享一个小技巧：把常用查询存为Prepared Statement。比如留存率计算，可以注册为：

PREPARE retention_query FROM SELECT ? AS dt, COUNT(*) AS total_login, COUNT(l2.user_id) AS retained_login FROM (SELECT DISTINCT user_id FROM user_logs WHERE dt = ? AND event_type = 'login') l1 LEFT JOIN (SELECT DISTINCT user_id FROM user_logs WHERE dt = ? AND event_type = 'login') l2 ON l1.user_id = l2.user_id;

然后执行EXECUTE retention_query USING '2024-06-15', '2024-06-15', '2024-06-16'。这样既避免 SQL 注入，又提升复用率——我们团队把 23 个核心指标都做了 Prepared Statement，分析师只需改日期参数，5 秒出结果。

查看全文

http://www.gsyq.cn/news/1506716.html