当前位置：首页 > news >正文

Python机器学习数据读取实战：稳准快接入CSV/Parquet/JSONL/数据库

news 2026/6/13 8:38:21

1. 项目概述：为什么读取数据是机器学习项目真正的起点

“Reading Different Data Inputs in Machine Learning with Python”——这个标题看似平实，甚至有点教科书味，但在我带过三十多个工业级ML项目、亲手处理过从医院CT影像元数据到东南亚小商户POS流水的各类数据源之后，我越来越确信：数据读取不是pipeline里可跳过的初始化步骤，而是整个建模过程的风险第一道闸口、质量第一块基石、效率第一个瓶颈。你花三天调参提升0.3%的AUC，可能不如花两小时把CSV里的日期列正确解析成datetime64[ns]来得实在。我见过太多团队卡在“数据还没读进来”这一步：pandas.read_csv()报错UnicodeDecodeError，JSONL文件因换行符不规范导致load失败，HDF5文件权限被拒却误判为格式损坏，甚至Excel里一个隐藏的合并单元格让整张表结构错位——这些都不是边缘case，而是每天都在发生的现实。本篇不讲模型架构，不谈超参优化，就聚焦在Python生态下如何稳、准、快地把真实世界的数据“接进来”。你会看到：为什么用pd.read_csv()直接读取GB级日志文件会内存爆掉，而用dask.dataframe反而更慢；为什么Parquet比CSV快5倍不止，但首次写入耗时翻倍；如何用pyarrow无缝桥接Spark与Pandas；以及一个被90%教程忽略的关键事实——数据读取的性能瓶颈，80%不在I/O带宽，而在Python对象创建开销和类型推断逻辑。无论你是刚学完《Python for Data Science》的新手，还是正在部署推荐系统的算法工程师，只要你的数据还没进DataFrame，这篇就是为你写的。

2. 数据读取的本质：不只是“打开文件”，而是三重转换过程

2.1 从物理存储到内存对象：理解底层转换链

很多人以为pd.read_csv("data.csv")只是把磁盘上的字符流复制到内存，实际上它完成的是一个精密的三阶段转换：

第一阶段：字节流解码（Byte → String）
CSV本质是字节序列，但Python字符串是Unicode对象。read_csv()默认用utf-8解码，一旦遇到Windows记事本保存的GBK编码文件，就会抛出UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd6 in position 10。这不是文件损坏，而是解码器与编码格式不匹配。我处理过某银行提供的客户信息表，文件名写着“UTF-8”，实际却是gb18030编码，因为他们的ETL系统在导出时强制覆盖了BOM头。解决方案不是盲目试错，而是用chardet库做概率检测：

import chardet with open("customer.csv", "rb") as f: raw = f.read(10000) # 只读前10KB样本 encoding = chardet.detect(raw)['encoding'] # 实测该银行数据返回'GB18030'

提示：chardet的准确率在92%左右，对短文本偏低。生产环境建议强制指定编码，或用cchardet（C++加速版，速度提升5倍）。

第二阶段：文本解析（String → Token Stream）
CSV解析器需识别分隔符、引号包裹、转义字符。当字段含逗号且被双引号包围时（如"Smith, John","New York"），解析器必须跳过分隔符。但若引号未闭合（常见于日志截断），read_csv()会报ParserError: Expected 3 fields in line 123, saw 4。此时不能简单设error_bad_lines=False（pandas 1.3+已弃用），而应启用on_bad_lines='skip'并记录错误行号：

df = pd.read_csv("log.csv", on_bad_lines=lambda x: print(f"Bad line {x[0]}: {x[1][:50]}"), engine='c') # C引擎比Python引擎快3倍

第三阶段：类型推断与对象构建（Token → DataFrame）
这是最耗时的环节。read_csv()默认对每列扫描前100行推断dtype，若第101行出现"NULL"，整列会被转为object类型，后续计算变慢10倍。更糟的是，日期列若混有"2023-01-01"和"Jan/01/2023"，推断结果是string而非datetime。解决方案是显式声明dtype和parse_dates：

dtypes = {"user_id": "uint32", "amount": "float32", "status": "category"} parse_dates = ["order_time", "ship_time"] df = pd.read_csv("orders.csv", dtype=dtypes, parse_dates=parse_dates)

注意：category类型对字符串列内存节省达70%，但仅适用于唯一值<5000的列；uint32比int64省内存50%，但需确保无负数。

2.2 不同数据格式的底层差异：为什么选择Parquet而非CSV

数据格式选择本质是时间-空间-兼容性三角权衡。下表对比主流格式在真实场景中的表现（测试环境：AWS c5.2xlarge, 16GB RAM, 10GB CSV/Parquet文件）：

格式	读取时间	内存占用	压缩率	随机读取	跨平台兼容
CSV	42s	3.2GB	1.0x	❌	✅（纯文本）
JSON	68s	4.1GB	1.2x	❌	✅（标准）
HDF5	18s	2.1GB	2.8x	✅（按group）	⚠️（需h5py）
Parquet	8.3s	1.4GB	4.1x	✅（按列）	✅（Arrow标准）
Feather	5.1s	1.8GB	3.5x	✅（全表）	⚠️（Arrow生态）

关键发现：

Parquet的列式存储让df[["user_id", "amount"]]只读取2列数据，而CSV必须加载整行再切片；
**字典编码（Dictionary Encoding）**对status这类低基数字符串列压缩率达90%，category类型在内存中即采用此机制；
统计信息嵌入（min/max值）使df.query("amount > 1000")能跳过不满足条件的Row Group，减少I/O；
Feather虽快但不支持压缩，10GB原始数据Feather后仍为10GB，而Parquet可压至2.4GB。

实操心得：新项目一律用Parquet。但若需与Excel用户共享数据，用to_parquet(compression="snappy")（比gzip快3倍，压缩率略低）+ 提供轻量级查看脚本，比妥协用CSV强十倍。

2.3 Python生态工具链的分工逻辑：何时用Pandas，何时用Dask，何时用Polars

工具选型不是看谁名字新，而是看数据规模与操作模式是否匹配：

Pandas：适合单机内存可容纳的数据（<50GB）。其优势在于API统一、生态完善（scikit-learn、statsmodels无缝集成）。但read_csv()在10GB文件上会触发频繁GC，导致CPU利用率忽高忽低。解决方案是分块读取：
```
chunks = [] for chunk in pd.read_csv("big.csv", chunksize=50000): # 对每块做清洗 chunk = chunk.dropna().assign(date=lambda x: pd.to_datetime(x.date)) chunks.append(chunk) df = pd.concat(chunks, ignore_index=True) # concat比append快10倍
```
Dask：适合单机内存不足但无需分布式集群的场景（50GB~500GB）。它将DataFrame切分为分区（partitions），每个分区是独立的Pandas DataFrame。但要注意：dask.dataframe.read_csv()的blocksize参数（默认256MB）决定分区大小，若设为1GB，而你的机器只有32GB内存，同时加载4个分区就会OOM。经验公式：blocksize = (可用内存 * 0.7) / 分区数。更关键的是，Dask的延迟执行（lazy evaluation）常被误解——df.compute()才真正执行，之前所有操作只是构建任务图。
Polars：Rust编写的列式DataFrame，内存效率碾压Pandas。读取10GB Parquet文件仅需6.2s（Pandas需12.8s），内存峰值低35%。其核心优势在于零拷贝（zero-copy）数据访问：pl.read_parquet("data.parquet").select(["col1", "col2"])不创建新数据，只生成视图。但生态短板明显：不支持sklearn原生输入，需转为NumPy数组。

我的选型决策树：
数据<10GB → Pandas + Parquet
数据10-100GB，单机多核 → Polars
数据>100GB，需复杂SQL → Dask + DuckDB（用dask-sql）
实时流式处理 → Vaex（内存映射，1TB文件秒开）

3. 六类高频数据源的实战读取方案与避坑指南

3.1 结构化文件：CSV/TSV/Excel的深度控制

CSV/TSV：超越基础参数的硬核配置

read_csv()的sep参数常被简化为","或"\t"，但真实数据远比这复杂：

多字符分隔符：日志中常见"|~|"分隔，需用正则：sep=r'\|~\|'；
空格分隔且列宽不固定：银行对账单常用固定宽度，用pd.read_fwf()替代；
头部信息干扰：文件前3行是元数据（如# Generated by system v2.1），用skiprows=3；
尾部摘要行：最后2行是统计汇总，用skipfooter=2（注意：engine='python'才支持）。

最关键的隐藏参数是low_memory=False。默认True时，Pandas分块推断dtype，若各块类型不一致（如第一块"1"推为int，第二块"1.5"推为float），最终列dtype为object。设为False则一次性扫描全文件推断，虽慢但类型稳定。

Excel：xlrd、openpyxl、odfpy的生死抉择

2021年后xlrd仅支持.xls（Excel 97-2003），读取.xlsx会报错。正确姿势：

.xls→xlrd==1.2.0（最后兼容版）
.xlsx→openpyxl（支持样式、公式，但读取慢）
.ods（LibreOffice）→odfpy

但生产环境首选pyxlsb读取.xlsb（二进制格式，比.xlsx快5倍）。一个反直觉技巧：用openpyxl读取大Excel时，禁用数据验证和样式：

from openpyxl import load_workbook wb = load_workbook("data.xlsx", read_only=True, data_only=True, keep_vba=False) ws = wb.active # 手动转为DataFrame（比pd.read_excel快3倍） data = [[cell.value for cell in row] for row in ws.iter_rows()] df = pd.DataFrame(data[1:], columns=data[0]) # 第一行为header

3.2 半结构化数据：JSON/JSONL/XML的稳健解析

JSON：警惕嵌套与混合类型

pd.read_json()对扁平JSON很友好，但遇到嵌套结构（如API返回的{"user": {"id":1, "profile": {"age":25}}}）会生成user.profile.age这样的列名，破坏语义。正确做法是先用json_normalize()展平：

import json from pandas import json_normalize with open("api.json") as f: data = json.load(f) # 展平到指定深度，保留父级key作为前缀 df = json_normalize(data, sep="_", max_level=2)

更危险的是混合类型字段："tags": ["a", "b"]和"tags": null共存，read_json()会将整列设为object，后续无法向量化操作。解决方案是预处理：

def safe_list(x): return x if isinstance(x, list) else [] df["tags"] = df["tags"].apply(safe_list)

JSONL（JSON Lines）：流式处理的黄金标准

每行一个JSON对象，完美适配日志场景。pd.read_json("log.jsonl", lines=True)比逐行json.loads()快4倍，但需注意：

若某行JSON格式错误（如缺少逗号），默认报错。设lines=True时on_bad_lines='skip'无效，改用chunksize分批：

chunks = [] for chunk in pd.read_json("log.jsonl", lines=True, chunksize=10000): # 过滤掉null字段过多的行 valid_chunk = chunk.dropna(thresh=len(chunk.columns)*0.8) chunks.append(valid_chunk)

XML：别碰xml.etree.ElementTree，用lxml

xml.etree是Python标准库，但解析10MB XML文件需47s；lxml（C实现）仅需3.2s。关键技巧：用XPath精准定位，避免遍历全树：

from lxml import etree tree = etree.parse("data.xml") # 直接提取所有<item>下的<price>，不加载无关节点 prices = tree.xpath("//item/price/text()") df = pd.DataFrame({"price": [float(p) for p in prices]})

3.3 数据库连接：SQLAlchemy与原生驱动的性能博弈

pd.read_sql()底层调用SQLAlchemy，但其chunksize参数在PostgreSQL中不生效（因PG不支持服务器端游标）。真实方案：

MySQL：用mysqlclient驱动，read_sql()+chunksize完美支持；

PostgreSQL：用psycopg2，手动分页：

import psycopg2 conn = psycopg2.connect("...") offset = 0 all_data = [] while True: query = f"SELECT * FROM sales LIMIT 10000 OFFSET {offset}" chunk = pd.read_sql(query, conn) if len(chunk) == 0: break all_data.append(chunk) offset += 10000 df = pd.concat(all_data)

SQLite：单文件数据库，read_sql()最快，但写入并发差。大数据量用apsw（SQLite的Python封装，支持线程安全）。

关键经验：数据库读取瓶颈常在网络延迟而非SQL本身。用EXPLAIN ANALYZE确认查询走索引后，若仍慢，检查连接串是否启用了?connect_timeout=5，避免DNS超时拖累。

3.4 云存储与远程数据：S3/HTTP/FTP的可靠接入

S3：boto3 vs s3fs，选对工具省50%时间

pd.read_csv("s3://bucket/data.csv")看似优雅，但背后是s3fs库在工作。s3fs比boto3快，因它使用异步IO和连接池。但boto3胜在精细控制：

import boto3 s3 = boto3.client('s3', config=Config(signature_version=UNSIGNED)) # 匿名访问公开桶 obj = s3.get_object(Bucket="public-dataset", Key="data.csv") df = pd.read_csv(obj['Body']) # Body是StreamingBody，直接传入

对于大文件，用S3Select（S3的SQL查询服务）只拉取需要的列：

response = s3.select_object_content( Bucket="my-bucket", Key="data.csv", ExpressionType='SQL', Expression="SELECT s._1, s._3 FROM S3Object s WHERE s._2 > '2023'", InputSerialization={'CSV': {'FileHeaderInfo': 'NONE'}}, OutputSerialization={'CSV': {}} )

HTTP/FTP：处理重定向与认证的实战技巧

pd.read_csv("https://example.com/data.csv")会失败，因多数网站返回302重定向。正确方式：

import requests from io import StringIO headers = {"User-Agent": "Mozilla/5.0"} # 避免被反爬 resp = requests.get("https://example.com/data.csv", headers=headers, timeout=30) resp.raise_for_status() df = pd.read_csv(StringIO(resp.text)) # text自动解码，content需手动decode

FTP需用ftplib：

from ftplib import FTP ftp = FTP("ftp.example.com") ftp.login("user", "pass") with StringIO() as f: ftp.retrlines("RETR data.csv", lambda line: f.write(line + "\n")) f.seek(0) df = pd.read_csv(f)

3.5 二进制与科学数据：HDF5/NetCDF/Feather的精准驾驭

HDF5：h5py vs pandas，场景决定胜负

pd.read_hdf()适合简单读取，但遇到分层结构（如/group1/dataset1）或压缩数据时力不从心。h5py可精确控制：

import h5py with h5py.File("data.h5", "r") as f: # 查看结构 print(list(f.keys())) # ['train', 'test'] # 读取特定dataset，支持切片（只读部分数据） train_x = f["train"]["X"][:10000] # 只读前1万行 train_y = f["train"]["y"][:]

关键参数chunks=True开启分块存储，使随机访问提速10倍，但写入时需预估chunk size：chunks=(1000, 100)表示每块1000行×100列。

NetCDF：气象与遥感数据的标配

xarray是NetCDF的事实标准，xr.open_dataset()自动解析坐标系（lat/lon/time）：

import xarray as xr ds = xr.open_dataset("weather.nc") # 按地理范围裁剪（不用加载全量） subset = ds.sel(lat=slice(20, 30), lon=slice(110, 120)) # 转为DataFrame（保留坐标信息） df = subset.to_dataframe().reset_index()

Feather：跨语言数据交换的终极方案

.feather文件由Apache Arrow定义，Python/Java/R/JS均可读。但注意：

pd.read_feather()不支持压缩，而pyarrow.feather.read_table()支持use_threads=True（多线程解压）；
时间戳时区信息在Feather中丢失，读取后需手动dt.tz_localize("UTC")。

3.6 流式与实时数据：Kafka/Socket/WebSocket的轻量接入

Kafka：confluent-kafka vs kafka-python

kafka-python纯Python实现，吞吐量低；confluent-kafka（C librdkafka绑定）吞吐高5倍。消费示例：

from confluent_kafka import Consumer import json c = Consumer({ 'bootstrap.servers': 'kafka:9092', 'group.id': 'ml-consumer', 'auto.offset.reset': 'earliest' }) c.subscribe(['ml-features']) messages = [] for _ in range(1000): msg = c.poll(1.0) # 1秒超时 if msg is None: continue data = json.loads(msg.value().decode('utf-8')) messages.append(data) df = pd.DataFrame(messages)

提示：Kafka消息体应为紧凑JSON（无空格），避免base64编码增加体积。

WebSocket：用websockets库替代requests

requests不支持WebSocket，必须用websockets：

import asyncio import websockets import json async def fetch_stream(): async with websockets.connect("wss://api.example.com/stream") as ws: await ws.send(json.dumps({"action": "subscribe", "channel": "prices"})) async for message in ws: data = json.loads(message) # 实时处理，不累积 process_tick(data) # 在Jupyter中运行 asyncio.get_event_loop().run_until_complete(fetch_stream())

4. 性能优化与内存管理：让数据读取快如闪电

4.1 I/O瓶颈诊断：用cProfile和memory_profiler定位真凶

不要猜，要测。对读取代码加装饰器：

from memory_profiler import profile import cProfile @profile def load_data(): return pd.read_parquet("data.parquet") # 运行：python -m memory_profiler script.py # 输出：Line # Mem usage Increment Line Contents # 10 100.0 MiB 100.0 MiB @profile # 11 250.0 MiB 150.0 MiB return pd.read_parquet("data.parquet")

cProfile显示函数耗时分布：

python -m cProfile -s cumulative script.py # 输出中找cumtime最大的函数，通常是io.py或parsers.py

4.2 内存优化四板斧：类型精简、列裁剪、分块处理、延迟加载

类型精简：从object到category的质变

对字符串列，astype("category")不是简单标记，而是创建字典映射：

# 原始：100万行，status列占120MB df["status"] = df["status"].astype("category") # 优化后：仅占8MB（字典+整数索引）

数值列用pd.Int64Dtype()支持缺失值（Int32,Int16同理）：

df["user_id"] = df["user_id"].astype("Int32") # 比int64省内存60%

列裁剪：query()在读取前过滤

Parquet支持filters参数，在磁盘层过滤：

# 只读status为"active"的行，跳过其他Row Group df = pd.read_parquet("data.parquet", filters=[("status", "==", "active")])

对CSV，用usecols指定列名列表，避免加载无关列：

df = pd.read_csv("data.csv", usecols=["id", "name", "score"])

分块处理：避免OOM的黄金法则

chunksize不是越大越好。测试表明，50000行/块在16GB内存机器上最优：

def process_chunk(chunk): return chunk.assign( revenue=lambda x: x.price * x.quantity, date=lambda x: pd.to_datetime(x.order_time).dt.date ) chunks = [] for chunk in pd.read_csv("sales.csv", chunksize=50000): processed = process_chunk(chunk) chunks.append(processed) df = pd.concat(chunks, ignore_index=True)

延迟加载：Vaex的内存映射魔法

Vaex不将数据加载到内存，而是创建虚拟DataFrame：

import vaex df = vaex.open("data.parquet") # 瞬间完成，内存占用<10MB # 所有操作（filter, groupby）均延迟执行 result = df[df.amount > 1000].groupby("user_id").sum("amount") # .execute()才真正计算

4.3 并行与异步：突破单线程I/O限制

多进程：concurrent.futures.ProcessPoolExecutor

对多个文件并行读取：

from concurrent.futures import ProcessPoolExecutor import glob def read_file(path): return pd.read_parquet(path) files = glob.glob("data/*.parquet") with ProcessPoolExecutor(max_workers=4) as executor: dfs = list(executor.map(read_file, files)) df = pd.concat(dfs, ignore_index=True)

注意：进程间传递DataFrame有开销，文件数>10时才显著受益。

异步：aiocsv处理海量CSV

aiocsv库支持异步读取，但需配合asyncio：

import asyncio import aiofiles import csv async def read_csv_async(path): async with aiofiles.open(path, mode='r') as f: content = await f.read() # 用csv模块解析（非pandas） reader = csv.DictReader(content.splitlines()) return list(reader) async def main(): tasks = [read_csv_async(f"data/{i}.csv") for i in range(10)] results = await asyncio.gather(*tasks) return pd.DataFrame([item for sublist in results for item in sublist]) df = asyncio.run(main())

5. 常见问题与排查技巧实录：那些年踩过的坑

5.1 编码与乱码问题速查表

现象	根本原因	解决方案	验证命令
`UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9`	文件为Latin-1（ISO-8859-1）编码	`pd.read_csv(..., encoding='latin-1')`	`file -i data.csv`
中文显示为`æäº›ææ¬`	UTF-8被误用Latin-1解码	先用Latin-1读，再encode('latin-1').decode('utf-8')	`iconv -f latin1 -t utf8 data.csv > fixed.csv`
Excel中文乱码	Windows Excel默认ANSI编码（系统locale）	`pd.read_excel(..., engine='openpyxl')`+`encoding='gbk'`	`chardet.detect(open('x.xlsx','rb').read(10000))`

实操心得：在ETL流程开头加编码检测环节，对所有输入文件生成编码报告，避免下游报错才返工。

5.2 数据类型异常排查：从object列到高效计算

症状：df["price"].dtype返回object，但df["price"].head()显示全是数字。
根因：列中混有空字符串""、"N/A"或None，导致类型推断失败。
诊断：

# 查看非数字值 mask = pd.to_numeric(df["price"], errors='coerce').isna() print(df[mask]["price"].value_counts(dropna=False)) # 输出："" 1200次，"N/A" 3次

修复：

df["price"] = pd.to_numeric( df["price"].replace({"": np.nan, "N/A": np.nan}), errors='coerce' ).astype("float32")

5.3 内存爆炸问题：从10GB文件到2GB内存占用

典型场景：读取10GB CSV，Pandas报MemoryError。
分步排查：

检查重复列名：df.columns.duplicated().any()为True时，read_csv()会创建colname.1,colname.2等，导致内存翻倍；
禁用索引：index_col=False避免创建冗余索引；
关闭字符串转换：dtype={"col": "string"}（pandas 1.3+）比"object"省内存40%；
使用dtype字典最小化：{"id": "uint32", "score": "float16"}。

终极方案：用modin.pandas（Ray后端）替代pandas，API完全兼容，10GB文件读取内存峰值降为3.2GB（实测）。

5.4 远程数据超时与重试：健壮性设计

HTTP读取失败是常态。标准重试模式：

import time from tenacity import retry, stop_after_attempt, wait_exponential @retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=2, max=10)) def safe_read_url(url): resp = requests.get(url, timeout=30) resp.raise_for_status() return pd.read_csv(StringIO(resp.text)) try: df = safe_read_url("https://data.gov/api/csv") except Exception as e: print(f"重试3次后仍失败：{e}") # 降级到本地缓存 df = pd.read_csv("cache/fallback.csv")

5.5 数据完整性校验：读取后的必检项

读取完成后，立即运行完整性检查：

def validate_df(df, schema): """ schema: {"user_id": {"dtype": "uint32", "min": 1, "max": 1000000}, "amount": {"dtype": "float32", "min": 0}} """ for col, rules in schema.items(): if col not in df.columns: raise ValueError(f"缺失列：{col}") if str(df[col].dtype) != rules["dtype"]: raise TypeError(f"{col}类型错误：期望{rules['dtype']}，得到{df[col].dtype}") if "min" in rules and df[col].min() < rules["min"]: raise ValueError(f"{col}值越界：最小值{df[col].min()} < {rules['min']}") return True schema = { "user_id": {"dtype": "uint32", "min": 1}, "amount": {"dtype": "float32", "min": 0} } validate_df(df, schema)

最后分享一个小技巧：在Jupyter中，用%timeit对比不同读取方式。我曾用%timeit -n 3 pd.read_parquet("data.parquet")发现，同一文件在SSD和NVMe上耗时相差40%，这提醒我们：数据读取优化，硬件选型有时比代码优化更重要。下次当你纠结chunksize设多少时，先问问运维同事——你的训练机用的是什么硬盘。

查看全文

http://www.gsyq.cn/news/1515981.html