更新:2025/03/15
Daskのバージョン確認方法と簡単な使い方について


はるか
Daskって何?

ふゅか
Pythonで大規模データを並列処理するためのライブラリよ!PandasやNumPyみたいな使い方ができて、メモリを圧迫しないのが特徴なの。
目次
1. Dask
Dask は、Python で大規模なデータ処理を並列で実行できるライブラリです。Pandas や NumPy のような API を提供しながら、メモリに収まらないデータを効率的に処理できます。
1.1. Dask のインストール
Dask は pip
で簡単にインストールできます。
pip install dask
1.2. Dask のバージョン確認
Dask のバージョンを確認するには、次のコマンドを実行します。
import dask
print(dask.__version__)
2. Dask の簡単な使い方
Dask には dask.array
、dask.dataframe
、dask.delayed
などのモジュールがあります。
2.1. 並列計算の基本
Python の delayed
を使って処理を並列化できます。
from dask import delayed
@delayed
def add(x, y):
return x + y
@delayed
def multiply(x, y):
return x * y
# 遅延評価を使った計算
a = add(1, 2)
b = multiply(a, 10)
c = add(b, 5)
# 実行
result = c.compute()
print(result) # 35
2.2. Dask DataFrame の使用
Pandas のように扱えるが、並列処理が可能な dask.dataframe
を使用できます。
import dask.dataframe as dd
# CSV を Dask DataFrame で読み込む
df = dd.read_csv("large_dataset.csv")
# 処理を定義
mean_value = df["column_name"].mean()
# 並列処理で計算を実行
result = mean_value.compute()
print(result)
2.3. Dask Array の使用
NumPy と同様に大規模な配列計算が可能な dask.array
。
import dask.array as da
# 10000 x 10000 のランダムな配列を作成
x = da.random.random((10000, 10000), chunks=(1000, 1000))
# 行列の平均を計算
mean_value = x.mean().compute()
print(mean_value)
3. まとめ
- Dask は大規模データを並列処理できるライブラリ
delayed
を使って関数の遅延評価が可能dask.dataframe
で Pandas のような並列処理dask.array
で NumPy 互換の並列計算が可能
シンプルなコードで並列処理ができるため、大規模データ処理の効率化に活用できます。
PR