PR
更新:2025/03/15

Daskのバージョン確認方法と簡単な使い方について

はるか
はるか
Daskって何?
ふゅか
ふゅか
Pythonで大規模データを並列処理するためのライブラリよ!PandasやNumPyみたいな使い方ができて、メモリを圧迫しないのが特徴なの。

1. Dask

Dask は、Python で大規模なデータ処理を並列で実行できるライブラリです。Pandas や NumPy のような API を提供しながら、メモリに収まらないデータを効率的に処理できます。

1.1. Dask のインストール

Dask は pip で簡単にインストールできます。

pip install dask

1.2. Dask のバージョン確認

Dask のバージョンを確認するには、次のコマンドを実行します。

import dask
print(dask.__version__)

2. Dask の簡単な使い方

Dask には dask.arraydask.dataframedask.delayed などのモジュールがあります。

2.1. 並列計算の基本

Python の delayed を使って処理を並列化できます。

from dask import delayed

@delayed
def add(x, y):
    return x + y

@delayed
def multiply(x, y):
    return x * y

# 遅延評価を使った計算
a = add(1, 2)
b = multiply(a, 10)
c = add(b, 5)

# 実行
result = c.compute()
print(result)  # 35

2.2. Dask DataFrame の使用

Pandas のように扱えるが、並列処理が可能な dask.dataframe を使用できます。

import dask.dataframe as dd

# CSV を Dask DataFrame で読み込む
df = dd.read_csv("large_dataset.csv")

# 処理を定義
mean_value = df["column_name"].mean()

# 並列処理で計算を実行
result = mean_value.compute()
print(result)

2.3. Dask Array の使用

NumPy と同様に大規模な配列計算が可能な dask.array

import dask.array as da

# 10000 x 10000 のランダムな配列を作成
x = da.random.random((10000, 10000), chunks=(1000, 1000))

# 行列の平均を計算
mean_value = x.mean().compute()
print(mean_value)

3. まとめ

  • Dask は大規模データを並列処理できるライブラリ
  • delayed を使って関数の遅延評価が可能
  • dask.dataframe で Pandas のような並列処理
  • dask.array で NumPy 互換の並列計算が可能

シンプルなコードで並列処理ができるため、大規模データ処理の効率化に活用できます。

PR