Notebook でファイルを読み込み、Delta として保存する

はじめに

前回の記事では、OneLake のショートカットが
「データをコピーせず、他のストレージを参照できる仕組み」であることを整理しました。

OneLake の大きな特徴のひとつは、利用者が データの実体がどこにあるかを意識せずに扱える 点です。
Notebook から参照する場合も Files/...Files/… という統一的なパスでアクセスできるため、
ADLS・S3・OneLake 上のどこにデータが存在していても、同じように扱うことができます。

これは Fabric が提供する抽象化の大きなメリットです。

一方で、Notebook で 書き込み操作を行う立場(データ管理者・Notebook 実行者) の場合、
ショートカットの裏側にある実体ストレージによって更新先が変わるケースがあります。
この仕組みを理解していないと、意図しないストレージを書き換えるリスクにつながります。

そこで本記事では、まず Notebook とショートカットの関係を整理し、
そのうえで、

  • OneLake 上のファイルの読み込み
  • 加工
  • Delta として保存

という基本の流れを確認します。

1. Notebook(Spark)で利用するパスの基本

Spark Notebook では、次のような 相対パス を使うのが基本です。

Files/folder-01/sample_sales.csv

ここでの FilesFiles は、「Notebook にアタッチしている Lakehouse の Files」を指します。
ショートカット配下のファイルであっても、Spark からは同じ書き方で操作できます。

利用者視点では、この統一的な見え方のおかげで
データの実体の在り処を意識せずに扱える というメリットがあります。

ただし FilesFiles は外部ストレージを含む参照領域である一方、
Tables Tables は Lakehouse 内部の Delta 格納専用領域であり、
実体ストレージとして性質が異なる点には注意が必要です。

2. ショートカットは設定されている Credential で参照先にアクセスする

ショートカットには、参照先ストレージへの 接続(Connection) を設定します。
Connection は、接続先の URL などの設定(Connection settings)と、
認証に使う Credential(資格情報) で構成されます。

Notebook からショートカット経由で操作する場合、
この Connection に設定された Credential が認証に利用されます。

重要なのは次の点です。


解説の続きは、Qiitaの記事をご覧ください。