2024-01-21

Power Query：要素数の異なる配列からテーブルを作る

Power Query

個数の合わない配列（ジャグ配列）を、単純に１テーブルに変換しようとすると、エラーを起こしてしまう。例えば要素数が 10個の配列（例えば「{1..10}」）を 3分割した場合、最後の配列の要素数は 1つになる。これを Table.FromRowsでテーブルに変換しようとすると、最終行はエラー表示になる。


let
    ソース = {1..10},
    テーブル分割 = List.Split(ソース, 3),
    テーブル変換 = Table.FromRows(テーブル分割)
in
    テーブル変換

これを防ごうと、足りない部分を「null」で埋めて……とやってもいいんだけど（自分は最初そうやろうとしていた）、List.Zipを使えばもっと簡単にエラーを回避できる。


let
    ソース = {1..10},
    テーブル分割 = List.Split(ソース, 3),
    テーブル変換 = Table.FromColumns(List.Zip(テーブル分割))
in
    テーブル変換

Microsoftの「List.Zip」のヘルプにも、ちゃんと「長さが異なるリスト（中略）を Zip 圧縮します」と書いてある。ヘルプはよく読まないとダメね。

learn.microsoft.com

2023-12-29

Power Query：カタカナをローマ表記に変換する

Power Query

「カタカナをローマ字表記に変換する」ネタは VBAでよく見かける。数式でも WebAPIの力を借りれば超絶簡単にできる。これをクエリでやってみよう。

カタカナをローマ字表記に変換

単純には置換リストを作って置き換えればいいので、例外処理を除けばそんなに難しい話ではない。ただし、何をおいてもまずは変換リストを作る必要がある。

自分で作ってもいいけど、面倒なら下のコードを新規クエリの詳細エディタにコピー＆ペーストでどうぞ。

変換リスト（ヘボン式基本）
Json.Document(Binary.Decompress(Binary.FromText("bZTNbuJAEITfhXMOZB0n7HG9gB0s2xFgUEhyGP+9Qd4/1Kw187m1F6Qu4Ot2d7k+Plaf38l66lcPq9XXw79qeNLn+HLX3t4bK6debq2cePlPlJMAyQhJAiQjJAmQDJD+V4AcGquKcWitKsQhErrN/wizagizaglrr453Nb9a2T0a2Y2hX47HnuXUy62VEy9HyORX6n7f5UtjVaEvO6sKcXm1qqa7YLgpPEqJmYc0tNs3VlW7/c6qard/tara7SN3dGEXR+xillMvt1ZOvIzhogUK+ih6oKCPogkK+qgLkBqQWU693Fo58TIgjwHyt2isnHq5tXLiZdjmJUBOgMxy6uXWyomXccchQEqabAiQkiYbAqTE47jncPVrY1WhrzurCnGNV3fRkO9wyKAkwKWcanzvc4X5oRpekoveYABlUwaeJs7Ae1bNKFEN3lo1zqj/b3E/zbONvF77uzFXlAeR14u3xUX1Ot1wSs17i7zOLXndZsnrNP8NPO0jB0/9c/DUP2eGqMZV1D9nmCgE4u8n7+tYCo+Q0faRLmoW2eMkB+AN162PeLXV+xj/Pnaq+Y6rBk+3OIKn3TAqtBtmhJ4FHh41fIXfa/oK/TV+BW9o/gre0O4qeE3z4rUcNE/B9FPCMW70PbwhPl7UXvwaXtO+anhN+6qZPKrB075q8DTPGTzt5wye9nM+MYV8/sBtmvAMt2miE9ymCU5wmy50YiL5LALQZxaAPmcA1AQlokQDlEwn1bCvBigRU27hT7dZ+NNpAYA9LezqdJ476usH"), Compression.Deflate))

文字数が多い順に置換するので、50音降順で並べている。

後は新規クエリを作成して入力表を読み込み、一文字ずつ置き換えしてから促音の処理を付け加えればいい。

ローマ字変換（基本）
let
    ソース = 入力表,
    変換列の追加 = Table.AddColumn(
        ソース,
        "ローマ字変換",
        each List.Accumulate(
            変換リスト,
            [文字],
            (x, y)=> Text.Replace(x, y{0}, y{1})
        ),
        type text
    ),
    変換列の編集 = Table.TransformColumns(
        変換列の追加, {"ローマ字変換", each [
            位置 = Text.PositionOf(_, "ッ"),
            置換 = Text.ReplaceRange(_, 位置, 1, Text.Range(_, 位置+1, 1)),
            条件選択 = if 位置=-1 then _ else 置換
        ][条件選択]
    })
in
    変換列の編集

単純にはこれでおしまい。後は「『OO』は『O』に変換」のような例外処理を追加していけばいい。ヘボン式なら例外処理は後回しにして、リストを作って置換するだけでいい。

ローマ字変換（ヘボン式）
let
    設定 = [
        ヘボンA = {{"NB", "MB"}, {"NP", "MP"}, {"NM", "MM"}},
        ヘボンB = {{"OO", "O"}},
        ヘボンC = {{"OU", "OH"}},
        ヘボンD = {{"UU", "U"}},
        ヘボンE = {{"CCH", "TCH"}}
    ],
    置換 = (A as list, B as text)=>
        List.Accumulate(A, B, (x, y)=> Text.Replace(x, y{0}, y{1})),
    ソース = 入力表,
    ローマ字変換列の追加 = Table.AddColumn(
        ソース,
        "ローマ字変換",
        each List.Accumulate(
            変換リスト,
            [文字],
            (x, y)=> Text.Replace(x, y{0}, y{1})
        ),
        type text
    ),
    ローマ字変換列の編集 = Table.TransformColumns(
        ローマ字変換列の追加, {"ローマ字変換", each [
            促音変換 = [
                位置 = Text.PositionOf(_, "ッ"),
                文字 = Text.Range(_, 位置+1, 1),
                置換 = Text.ReplaceRange(_, 位置, 1, 文字),
                条件選択 = if 位置=-1 then _ else 置換
            ][条件選択],
            ヘボン設定A = 置換(設定[ヘボンA], 促音変換),
            ヘボン設定B = 置換(設定[ヘボンB], ヘボン設定A),
            ヘボン設定C = 置換(設定[ヘボンC], ヘボン設定B),
            ヘボン設定D = 置換(設定[ヘボンD], ヘボン設定C),
            ヘボン設定E = 置換(設定[ヘボンE], ヘボン設定D)
        ][ヘボン設定E]}
    ),
    列の選択 = Table.SelectColumns(ローマ字変換列の編集, {"ローマ字変換"})
in
    列の選択集

訓令式の場合は、「ん」の後に母音（もしくは「Y」）がきた時は「'（アポストロフィ）」を入れる必要があるので「ん」の処理だけ後に回す必要がある。なので訓令式用の変換リストでは「ん」をわざと除いて、置換を後回しにする。

変換リスト（訓令式基本）
Json.Document(Binary.Decompress(Binary.FromText("bZTRbqpQEEX/xefeREup9vESFRoCNoKa2tuHg8Af3P+v+5TMWZz2xWS2umaY2eyPj8W//8lyvC0eFn8Wnw/fZf+kz2F9F9/eD7GcevkUy4mX/wY5MUhGSGKQjJDEIBkgt0eDXAGZ5NTLp1hOvBwg3eZXyCTHkEn+AVl6ebjL+SWW3SqS3WAtc7Sc5NTLp1hOvBwgo1+se7nL50OsCn3exaoQ59dY1XRnDDfao5SYuU+t3f4Qq2q338Wq2u1fY1Xt9oE7ONvFEbuY5NTLp1hOvIzhghEKuikYoaCbghEKuqkzSE03dQap6abOIDUhK4O0hKwM0hKyMkhLN60N0tCSa4M0tOTaIA0grjdISZP1Bilpst4gJSHPdvXLIVaFvuxiVYhLuLoLhnyHQ3rlAS7lVON7ny5MEdXwklz0BgMoojLwNHEG3rNqBopq8JaqcUb9f4v7aZ5t4N18LjBbVAfeTbwtLqrX6YpTat5r4HVuzus2c16n+a/gaR85eOqfg6f+OTNENa6i/jnDRCEQfj+Kh1TRuhEnogfYMOrkeKV13CPeZTU7hr8PnWq+1KrB0/KP4GkZzAYtg6Gg4WHaQcNX+L2mr9Bf41cwg+avYAYtq4K5NG8Bc2megnGnmvmiGmYQv4C5xK9hLu2rhrm0r5pRoxo87asGT/O04Gk/LXjaT8vUUQ1zab4W5tI8Dcyl/g3Mpfs0DCDV4PmEAs+nCnjqXyI41L9kFqmGWdW/RCi5mTndZmZOp6cH7GnmVafb3FGfXw=="), Compression.Deflate))

他はやることは同じで変換する内容が違ってくるだけ。長音がある時は「̂（サーカムフレックス）」を入れるルールがあるけど、これもリストの置換で問題なし。

ローマ字変換（訓令式）
let
    設定 = [
        訓令A = {
            {"ん", "ン"}, {"ンA", "N'A"}, {"ンI", "N'I"}, {"ンU", "N'U"},
            {"ンE", "N'E"}, {"ンO", "N'O"}, {"ンY", "N'Y"}, {"ン", "N"}
        },
        訓令B = {
            {"A-", "Â"}, {"I-", "Î"}, {"U-", "Û"},
            {"E-", "Ê"}, {"O-", "Ô"}
        },
        訓令C = {{"Î", "II"}}
    ],
    置換 = (A as list, B as text)=>
        List.Accumulate(A, B, (x, y)=> Text.Replace(x, y{0}, y{1})),
    ソース = 入力表,
    ローマ字変換列の追加 = Table.AddColumn(
        ソース,
        "ローマ字変換",
        each List.Accumulate(
            変換リスト,
            [文字],
            (x, y)=> Text.Replace(x, y{0}, y{1})
        ),
        type text
    ),
    ローマ字変換列の編集 = Table.TransformColumns(
        "ローマ字変換", each [
            促音変換 = [
                位置 = Text.PositionOf(_, "ッ"),
                文字 = Text.Range(_, 位置+1, 1),
                置換 = Text.ReplaceRange(_, 位置, 1, 文字),
                条件選択 = if 位置=-1 then _ else 置換
            ][置換],
            訓令設定A = 置換(設定[訓令A], 促音変換),
            訓令設定B = 置換(設定[訓令B], 訓令設定A),
            訓令設定C = 置換(設定[訓令C], 訓令設定B)
        ][訓令設定C]}
    ),
    列の選択 = Table.SelectColumns(ローマ字変換列の編集, {"ローマ字変換"})
in
    列の選択集

以上。必要か分からない設定は分けてあるので、いらなければレコードの処理から設定を抜けばいい。設定用のテーブルを別に作って、切り替えできるように作ってもいいと思う。

2023-12-05

Power Query：重複している行を抽出する

Power Query

簡単かと思ってやってみたら、意外と苦戦するかもしれない。「重複を省いて抽出」ではなく「重複している行を抽出」したい場合、どうすればいいか。

重複している行を抽出

こういう時、エクセル感覚だと「それぞれの行に、一つ上までの行を参照する COUNTIF関数を仕込んで……」みたいな発想になりがちだが、これを Power Queryに持ち込むと碌なことにならない。間違っても、List.Generateや List.Accumulateを使ってはいけない。こういう時は「最初にグループ化」がマストなのである。

例によって左側のテーブルは「テーブル1」としてクエリを作成済みとする。

let
    ソース = テーブル1,
    行のグループ化 = Table.Group(
        ソース, {"列1"}, {"テーブル", each _, type table}
    ),
    リスト抽出 = List.Select(
        行のグループ化[テーブル], each Table.RowCount(_)>1
    ),
    テーブル変換 = Table.Combine(リスト抽出)
in
    テーブル変換

グループ化については「行のカウント」でやると抽出はしやすいものの、後で基準となる列以外はどうするんだという話になる。今回は「すべての行」をグループ化するのがいいかと思う。

この方法なら数十万件でも数秒で抽出できる。COUNTIFの作業列を並べるような方法は今後使わなくていい。

2023-11-20

Power Query：リストを使って抽出する

Power Query

クエリの中で複数のキーを指定して抽出したい時、抽出用リストがある場合はそれを利用するにこしたことはない。

リストを使って「と等しい」を抽出

例えば「リストの値と等しい行を抽出したい」場合は、Table.SelectRowsの条件を下記のように記述すればいい。

each List.Contains(
    {"中央区", "西淀川区", "東淀川区", "住吉区", "東住吉区"}, [行政区名]
)

ただこれを「中央」「淀川」「住吉」を指定して、「リストの値を含む行を抽出したい」場合は、List.Containsでは上手くいかない。

リストを使って「を含む」を抽出

この場合、ひとつには抽出条件に List.Accumulateを使う方法が考えられる。

(x)=> List.Accumulate(
    List.Transform(
        {"中央", "淀川", "住吉"},
        each x[支店名]="東京" and Text.Contains(x[行政区名], _)
    ),
    false,
    (x,y)=>x or y
)

これでいいんだけど、なんとなくしっくりこない。

ちょっと考え方を変えて、Splitter.SplitTextByAnyDelimiterで「リストの文字列で区切れるかどうか」をチェックしてみたらどうだろうか。

each [支店名]="東京"
    and List.Count(
        Splitter.SplitTextByAnyDelimiter(
            {"中央", "淀川", "住吉"}
        )([行政区名])
    )>1

こっちのほうが分かりやすい気がする。

learn.microsoft.com

2023-11-16

Power Query：上と同じ値を非表示にする（グループ表示）

Power Query

空いている行を上の値で埋めるのは「下方向にフィル」で簡単にできるけど、その逆はどうだろうか。もちろん「上方向にフィル」という意味ではなくて。

上と同じ値を非表示にする

つまり先頭の値以外を表示しない。「ピボットテーブルでやれ」とか「クエリでやることか」とかいわれるとその通りなんだけど、ひとまずどうやればいいか考えてみた。

エクセル感覚だと「上のセルと比較してー」と安易に考えがちだが、クエリではそうもいかない。「0」開始と「1」開始のインデックス列を用意して、リストから参照したりマージしたりしてやればもちろんできるけど、面倒だし地味に重くなる。ここは一度、リスト化してから編集したほうがいいだろう。

例によって左のテーブル（テーブル名は「テーブル1」）は既に読み込んであるものとする。

let
    ソース = テーブル1,
    リストに変換 = Table.ToColumns(ソース),
    グループ表示 = (l as list)=> [
        組み換え = List.Zip({l&{1/0}, {null}&l}),
        編集 = List.Transform(
            List.FirstN(組み換え, each _{0}<>1/0),
            each if _{0}=_{1} then null else _{0}
        )
    ][編集],
    リストの編集 = List.Transform(リストに変換, each グループ表示(_)),
    テーブルに変換 = Table.FromColumns(
        リストの編集, type table Type.TableRow(Value.Type(ソース))
    )
in
    テーブルに変換

こんな感じ。グループ化したくない列がある場合は、最初にリストを２つに分けておいて、後から結合してテーブルに変換すればいいね。

2023-11-15

数式/関数/Power Query：指定行数分だけ繰り返し表示させる

数式／関数

指定行数分だけ繰り返し表示をしたい場合。それも「1」「2」「3」「1」「2」「3」……ではなく「1」「1」「1」「2」「2」「2」……としたい時はどうするか。

１列だけの場合

これが１列しかない場合はそれほど難しくはない。例えば４行繰り返したい場合なら、

=TOCOL(A:A,SEQUENCE(COUNTA(A:A)),SEQUENCE(,4,,0)))

これでおしまい。範囲が固定なら、

=LET(r,A1:A5,TOCOL(IFERROR(EXPAND(r,,4),r)))

のようにしてもいい。これが２列以上ある場合は少し工夫が必要になる。

２列以上ある場合

=WRAPROWS(TOCOL(INDEX(FILTER(A:B,A:A<>""),SEQUENCE(COUNTA(A:A)),2-MOD(SEQUENCE(,4*2),2))),2)

もしくは、REDUCE関数と HSTACK関数を組み合せる。

=WRAPROWS(TOCOL(DROP(REDUCE("",SEQUENCE(4),LAMBDA(x,y,HSTACK(x,FILTER(A:B,A:A<>"")))),,1)),2)

もしクエリでやりたい場合は、カスタム列に繰り返したい数だけリストを作って展開すればいい。

let
    ソース = Excel.CurrentWorkbook(){[Name="データ範囲"]}[Content],
    上位行の保持 = Table.FirstN(ソース, each [Column1]<>null),
    リスト列の追加 = Table.AddColumn(上位行の保持, "リスト", each {1..4}, type list),
    リスト列の展開 = Table.ExpandListColumn(リスト列の追加, "リスト"),
    リスト列の削除 = Table.RemoveColumns(リスト列の展開,{"リスト"})
in
    リスト列の削除

超簡単。

2023-11-14

Power Query：複数のシートのデータを縦結合する（ヘルパークエリ編）

Power Query

複数のブックを統合するのに標準機能でやると、出現するのがヘルパークエリなんだけども、これが苦手な人も多いのではないかと思う。でも慣れれば超便利なので、是非とも仕組みを理解して活用して欲しい。もちろん他の用途にも応用できる。

今回は「複数のシートを縦結合する」クエリをヘルパークエリで作ってみる。

複数シートのデータを縦結合

普通にやる方法は以前にやったので割愛。

最初に一点注意。対象のファイルとデータを読み込むファイルは必ず分けること。以上。

新規クエリに下記の順で作成していく。

参照ブック
let
    フォルダパス = "C:\……\……\", //ここにフォルダパスを入力
    ファイル名 = "対象ファイル.xlsx", //ここにファイル名を入力
    ソース = Folder.Files(フォルダパス),
    絞り込み = Table.Skip(ソース, each [Folder Path]<>フォルダパス),
    対象ブック = Excel.Workbook(Table.Skip(ソース, each [Name]<>ファイル名){0}[Content])
in
    対象ブック

ソースのところまでは「フォルダから」で指定するだけだからマウス操作でできる。今回、上から該当するファイルを絞り込みたかったので、参照にアイテムアクセスを使うのは避けた。もしいらないシートがあるなら、ここで取り除いておこう。

パラメータ1
"シート1" meta [IsParameterQuery=true, Type="Text", IsParameterQueryRequired=true]

これも作るのは簡単。空の新規クエリを右クリックして「パラメータに変換」と押せば「meta」より後は勝手に作成される。「""」となっているところを先頭のシート名（今回は「シート1」）に変更して、「Type」を「Text」にしておけばいいので、これもほぼマウス操作だけでできる。

サンプルシートの変換
let
    ソース = 対象ブック,
    対象シート = ソース{[Item=パラメータ1, Kind="Sheet"]}[Data],
    ヘッダーに昇格 = Table.PromoteHeaders(対象シート)
in
    ヘッダーに昇格

これは「対象ブック」クエリを参照して必要な加工を入れただけ。クエリを作成したら、左ペインの「クエリ」で「サンプルシートの変換」クエリを右クリックして、「関数の作成」を選択する。

関数の作成

すると関数名を尋ねられるので、「シート読み込み」と入力して［OK］。

シート読み込み関数の作成

こうすることで「サンプルシートの変換」クエリを編集すれば、自動的に「シート読み込み関数」も内容が更新されるようになる。ここまではマウス操作と日本語入力だけでできる。

これでヘルパークエリの準備は完了。あとは新規のクエリで対象ブックを参照して加工するだけ。

シートの結合
let
    ソース = 対象ブック,
    Table列の追加 = Table.AddColumn(ソース, "Table", each シート読み込み([Item])),
    列の選択 = Table.SelectColumns(Table列の追加, {"Name", "Table"}),
    Table列の展開 = Table.ExpandTableColumn(列の選択, "Table", {"列1", "列2"}),
    列名の変更 = Table.RenameColumns(Table列の展開,{{"Name", "シート名"}})
in
    列名の変更

のようにすればおしまい。これもステップを見てもらえば分かるけど、マウス操作で問題なくできる。

「Table列の追加」はカスタム列の追加で「= シート読み込み([Item])」と入れただけだし。ステップ名だけ不細工だから変えてるけど。

シートの結合クエリの結果

ヘルパークエリを作っておくことで、シートごとに加えたい編集がやりやすくなる（「サンプルシートの変換」クエリを書き換えるだけでいいから）。クエリの中に「let ～ in」を入れ込むくらいなら、ヘルパークエリを入れたり、meta情報を関数で参照してやったりしたほうが、編集がしやすくなると思う。

なんでもエクセル（Nandemo Excel）

何でもエクセルでやってしまうそこのあなた。ようこそ

Power Query：要素数の異なる配列からテーブルを作る

Power Query：カタカナをローマ表記に変換する

Power Query：重複している行を抽出する

Power Query：リストを使って抽出する

Power Query：上と同じ値を非表示にする（グループ表示）

数式/関数/Power Query：指定行数分だけ繰り返し表示させる

Power Query：複数のシートのデータを縦結合する（ヘルパークエリ編）