Speaker Notes Document No. SEMINAR-02-NOTES
Version 1.1
Speaker notes & glossary

第 2 回卒研ゼミ
説明スクリプト & 用語リスト

Apple Silicon 向け 3D Gaussian Splatting 実装 ― 2026 年 5 月の進捗

01

説明スクリプト

How to read

本編 約 3 分。表 () を中心に「何をやって何の数字が動いたか」を言い切る。詳細は質疑で。下線つきの用語はタップで意味が出る。

1.1 前回のあらすじ about 30 sec

  • 研究テーマ
    • 搭載端末で を単一デバイスで完結させるパイプライン」
  • 研究の貢献は 3 軸
    • (1) Apple Silicon 最適化の自作 3DGS 実装
    • (2) 抽象化層のコスト定量化
    • (3) 活用の実証
  • 前回 (第 1 回ゼミ) 時点の到達
    • の参考値 37.38 dB 取得
    • 自作実装の構築 (・学習ループ)
    • 圧縮手法のサーベイ完了
    • 22.42 dB 達成

1.2 本レポートの概要 about 20 sec

  • 今月やったこと
    • 品質向上のための
    • Apple Silicon 固有の最適化
  • 結果
    • PSNR: 22.42 → 26.27 dB (約 +4 dB)
    • 学習時間: 37m48s → 26m32s (約 -30%)
    • 4 件達成 (M-1, M-2, M-3, M-3.x)

2. 今月の進捗 about 1 min 30 sec

  • 進め方
    • 品質向上の探索 → Apple 固有最適化 → 再構築 の順
  • 達成した節目 (表の説明)
    • : パラメータ探索の最終結果 → 25.59 dB (第 1 軸の主要成果)
    • : → カーネル単体 2.43 倍、全体 -20.7% (第 2 軸・カーネル単位)
    • : の毎回再生成を排除 → -13.7% (第 2 軸・ループ単位)
    • : 損失計算を GPU 化し CPU 経由の読み戻しを排除 → 第 3 軸 (ユニファイドメモリ) の代表
      • PSNR は 4 試行平均 25.0 ± 0.6 dB、従来手法と統計的に同等
  • 補助作業 (splat 再構築)
    • 3dgs-rs に積層していたものを新規 Rust workspace splat/ に整理
    • : partial pass (品質 OK、学習時間は +9.6% で軽微超過)
  • 不採用となった検討 (軽く触れる)
    • 点群スケールの 4 種 → すべて -7 dB 級の劣化
    • の移植 4 試行 → すべて失敗、設計欠陥 3 点を特定 (次月で再挑戦)
    • Metal の → 却下。ただしこの調査で「真の律速はホスト中継処理」と分かり M-3.x の発見につながった

3. 次月の計画 about 30 sec

  • 着手項目 (優先度順)
    • (1) SSIM カーネル改良 ( の専用メモリ領域を活用、3〜5 時間)
    • (2) MCMC 法の完全実装 (特定した 3 設計欠陥を修正して再挑戦、3〜5 日)
    • (3) 研究室 GPU での CUDA 参考値取得 (1〜2 週、第 2 軸の補強材料)
  • 目的別の位置付け
    • 第 1 軸 (品質) の改善 = MCMC 法
    • 第 2 軸 (抽象コスト) の補強 = SSIM カーネル + CUDA baseline
02

用語リスト

スクリプト中の下線つき語は本リストの内容をポップアップで表示する。

研究テーマ・固有名

  • 3D Gaussian Splatting (3DGS)3D シーンを多数の小さなガウシアン (楕円体) で表現してリアルタイムに描画する手法。原著は Kerbl et al. 2023
  • Apple SiliconApple 製の独自 SoC (M1〜M4 系)。CPU と GPU が同じ物理メモリを共有する点が特徴
  • ユニファイドメモリCPU と GPU で同じ物理メモリ空間を共有する設計。データ転送のコピーが原理的に不要
  • brush本研究の比較対象となる既存 3DGS 実装。Rust + wgpu 製
  • wgpuRust 製のクロスプラットフォームグラフィック API。内部で Metal / Vulkan / D3D を呼び分ける抽象化層
  • MetalApple の低レベル GPU API。本研究の自作実装はこれを直接呼ぶ
  • gsplat / 3DGS 原著実装CUDA で書かれた 3DGS 実装。研究室 GPU での比較対象
  • NeRF Synthetic / Lego3DGS 評価で標準的に使われる合成データセットの 1 シーン

評価指標

  • PSNR (Peak Signal-to-Noise Ratio)画像品質指標、単位は dB、高いほど良い。25〜30 dB で品質良好、30 dB 以上で SOTA 級
  • SSIM (Structural Similarity Index)構造的類似度。0〜1 の範囲で高いほど良い
  • 検証 PSNR100 視点平均の検証用 PSNR
  • 学習時間 (wallclock)実時間。30,000 反復を回しきるのにかかる時間

技術用語

  • カーネルGPU 上で動く小さなプログラム (シェーダとほぼ同義)
  • 順伝播 (forward) / 逆伝播 (backward)学習時の前向き計算 / 勾配計算
  • ラスタライズ3D 情報を画素に落とす処理。3DGS では「タイルごとにガウシアンを重ね合わせる」段階
  • SIMD1 命令で複数のデータを同時処理する仕組み。Apple GPU では 1 SIMD グループ = 32 スレッド
  • 集約化 (reduction)複数スレッドで計算した値を 1 つにまとめる処理 (合計や平均)
  • 命令キューGPU に投げる命令の待ち行列。Metal では MTLCommandQueue
  • 引数バッファMetal の機構。カーネル引数を一括で渡せる
  • TBDR (Tile-Based Deferred Rendering)タイル単位の遅延描画。Apple GPU の特徴で、専用の高速メモリ領域 (imageblock) が使える
  • MCMC (Markov Chain Monte Carlo)確率的サンプリング手法。3DGS では点群更新の規則として近年提案
  • 正則化学習中にパラメータの過大な変動を抑える項を損失に足すこと

実装・実験系

  • 試作実装 (prototype)検証用の最初の実装
  • パラメータ探索 (sweep)ハイパーパラメータを変えて最良を探す実験
  • 移植判定 (migration gate)新実装が従来実装と同等に動くかを判定する手続き
  • ワークスペースRust の cargo で複数クレートをまとめて管理する単位
  • クレートRust のパッケージ単位
  • 反復 (iteration)学習の 1 ステップ。本研究は 30,000 反復が標準
  • 点群 (splats)3DGS の最適化対象。多数のガウシアンの集合

卒研内部の符号

  • L1研究方針が確定した最初の節目 (2026-04-24、brush との差別化を 3 軸で確定)
  • Phase 0〜6研究計画の段階。0:前提 / 1:事前調査 / 2:研究室 GPU baseline / 3:GPU 順伝播 / 4:学習ループ / 5:Apple 固有最適化 / 6:卒論執筆
  • 節目 (Milestone)本研究で品質や速度の主要進展を切り出した区切り
  • M-1 / M-2 / M-3 / M-3.x卒研中盤の主要な節目 4 件 (本資料の表参照)
  • #x.y.z 記法内部のタスク管理コード (例 #4.29.D4 = Phase 4 step 29 sub-step D-4)
  • brush 参考値 37.38 dBbrush で Lego を 30,000 反復学習した結果。比較の上限ベンチマーク
03

想定問答

想定質問回答骨子
brush との差 -11.79 dB は埋まるのか? MCMC 法の完全実装で 26〜29 dB、つまり brush 比 -3〜-6 dB レンジまで縮小できる見込み (次月計画 (2))
-20.7% / -13.7% の高速化はどう測ったか? 30,000 反復を回しきる学習時間 (wallclock) で比較。同一シード・同一データセット (Lego)
移植判定が partial pass なのは? 品質 (PSNR) は分散帯内で同等、学習時間が +9.6% で軽微に超過。序盤の反復の初期化オーバーヘッドが累積した結果。調査は今後
M-3.x の PSNR は本当に同等? 4 試行で 25.0 ± 0.6 dB の分散帯を確認。従来手法 (HOST 経由) も同じ分散帯内で出ていて統計的に区別がつかない
MCMC 4 連敗の原因は? (a) 点数上限がないと無制限に増える / (b) スケール上限による強制削除の副作用 / (c) 点増加スケジュールが単純すぎる、の 3 点。次月で修正再挑戦
Apple 引数バッファ却下の理由は? CPU 側の命令記述コストが全体の 0.5% に過ぎず、3% の改善 gate を通らなかった。ただしこの調査で「真の律速はホスト中継処理」と判明し M-3.x の発見につながった
第 2 軸 (wgpu 抽象コスト) の数字は? 来月の研究室 GPU で CUDA baseline を取得後に「CUDA (抽象なし) vs brush (wgpu) vs 自作 (Metal 直)」の対比表が出せる
L1 で方針転換したのはなぜ? brush という既存の Rust + wgpu 実装の発見。fork / コピーは独自性が出ないので、比較対象に位置付け直して「wgpu 抽象化層のコスト定量化」という新軸で独自化した
04

時間配分の目安

1.1 前回のあらすじ
00:30
1.2 本レポートの概要
00:20
2. 今月の進捗 (表 + 不採用)
01:30
3. 次月の計画
00:30
本編 合計
02:50

質疑応答で 2〜5 分を見越し、全体 5〜8 分の枠を想定する。