Apple Silicon 向け 3D Gaussian Splatting 実装 ― 2026 年 5 月の進捗
本編 約 3 分。表 (〜) を中心に「何をやって何の数字が動いたか」を言い切る。詳細は質疑で。下線つきの用語はタップで意味が出る。
37.38 dB 取得22.42 dB 達成22.42 → 26.27 dB (約 +4 dB)37m48s → 26m32s (約 -30%)25.59 dB (第 1 軸の主要成果)25.0 ± 0.6 dB、従来手法と統計的に同等splat/ に整理スクリプト中の下線つき語は本リストの内容をポップアップで表示する。
MTLCommandQueue#x.y.z 記法内部のタスク管理コード (例 #4.29.D4 = Phase 4 step 29 sub-step D-4)| 想定質問 | 回答骨子 |
|---|---|
| brush との差 -11.79 dB は埋まるのか? | MCMC 法の完全実装で 26〜29 dB、つまり brush 比 -3〜-6 dB レンジまで縮小できる見込み (次月計画 (2)) |
| -20.7% / -13.7% の高速化はどう測ったか? | 30,000 反復を回しきる学習時間 (wallclock) で比較。同一シード・同一データセット (Lego) |
| 移植判定が partial pass なのは? | 品質 (PSNR) は分散帯内で同等、学習時間が +9.6% で軽微に超過。序盤の反復の初期化オーバーヘッドが累積した結果。調査は今後 |
| M-3.x の PSNR は本当に同等? | 4 試行で 25.0 ± 0.6 dB の分散帯を確認。従来手法 (HOST 経由) も同じ分散帯内で出ていて統計的に区別がつかない |
| MCMC 4 連敗の原因は? | (a) 点数上限がないと無制限に増える / (b) スケール上限による強制削除の副作用 / (c) 点増加スケジュールが単純すぎる、の 3 点。次月で修正再挑戦 |
| Apple 引数バッファ却下の理由は? | CPU 側の命令記述コストが全体の 0.5% に過ぎず、3% の改善 gate を通らなかった。ただしこの調査で「真の律速はホスト中継処理」と判明し M-3.x の発見につながった |
| 第 2 軸 (wgpu 抽象コスト) の数字は? | 来月の研究室 GPU で CUDA baseline を取得後に「CUDA (抽象なし) vs brush (wgpu) vs 自作 (Metal 直)」の対比表が出せる |
| L1 で方針転換したのはなぜ? | brush という既存の Rust + wgpu 実装の発見。fork / コピーは独自性が出ないので、比較対象に位置付け直して「wgpu 抽象化層のコスト定量化」という新軸で独自化した |
質疑応答で 2〜5 分を見越し、全体 5〜8 分の枠を想定する。