Windowsネイティブの遅さに納得できず、WSLで拡散LLM『DiffusionGemma』に再挑戦したら700 tok/sが出た

前々回・前回、DiffusionGemma を Windowsネイティブの RTX 5090 + llama.cpp で動かしたが、実効は約150〜330 tok/s。Google公称の 700 tok/s にはまるで届かず、正直かなり納得がいかなかった。llama.cpp 側はかなり詰めた。Fl...

2026/06/13