如何看待 Kaiming He 最新提出的 Fractal Generative Models ?
更新于:2025-03-26 09:10:14

想法很有意思,核心思想是遞歸地調用生成模型作為模組,構建具有自相似性的生成模型

就是將一個圖形不斷地進行放大,會發現放大后的圖形與原始圖形在結構上非常相似。簡單地類比,就像雪花一樣,是一種典型的分形(Fractal)結構。

作者想法的核心來源是:

  • 生物的神經網路也具有分形或近分形的結構,對這一點我不太確定有多少理論支撐,主要是我比較缺少腦科學的相關知識。
  • 圖像可以被看作是由子圖像組成的,可以看做具備某種分形特點。這一點我也有些疑惑,感覺支撐力度不是很強,至少不是特別直覺。分形結構的核心特徵是自相似性(self-similarity)和尺度不變性(scale invariance),感覺真實的圖片這些特性是否足夠強,需要某種指標去衡量、驗證。

而進一步選用了自回歸模型(AR Model)作為分形生成器的具體實現。也就是說用AR模型作為「原子模組」,像俄羅斯套娃一樣層層嵌套——高層模型規劃圖像整體佈局,中層細化局部結構,底層最終確定每個像素的細節。

通過這種「分而治之」的策略,模型的計算複雜度大大下降,而且能生成媲美擴散模型的生成品質。

總體來說是個很新穎的點子,大佬的思路就是開闊。激發了我學習更多腦神經科學的興趣。期待後續的研究提供理論、實驗的支撐。