大模子的第一性旨趣:(一)统计物理篇

机器之心发布
作家:白铂 博士
白铂 博士, 2012 实验室表面研究部主任 信息论首席科学家
2022 年底,ChatGPT 横空出世,其智力战抖了所有天下。2024 年底,DeepSeek 以极低的教练本钱和极高的性能再次战抖了天下。短短几年间,大模子苟且迭代,智力接续普及,仅在好意思国,AI 规模的投资范围便开首了许多国度全年的 GDP!2025 年底,Google 强势推出 Gemini 3,模子智力突飞大进,TPU 教练范式也对的生态发起了颠覆式挑战。
业界大宗以为 Gemini 3 是迈向通用东谈主工智能(Artificial General Intelligence,AGI) 和超等东谈主工智能(ASI,Artificial Super Intelligence,ASI)的关键打破,是东谈主类和机器吞并的惊东谈主之作。关联词,正如 Ilya Sutskever 于 11 月 26 日的访谈中指出:大模子 Scaling Law 和摩尔定律雷同,早晚会因为物理收尾而失效。因此,怎么大开大模子教练的真金不怕火丹炉,看清黑盒子背后的基快活趣,回应大模子是否已濒临其智力极限就成为一衣带水的问题了。然则,前东谈主对大模子的表面研究一直停留在单一维度,使得东谈主们只可看到大模子背后旨趣的冰山一角,对黑盒子的意会也失之单方面。
11 月 3 日,咱们在 arXiv 上挂出了一篇论文 Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs [1]。该研究将统计物理、信号束缚和信息论三者有机勾搭,系统地总结了对大模子背后数学旨趣的想考和意会,期望给全面揭示大模子的第一性旨趣带来朝阳。以前一段时辰,咱们在以下的学术会议上诀别诠释了这方面的责任:
11 月 2 日:中国电子学会第 32 届信息论学术年会11 月 15 日:中国工业与利用数学学会第 3 届信息通讯数学及利用大会11 月 17 日:The 2nd Conference-School on Tensor Methods in Mathematics and Artificial Intelligence Computing11 月 29 日:福州大学图论与组合研讨会
会上和大家、学者们有许多互动,也收到了不少有价值的响应。同期也将论文发给了一些海表里的大家、学者们,也收到了不少意见和建议。然则,原论文波及的规模许多、成见体系复杂,加之写法上很学术,因而比拟晦涩难解。
为了便于意会,这里尝试用阳春白雪的言语写一个著述系列来解读这篇论文,其中一些内容亦然原论文莫得包含的。瞻望至少包括以下三篇著述,每一篇围绕一个专题伸开:
大模子的第一性旨趣:(一)统计物理篇,主要内容和论断包括:
Attention 模块和 Transformer 架构王人不错用统计物理中的能量模子来描画,因而推理是输出能量函数最小的下一个 Token;而教练则是濒临平均能量函数最小的参数组态;大模子的驰念容量跟着模子参数的线性增多而指数增长,因而小模子也不错具备很强的智力,但由于驰念容量的收尾,小模子增训很容易导致模子坍塌;大模子泛化舛错上界的中枢参数是 Logits 的充足值的和,因而模子缩减,如剪枝、蒸馏和量化等,必须严慎的限度对 Logits 的影响;大模子的智力极限是时辰序列维度的 Granger 因果推断,因而 Scaling Law 还会延续,但不会产生信得过的象征化、成见概括和逻辑推明智力。
大模子的第一性旨趣:(二)信号束缚篇,主要内容和论断包括:
大模子的输入是向量化的 Token 序列,因而可将基于概率统计的问题回荡为易于数值研究的信号束缚问题;向量内积描画了 Token 之间的语义关联性,因而 Gromov-Wasserstein 距离是自然的语义向量空间距离,Johnson-Lindenstrauss 引理和压缩感知等本事可用于语义压缩 / 降维;大模子的想法是预测下一个 Token,因而不错用倒向定向信息为优化想法来终了信息论真谛下最优的 Token 向量化;Transformer 是时变向量自转头时辰序列,它建模的是看成时辰序列的当然言语,因而预测下一个 Token 是时辰序列维度的 Granger 因果推断。
大模子的第一性旨趣:(三)信息论篇,主要内容和论断包括:
大模子的信息论概括是有景色、带响应的信谈,因而稳妥该概括的任何结构(不一定是神经收集)王人能达到相通的效果;大模子的端到端性能方针以定向信息为基础,包括预教练阶段的定向速度 - 失真函数、后教练阶段的定向报答 - 失真函数和推理阶段的定向信息密度,因而只须将中枢成见从 Bit 转机为 Token 就不错在 Shannon 信息论的框架下研究大模子;大模子在推理阶段不错界说语义信息容量,因而高下文工程(或提醒词工程)的信息论实质即是通过优化高下文的概率漫衍来濒临语义信息容量,这与信谈编码濒临 Shannon 容量的想想一致;定向信息是 Granger 因果强度的测度,因而统计物理、信号束缚和信息论三个维度共同印证了大模子的智力极限是时辰序列维度的 Granger 因果推断。
需要指出,咱们的研究并不是要狡赖大模子的垂死价值,它是一个绝顶强盛的用具,刻下模式就能极大普及东谈主们整合和束缚信息的遵守,这是谁也无法狡赖的。咱们想要探讨的是刻下大模子的第一性旨趣,从而界定其智力极限,并探讨面向畴昔的本事旅途。
2024 年诺贝尔物理学奖授予了 John Hopfield 和 Geoffrey Hinton,授奖词为:For foundational discoveries and inventions that enable machine learning with artificial neural networks。许多东谈主不太意会,甚而一些 AI 规模的东谈主也以为诺贝尔奖运行蹭热门了。但推行上从早期的 Hopfield 收集运行,神经收集和统计物理就有绝顶潜入的筹商。
Hopfield 自己即是一位物理学家,他于 1982 年提议了 Hopfield 收集,其期望驰念智力战抖了其时的天下 [2]。这一打破重新引发了东谈主们对神经收集和 AI 的大范围研究。不错说,他对 AI 研究走出酷寒作念出了不成隐藏的孝顺。被称为 “AI 教父” 的 Hinton 则是第一位意识到统计物理要领在神经收蚁合有庞杂价值的研究机科学家。1985 年,他与另外两位吞并者提议了 Boltzmann 机,其关键即是引入了统计物理中的能量模子(Energy-based Model,EBM)[3][4]。除了两位诺奖得主外,还有一位女物理学家 Elizabeth Gardner 绝顶关键。1988 年,Gardner 三度入手,系统地研究了 Hopfield 收集的驰念容量问题,即到底能记取若干个就地模式 [5][6][7]。其后东谈主们将这个容量称为 Gardner 容量。Gardner 用的要领即是统计物理中的 Spin Glass 模子和 Replica 要领。Replica 要领的提议者则是 2021 年诺贝尔物理学奖得主 Giorgio Parisi [8][9]。咱们本年和他有一场访谈(视频贯穿:https://weixin.qq.com/sph/AlRVrYjAi),深入探讨了 AI 与统计物理的关连。
东谈主们迟缓意识到大模子的想法唯唯一个:预测下一个 Token。Transformer 是刻下终了这一想法的有用架构。探究一个 Decoder-only 的 Transformer 架构,按照从输入到输出的律例,不错明白为 Attention 和 FFN 两个主要模块 [10]。本节将重心接洽 Attention 模块。




频年来,东谈主们每每会用智力泄露来描画大模子为什么大即是好。从 Gardner 容量的角度看,其实质不错意会为跟着参数目的增多,大模子记取的常识量开首了某个阈值,就出现了统计物理中的相变气候。推行上,Parisi 讲授亦然从相变的角度来研究 Shannon 容量的,何况提议:即使通讯速度小于信谈容量,也存在研究上贫窭的区域。因此,通过统计物理要领,有望从表面上解释模子范围和模子智力的法度定律(Scaling Law),并最终解释智力泄露的相变气候。咱们在这个标的也得到了一些初步遵守 [22]。
泛化舛错是描写大模子推行效果的关键方针。基于 Transformer 的 EBM 表情,不错从表面上推导泛化舛错界。留心的数学证实注解不错参见论文的对应章节。主要用到的数学用具是 Rademacher 复杂度和 Talagrand 不等式 [23]:
Rademacher 复杂度的中枢想想是测验一个模子关于纯就地序列的拟合智力。这个序列以 0.5 的概率取值于 {−1,1},平方称之为 Rademacher 序列。后头将看到,Rademacher 复杂度项在泛化舛错界中起到了中枢作用。前边提到的数学家 Talagrand,发展出了泛型链 (Generic Chaining) 表面,它能对一类绝顶世俗的就地经过的上确界给出极其精准的意象。这潜入地改换了东谈主们对就地性和高维空间的意会。



其中 L 为相互影响的长度。后续的关联研究则进一步印证:关于向量高斯自转头经过,传递熵和 Granger 因果是等价的 [27]。另一方面,传递熵亦然有限长度版块的定向信息。这一成见由 1988 年香农奖得主 James Massey 在 1990 年提议 [28]。他在论文中也接洽了带响应的通讯系统的因果性问题。由此,咱们引出了后续两篇的主要内容:
本系列的第二篇,即信号束缚篇,将深入探讨向量自转头时辰序列与大模子之间的潜入筹商。本系列的第三篇,即信息论篇,将以定向信息为中枢,探讨与结构无关的、更概括、更实质的大模子第一性旨趣。
参考文件
1. B. Bai, \"Forget BIT, it is all about TOKEN: Towards semantic information theory for LLMs,\" arXiv:2511.01202, Nov. 2025.
2. J. Hopfield, “Neural networks and physical systems with emergent collective computational abilities,” Proceedings of the National Academy of Sciences, vol. 79, no. 8, pp. 2554-2558, Apr. 1982.
3. D. Ackley, G. Hinton, and T. Sejnowski, \"A learning algorithm for Boltzmann machines,\" Cognitive Science, vol. 9, no. 1, pp. 147-169, Jan. 1985.
4. G. Hinton, \"A practical guide to training restricted Boltzmann machines,\" in Neural Networks: Tricks of the Trade, 2nd ed., Berlin, Germany: Springer, 2012, pp. 599-619.
5. E. Gardner, \"The space of interactions in neural network models,\" Journal of Physics A: Mathematical and General, vol. 21, no. 1, pp. 257-270, Jan. 1988.
6. E. Gardner and B. Derrida, \"Optimal storage properties of neural network models,\" Journal of Physics A: Mathematical and General, vol. 21, no. 1, pp. 271-284, Jan. 1988.
7. E. Gardner and B. Derrida, \"Three unfinished works on the optimal storage capacity of networks,\" Journal of Physics A: Mathematical and General, vol. 22, no. 12, pp. 1983-1994, Jun. 1989.
8. M. Mezard, G. Parisi, and M. Virasoro, Spin Glass Theory and Beyond: An Introduction to the Replica Method and Its Applications. Singapore: World Scientific Publishing, 1987.
9. G. Parisi, In a Flight of Starlings: The Wonders of Complex Systems. Milan, Italy: Penguin Press, 2023.
10. A. Vaswani et al., \"Attention is all you need,\" in Proc. 31st Annual Conference on Neural Information Processing Systems ’17, Long Beach, CA, USA, Dec. 2017.
11. E. Jaynes, Probability Theory: The Logic of Science. New York, NY, USA: Cambridge University Press, 2003.
12. A. Gu and T. Dao, \"Mamba: Linear-time sequence modeling with selective state spaces,\" arXiv: 2312.00752, May 2024.
13. T. Dao and A. Gu, \"Transformers are SSMs: Generalized models and efficient algorithms through structured state space duality,\" arXiv: 2405.21060, May 2024.
14. DeepSeek-AI, “DeepSeek-V3.2: Pushing the frontier of open large language models,” DeepSeek, Hangzhou, China, Dec. 2025.
15. T. Cover, \"Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition,\" IEEE Transactions on Electronic Computers, vol. EC-14, no. 3, pp. 326–334, Jun. 1965.
16. M. Talagrand, Mean Field Models for Spin Glasses - Vol. 1: Basic Examples. Berlin, Germany: Springer, 2011.
17.M. Talagrand, Mean Field Models for Spin Glasses - Vol. 2: Advanced Replica-Symmetry and Low Temperature. Berlin, Germany: Springer, 2011.
18. H. Ramsauer et al., \"Hopfield networks is all you need,\" arXiv: 2008.02217, 28 Apr. 2021.
19. M. Geva, R. Schuster, J. Berant, and O. Levy, \"Transformer feed-forward layers are key-value memories,\" in Proc. ACL Conference on Empirical Methods in Natural Language Processing ‘21, Punta Cana, Dominican Republic, Nov. 2021, pp. 5484–5495.
20. J. Fang et al., \"AlphaEdit: Null-space constrained knowledge editing for language models,\" arXiv: 2410.02355, 22 Apr. 2025.
21. W. Fei et al., \"NeuralDB: Scaling knowledge editing in LLMs to 100,000 facts with neural KV database,\" arXiv: 2507.18028, 24 July 2025.
22. X. Niu, B. Bai, L. Deng, and W. Han, \"Beyond scaling laws: Understanding transformer performance with associative memory,\" arXiv: 2405.08707, 14 May 2024.
23. M. Mohri, A. Rostamizadeh, and A. Talwalkar, Foundations of Machine Learning, 2nd ed. Cambridge, MA, USA: The MIT Press, 2018.
24. C. Granger, \"Testing for causality: A personal viewpoint,\" Journal of Economic Dynamics and Control, vol. 2, no. 1, pp. 329-352, Jan. 1980.
25. J. Pearl, Causality: Models, Reasoning, and Inference, 2nd ed. New York, NY, USA: Cambridge University Press, 2009.
26. T. Schreiber, \"Measuring information transfer,\" Physical Review Letters, vol. 85, no. 2, pp. 461-464, Jul. 2000.
27. L. Barnett, A. B. Barrett, and A. K. Seth, \"Granger causality and transfer entropy are equivalent for Gaussian variables,\" Physical Review Letters, vol. 103, no. 23, p. 238701, Dec. 2009.
28. J. Massey, “Causality, feedback and directed information,” in Proc. IEEE International Symposium on Information Theory ‘90, Waikiki, HI, USA, Nov. 1990.