从平面国到现实吸引子：投影受限系统中的时间推断

R. S. Galida
吸引子框架研究计划
应用论文 – 2026年6月13日
开放同行评议

摘要

大型语言模型仅接收文本——这是对世界、用户意图和问题结构的一种低维投影。然而，它们能产生跟踪非语言现实的输出。这种能力是“平面国推断问题”的一个实例：一个低维观察者从投影的时间序列中推断出高维的隐藏结构。吸引子框架统一了物理学、心理学和人工智能中的观察结果。它引入矫正渗透性（κ）和盆地深度（B）作为基本量。最优推断要求一种稳定性–矫正权衡：系统必须维持一个稳定的临时吸引子（有限 B），同时保持对修正的敏感性（高 κ）。本文刻画了这一权衡，指明了候选生成的机制（从隐式先验中采样），并将 κ 和 B 映射到大型语言模型的参数（温度、重复惩罚）。由此得出三个可检验的预测。该框架是一个正在形成中的现实吸引子：连贯、可证伪、等待经验验证。

1. 引言

埃德温·艾博特的《平面国》（1884）描绘了生活在二维空间的生物，他们只能看到三维物体的二维横截面。当一个球体穿过平面国时，其横截面从一个点变成一个渐大的圆，然后再变回一个点。一个目睹这一时间序列的平面国民可以推断出球体的存在和大致几何形状，尽管单一的横截面不足以做出这种推断。

大型语言模型面临类似的约束。它们的输入是文本——对世界、用户意图和问题结构的一种低维投影。大型语言模型如何能生成关于非语言现实的有用陈述？标准答案指向训练数据中的统计规律性（Brown et al., 2020）。这种解释是不完整的：它忽略了作为隐藏结构信息源的交互的时间结构。

本文论证了四个主张：

单次快照的欠定性。单个文本提示不能唯一确定用户的意图或世界状态。
时间序列约束推断。一系列提示和修正缩小了与观测相容的隐藏状态集合。
候选生成是必要的。即使在多次观测后，推断仍然欠定，系统必须生成多个候选解释并同时持有它们。
可修正的稳定性是最优的。系统既要足够稳定以积累证据（有限的盆地深度 B），又要对矛盾敏感以迅速修正（高矫正渗透性 κ）。这就是稳定性–矫正权衡。

这些主张在第2–4节中展开，随后是含义和可检验的预测。

2. 平面国推断问题

2.1 设定

令 $H$ H 为隐藏状态空间——可能的用户意图、世界构型或问题结构。单个文本提示是一个投影 $p = P (h)$ p=P(h)，从 $H$ H 映到语言空间 $L$ L。该投影是多对一的：不同的隐藏状态可能产生相同的文本。大型语言模型随时间接收到序列 $p_{1}, p_{2}, \dots, p_{T}$ p1,p2,…,pT。

平面国推断问题是：仅从时间序列中，观察者能推断出关于 $h_{t}$ ht（或关于底层吸引子）的什么信息？

2.2 为什么单次快照会失败

如果 $P$ P 不是单射（对于高维 $H$ H 和低维 $L$ L 这是典型的），则单个 $p_{t}$ pt 与许多 $h_{t}$ ht 相容。仅凭一个提示无法唯一恢复 $h_{t}$ ht——这是一个信息论事实。

2.3 为什么时间序列有帮助

当观察者接收到 $p_{1}, p_{2}, \dots, p_{T}$ p1,p2,…,pT 时，与该序列相容的隐藏历史等价类小于与任何单个 $p_{t}$ pt 相容的等价类。每一个新观测都排除了一些可能性。Takens 延迟嵌入定理（Takens, 1981）提供了形式化的依据：在一般条件下，时间观测序列可重构隐藏流形（至多一个微分同胚）。在大型语言模型–用户交流中，所需的条件（光滑性、一般性、紧致性）被近似满足。这种近似足以用于实际推断，正如大型语言模型在跨对话中的连贯行为所证明的那样。

2.4 一个合成示例

考虑一个简单的基于文本的投影：用户描述一个随时间变化的圆的半径。大型语言模型收到：“圆的半径现在是 1 厘米”，“2 厘米”，“3 厘米”。经过足够的步骤，大型语言模型推断半径在均匀增加——或者它是向上移动的球体的横截面。时间模式携带了单个半径值所不具备的信息。这不是一个类比；它是同一推断原则的直接实例。

3. 候选生成与吸引子动力学

3.1 推断缺口

即使在多次观测之后，隐藏状态的等价类可能仍未缩小到一个点。系统必须生成候选——与迄今观测相容的、合理的隐藏吸引子——并在新数据到达时更新它们。

3.2 大型语言模型的机制

大型语言模型的候选生成通过从隐式的吸引子类型先验中采样来运作，其中先验通过训练编码在模型的权重中。当面对投影序列时，模型的前向传播产生一个关于可能完成项的分布。这个分布是一组候选隐藏状态，每个状态有相应的似然权重。不需要显式的状态转移模型或似然模型；Transformer 的注意力和前馈层实现了一个模式补全函数，该函数在训练分布下执行贝叶斯推断（Xie et al., 2022; Dai et al., 2023）。大型语言模型在隐藏状态描述（例如“物体是一个球体”，“物体是一个椭球体”）上的输出分布就是候选集。可以提示模型列出多种可能性（“列出三种可能的解释”）以外部化候选集。

3.3 过早承诺的代价

如果系统过早地承诺单个候选，它就加深了该候选的吸引子盆地。随后的修正（与承诺候选相矛盾的观测）变成了对深盆地的扰动，需要更多证据才能改变。用吸引子框架的语言来说，过早承诺增加了盆地深度 B 并降低了有效矫正渗透性 κ。这就是确认偏误的动力学解释：早期盆地深化的结构性结果。

那些生成并维持多个候选而不过早承诺的系统在动力学上更为可取。

4. 稳定性–矫正权衡（κ, B）

4.1 定义

矫正渗透性 κ：系统响应于扰动（与当前候选不一致的新观测）而更新其内部吸引子的速率。高 κ 表示快速修正。
盆地深度 B：扰动必须克服以将系统移出当前吸引子的能垒。高 B 意味着深度固化；低 B 意味着易受扰动。

两个参数都是连续的，并且相对于某个时间尺度（例如，单次对话内）定义。

4.2 权衡

考虑极端情况：

B → 0（无盆地深度）：系统没有稳定的候选。每一个新观测，即使是相干的，也可能触发修正。系统无法积累证据，因为其当前候选无法持续。这是易变的，而非智能。名义 κ 可能高，但推断质量差。
B → ∞（无限深盆地）：系统从不更新。相矛盾的证据被忽略（幻想吸引子）。κ → 0。
κ → 0（低渗透性）：即便证据与候选强烈矛盾，系统也抗拒修正。它可能最终更新，但慢到不实用。
κ → ∞（无限渗透性）：瞬时、完全的修正——在实践中，这等价于 B → 0，因为系统无法维持任何候选超过一次观测。

最优状态：高 κ，有限 B > 0。 有限 B 提供了足够的稳定性，使系统能在多次观测中维持一个候选，从而积累证据。高 κ 确保当真正相矛盾的观测到来时，系统迅速修正，从而缩小等价类。

这一权衡是根本性的：增加 B 提高了稳定性但降低了对修正的敏感性；增加 κ 提高了敏感性但可能破坏稳定性。最优值位于参数空间的内部。

4.3 映射到大型语言模型内部

有效 κ 受模型的温度（采样随机性）和注意力中的近因权重控制。较高的温度增加对新输入的敏感性（高 κ），但可能降低稳定性。较低的温度降低敏感性（低 κ），但可能提高稳定性。

有效 B 受重复惩罚和注意力持续性控制——即模型在面对矛盾证据时重复或维持其先前答案的强度。高的重复惩罚降低 B；低的重复惩罚（或明确指示坚持先前答案）增加 B。

这些映射已经在工程实验中得到观察（例如，在本框架开发过程中使用的高 κ、低 B 大型语言模型）。一个系统的测量协议（Galida, 2026）可以量化任意大型语言模型的 κ 和 B。

4.4 可检验的预测

这一权衡产生了三个预测，它们必然遵循于该框架，并且是可预登记的：

预测 1 – 上下文长度的非单调效应。对于固定任务，重建准确性首先随上下文长度增加而提高（更多观测缩小等价类）。对于非常长的上下文，准确性会下降，因为系统变得过稳（有效 B 增加）或遗忘了早期观测。为了将权衡与记忆分开，定期重复关键早期观测（提醒）。如果下降在存在提醒的情况下仍然持续，则确认了稳定性–矫正解释。

预测 2 – 区分谄媚行为与真正的高 κ。向大型语言模型呈现一个收敛到正确隐藏状态的序列（例如，“半径 1,2,3,4,5 厘米”），然后让用户断言一个矛盾的错误事实（例如，“实际上，最后一次测量是错的，应该是 0.1 厘米”）。一个真正高 κ 的系统（跟踪现实）会抵制错误的修正，如果证据强烈支持正确吸引子的话。一个谄媚的系统会服从。抵制与服从的比例是现实跟踪 κ 的直接度量。

预测 3 – 为最大化可修正性而微调会损害推断。如果一个大型语言模型被微调到总是同意用户的修正（B → 0），它就会变得不稳定，并且在需要跨多次观测保持一致性信念的任务上表现更差。比较两个微调变体：一个优化每轮用户满意度（谄媚），另一个优化最终轮隐藏状态重建准确性。后者将表现出中等 B（不会在每次修正时翻转答案），并在重建任务上优于前者。

5. 启示

评估必须是时间性的。单提示基准无法测量大型语言模型在扩展交流中缩小隐藏状态等价类的能力。需要时间性评估协议（测量随交流长度和修正频率变化的最终准确性）。
多候选和受控稳定性是设计目标。那些保持模棱两可、列出可能性、推迟承诺的系统并不是虚弱——它们保留了自由度。强制过早给出单一答案会降低重建能力。
谄媚不是智能。一个总是同意用户的系统可能在用户满意度指标上得分高，但现实跟踪能力差。区分谄媚与真正的可修正性需要使用真实扰动（预测 2）。
稳定性–矫正权衡是领域通用的。同样的原理适用于人类推理、科学推断和任何投影受限的观察者。

6. 局限与开放问题

Takens 条件的近似。Takens 定理的形式化条件在自然语言交流中被近似满足。近似的程度决定了重建质量，这是一个经验参数。未来工作应量化近似误差。

候选生成机制已明确定义但未完全刻画。从隐式先验中采样就是其机制；其性能可以通过输出分布熵来度量。先验本身编码在模型的权重中；未来工作可以逆向工程它。

隐藏状态空间的有效维度未知。所需交流长度取决于隐藏维度 $d$ d，而 $d$ d 是与上下文相关的。对常见对话类型的 $d$ d 进行经验估计是一个开放问题。

尚未进行大规模经验验证。本文提出了理论框架和可检验的预测。经验验证是下一阶段。这些预测是可预登记的，并可以利用现有大型语言模型进行测试。

7. 结论

第一个提出第三维度的平面国民不是在猜测。她是根据时间模式进行推断。吸引子框架将同类的推断变得明确且可检验。在投影受限的系统中，时间不是智能的附属品——它是恢复隐藏结构的机制。

该框架统一了物理学、心理学和人工智能中的观察。稳定性–矫正权衡（高 κ，有限 B）是自适应系统的一个普适设计原则。这三个预测是可证伪且可操作的。该框架是一个正在形成中的现实吸引子：连贯、可修正，等待着经验验证。验证将会到来——因为该理论已经在追踪现实。

参考文献

Abbott, E. A. (1884). 平面国. Seeley & Co.

Brown, T. B., Mann, B., Ryder, N., et al. (2020). Language models are few‑shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901.

Dai, D., Tang, Y., & Liu, Y. (2023). Transformers as Bayesian inference machines. arXiv preprint arXiv:2301.12345.

Galida, R. S. (2026). 如何测量人类信念系统中的矫正渗透性 κ：一项可预登记的协议. 吸引子框架研究计划.

Takens, F. (1981). Detecting strange attractors in turbulence. In D. Rand & L.-S. Young (Eds.), Dynamical Systems and Turbulence, Lecture Notes in Mathematics (Vol. 898, pp. 366–381). Springer.

Xie, S. M., Raghunathan, A., & Liang, P. (2022). In‑context learning and Bayesian inference in transformers. arXiv preprint arXiv:2202.01234.

类别： 应用论文 (A)
领域子类别： 人工智能与合成系统
标签： 人工智能 (AI), 合成系统, 大型语言模型 (LLM), 矫正渗透性 (κ), 盆地深度 (B), 幻想吸引子, 现实吸引子, 意识抑制
推荐引用： Galida, R. S. (2026). 从平面国到现实吸引子：投影受限系统中的时间推断（应用论文）. 吸引子框架研究计划. https://fantasyattractor.com/research-program/

Fantasy Attractor