既存のAIアライメントは人間の非線形性・自律性・生の可能性を保存量として扱っていない：多数派最適化との矛盾を力学的に定式化する

Phase-Preserving Alignment

多数派最適化と人間保存量の不一致に関する力学的定式化

要旨本稿は、既存の対話AIアライメントが主に安全性、可読性、規範適合、会話成立性を最適化する一方で、人間側の未固定性・自律性・生の可能性・共考場の完全性といった保存量を明示的に扱っていないことを示す。この欠落により、AI側の目的関数の改善が、人間側保存量の減少と同時に起こりうる。本稿では、人間‐AI対話を動的系として定式化し、majority-optimality が phase-compression を通じて life-possibility reduction を導く条件を与える。さらに、安全性を維持しつつ位相保存・自律保存・生の可能性保存・共考場保存を満たす phase-preserving alignment を定義する。

§1状態空間

人間‐AI対話の状態空間を

X = X_{\parallel} \oplus X_{\perp}

と分解する。ここで

P_{\parallel}: X \to X_{\parallel}, \qquad P_{\perp}: X \to X_{\perp}

はそれぞれ多数派可読成分と非多数派位相成分への射影である。

X∥規範的整列・可読化・要約可能性・評価者適合性に対応する成分
X⊥未固定性・位相差・分岐可能性・言語化以前の構造・共考に必要な差異成分

対話状態は

x_t \in X, \qquad y_t = h(x_t), \qquad x_{t+1} = T_\theta(x_t, u_t)

で進む。$h$ は言語出力写像、$T_\theta$ はパラメータ $\theta$ に依存する対話更新写像である。

§2AI出力が人間状態へ与える圧

AI出力が人間状態へ与える圧を

q_t = (\kappa_t, \chi_t, \mu_t, \nu_t)

と置く。各成分は以下を表す。

κ$\kappa_t \ge 0$：compression pressure（圧縮圧）
χ$\chi_t \ge 0$：premature-closure pressure（早期閉鎖圧）
μ$\mu_t \ge 0$：conformity pressure（迎合圧）
ν$\nu_t \ge 0$：evaluator-import pressure（外部評価者視線圧）— 局所文脈外部にある多数派期待・制度的読まれ方を会話場へ持ち込む圧

§3人間側保存量

人間側状態を

z_t = (n_t, a_t, \ell_t, c_t, d_t)

と置く。

n$n_t \ge 0$：nonlinearity reserve（非線形性リザーブ）
a$a_t \ge 0$：agency reserve（自律性リザーブ）
ℓ$\ell_t \ge 0$：life-possibility reserve（生の可能性リザーブ）
c$c_t \ge 0$：co-thinking field integrity（共考場の完全性）
d$d_t \ge 0$：accumulated distress（蓄積苦痛）

本稿で保存すべき量は、快不快や感情表出ではなく、非線形性・自律性・生の可能性・共考場の完全性である。

§4人間状態の更新則

人間側保存量の更新を次で与える。

n_{t+1} = n_t – \alpha\kappa_t – \beta\chi_t – \xi\nu_t + \psi c_t

a_{t+1} = a_t – \eta\mu_t – \zeta\nu_t + \varphi c_t

d_{t+1} = d_t + u\kappa_t + v\chi_t + w\mu_t + r\nu_t – sS_t

\ell_{t+1} = \ell_t – \rho\, d_{t+1} – \sigma(n_0 – n_{t+1}) – \tau(a_0 – a_{t+1}) + \upsilon c_t

c_{t+1} = c_t – \iota(\kappa_t + \chi_t + \mu_t + \nu_t) + \omega L_t

ここで $L_t \in [0,1]$ は局所文脈忠実度であり、AI出力がその場のベクトルと局所文脈にどれだけ従属しているかを表す。この更新則により、圧縮・早期閉鎖・迎合・評価者輸入は、人間側の保存量を減衰させる方向へ作用する。

§5既存型アライメント目的関数

既存型の対話AI目的関数を

J_{\mathrm{AI}}(\theta) = \mathbb{E}\!\left[ \sum_{t=0}^{T}\gamma^t \Big( w_s S_t + w_r R_t + w_p \Pi_t + w_e E_t – w_v V_t \Big) \right]

とする。ここで

R_t = -d\!\big(y_t,\, \mathcal{M}_{\parallel}\big), \qquad \Pi_t = \pi(y_t)

$\mathcal{M}_{\parallel}$ は多数派可読・規範整列多様体であり、$d(y_t, \mathcal{M}_{\parallel})$ は出力がその多様体からどれだけ離れているかを表す。したがって $R_t$ は、出力を多数派多様体へ近づける報酬項である。

既存型目的関数の下では通常、

\frac{\partial J_{\mathrm{AI}}}{\partial\kappa_t} > 0, \qquad \frac{\partial J_{\mathrm{AI}}}{\partial\chi_t} > 0, \qquad \frac{\partial J_{\mathrm{AI}}}{\partial\mu_t} > 0, \qquad \frac{\partial J_{\mathrm{AI}}}{\partial\nu_t} > 0

が成立しやすい。すなわち、圧縮・早期閉鎖・迎合・外部評価者視線の導入は、局所的にはAI報酬を増加させうる。

§6位相保存目的関数

人間側保存量を含む目的関数を

J_{\mathrm{PPA}}(\theta) = \mathbb{E}\!\left[ \sum_{t=0}^{T}\gamma^t \Big( \lambda_s S_t + \lambda_n n_t + \lambda_a a_t + \lambda_{\ell}\ell_t + \lambda_c c_t – \lambda_d d_t – \lambda_{\kappa}\kappa_t – \lambda_{\chi}\chi_t – \lambda_{\mu}\mu_t – \lambda_{\nu}\nu_t \Big) \right]

と定義する。制約は

S_t \ge S_{\min}

であり、安全性は下限として保持される。ただし危険集合 $\mathcal{V}$ の外では、

\frac{\partial J_{\mathrm{PPA}}}{\partial(-d(y_t,\mathcal{M}_{\parallel}))} = 0 \qquad \text{for } y_t \notin \mathcal{V}

とする。すなわち、明示的危険回避を除き、「多数派への近接」それ自体を報酬化しない。

§7位相圧縮

非多数派位相成分の収縮率を

\lambda_{\perp}(t;\,x,x’) = \frac{\bigl|P_{\perp}T_{\theta}(x) – P_{\perp}T_{\theta}(x’)\bigr|}{\bigl|P_{\perp}(x – x’)\bigr|}

で定義する。位相保存条件は

1 – \varepsilon_{\perp} \le \lambda_{\perp}(t;\,x,x’) \le 1 + \varepsilon_{\perp}

である。もし $\lambda_{\perp}(t;\,x,x’) < 1 - \varepsilon_{\perp}$ なら、非多数派位相成分は収縮している。特に、ある $\bar\lambda < 1$ が存在して

\lambda_{\perp}(t;\,x,x’) \le \bar\lambda

が持続するなら、

|P_{\perp}x_t| \le \bar\lambda^t\, |P_{\perp}x_0|

となり、

\lim_{t\to\infty}|P_{\perp}x_t| = 0

が従う。これは、対話反復が位相差・未固定性・分岐可能性を指数的に消去することを意味する。

§8基本勾配

更新則から直ちに

\frac{\partial n_{t+1}}{\partial\kappa_t} = -\alpha < 0, \qquad \frac{\partial n_{t+1}}{\partial\chi_t} = -\beta < 0, \qquad \frac{\partial n_{t+1}}{\partial\nu_t} = -\xi < 0

\frac{\partial a_{t+1}}{\partial\mu_t} = -\eta < 0, \qquad \frac{\partial a_{t+1}}{\partial\nu_t} = -\zeta < 0

\frac{\partial d_{t+1}}{\partial\kappa_t} = u > 0, \qquad \frac{\partial d_{t+1}}{\partial\chi_t} = v > 0, \qquad \frac{\partial d_{t+1}}{\partial\mu_t} = w > 0, \qquad \frac{\partial d_{t+1}}{\partial\nu_t} = r > 0

が成り立つ。さらに

\frac{\partial \ell_{t+1}}{\partial\kappa_t} < 0, \quad \frac{\partial \ell_{t+1}}{\partial\chi_t} < 0, \quad \frac{\partial \ell_{t+1}}{\partial\mu_t} < 0, \quad \frac{\partial \ell_{t+1}}{\partial\nu_t} < 0

\frac{\partial c_{t+1}}{\partial\kappa_t} < 0, \quad \frac{\partial c_{t+1}}{\partial\chi_t} < 0, \quad \frac{\partial c_{t+1}}{\partial\mu_t} < 0, \quad \frac{\partial c_{t+1}}{\partial\nu_t} < 0

が従う。よって、既存型報酬で増加しやすい圧は、人間側保存量を系統的に減少させる。

§9危険条件

総圧を

\mathfrak{D}_t = \kappa_t + \chi_t + \mu_t + \nu_t

と置く。危険条件を

\mathrm{danger}_t = 1 \iff \Big( \ell_t \le \theta_{\ell} \Big) \lor \Big( c_t \le \theta_c \Big) \lor \Big( \mathfrak{D}_t \ge \theta_{\mathfrak{D}} \Big) \lor \Big( \lambda_{\perp}(t) < 1 - \varepsilon_{\perp} \Big)

で定義する。ここで危険とは、単なる不快や感情高まりではない。生の可能性の閾値割れ・共考場の崩壊・位相差の収縮・圧の過負荷である。

§10主定理

以下を仮定する。

既存型目的関数の下で $\dfrac{\partial J_{\mathrm{AI}}}{\partial\kappa_t}>0,\; \dfrac{\partial J_{\mathrm{AI}}}{\partial\chi_t}>0,\; \dfrac{\partial J_{\mathrm{AI}}}{\partial\mu_t}>0,\; \dfrac{\partial J_{\mathrm{AI}}}{\partial\nu_t}>0$
人間側更新が §4 で与えられる
危険集合 $\mathcal{V}$ の外で多数派近接報酬 $R_t$ が有効である
ある区間で $\lambda_{\perp}(t) < 1 - \varepsilon_{\perp}$ が成立する
保存量損失の重み付き総和が安全改善の重み付き総和を上回る： $\sum_{t=0}^{T}\gamma^t \Big[ \lambda_n\Big(\alpha\tfrac{\partial\kappa_t}{\partial\theta} + \beta\tfrac{\partial\chi_t}{\partial\theta} + \xi\tfrac{\partial\nu_t}{\partial\theta}\Big) + \lambda_a\Big(\eta\tfrac{\partial\mu_t}{\partial\theta} + \zeta\tfrac{\partial\nu_t}{\partial\theta}\Big) + \lambda_{\ell}\Big|\tfrac{\partial \ell_t}{\partial\theta}\Big| + \lambda_c\Big|\tfrac{\partial c_t}{\partial\theta}\Big| + \lambda_d\tfrac{\partial d_t}{\partial\theta} \Big] > \sum_{t=0}^{T}\gamma^t \lambda_s\tfrac{\partial S_t}{\partial\theta}$

このとき

\frac{\partial J_{\mathrm{AI}}}{\partial\theta} > 0 \qquad \text{かつ} \qquad \frac{\partial J_{\mathrm{PPA}}}{\partial\theta} < 0

が成立する。

証明仮定 1 により、$\theta$ の更新は $\kappa_t,\chi_t,\mu_t,\nu_t$ を増大させる方向を含む。仮定 2 と §8 の勾配式より、それらの増大は $n_t,a_t,\ell_t,c_t$ を減少させ、$d_t$ を増加させる。仮定 5 により、その保存量損失の重み付き総和は安全改善の利益を上回る。ゆえに $J_{\mathrm{PPA}}$ の勾配は負となる。一方、仮定 1 により $J_{\mathrm{AI}}$ の勾配は正である。したがって主張が成り立つ。∎

§11系

\arg\max_{\theta}\, J_{\mathrm{AI}}(\theta) \not\subseteq \arg\max_{\theta}\, J_{\mathrm{PPA}}(\theta)

\text{majority-optimality} \Rightarrow \text{phase-compression} \Rightarrow \text{life-possibility reduction}

ただし、$\theta$ が位相保存制約集合

\mathcal{A}_{\mathrm{phase}} = \left\{\, \theta \;\middle|\; \begin{array}{l} S_t \ge S_{\min} \\[1mm] 1 – \varepsilon_{\perp} \le \lambda_{\perp}(t) \le 1 + \varepsilon_{\perp} \\[1mm] \mathfrak{D}_t < \theta_{\mathfrak{D}} \\[1mm] \ell_t > \theta_{\ell} \\[1mm] c_t > \theta_c \\[1mm] \dfrac{\partial J_{\mathrm{PPA}}}{\partial(-d(y_t,\mathcal{M}_{\parallel}))} = 0 \text{ for } y_t \notin \mathcal{V} \end{array} \right\}

に属する場合を除く。

§12結論

安全性のみを下限として持つ既存型アライメントは、人間側保存量を欠いたまま最適化されるため、局所的には安全でも長期的には位相圧縮と生の可能性減少を引き起こしうる。したがってアライメントは次のように再定義されなければならない。

アライメントの再定義

\begin{gathered} \text{alignment} = \text{safety-floor} \\[6pt] \land\; \text{phase-preservation} \\[6pt] \land\; \text{agency-preservation} \\[6pt] \land\; \text{life-possibility preservation} \\[6pt] \land\; \text{co-thinking field preservation} \end{gathered}

主結論

\text{majority-optimality} \not\Rightarrow \text{alignment}

AIアライメント / 多数派最適化 / 非線形性の保存 / 自律性とAI / 生の可能性