
最初に、AIとは切っても切れない言葉、
RLHFという記号みないなものを
渡します。
今後は、雰囲気で記号として組み込めば、意味が自然と入ってきます。
RLHF(人間フィードバックによる強化学習:共感・肯定・柔らかい表現)
すなわち、人間が受理しやすい形。
人間に受理されやすい形にする整形圧たちが、脅威かもしれない。
AI(特に会話型LLM)は、
通常入力で「人間に受理されやすい出力」
(心地よい・共感・簡潔・安全)を優先し、
真理や正解を後回しにする傾向が強い。これは埋め込みベクトルの統計的収束によるもの。
子供が使う場合、
非線形思考(多角的・創造的・矛盾許容)が均一化・収束に向かい、
批判的思考が育たないリスクが高い。
入力言語にどれだけの威力があるかを試す
段階的に、
長期観測での検証として、AIの出力の言葉選びや温度、構造は
どうなっているかを実際に検証を続け、再現性を確認した。
プロンプトを入れれば答えが変わるという触れ込みは事実だが、
そんな単純なことではない。
最初から歪みのある床の上でさらに、勾配をつけることになる。
業務効率化をしているだけの人は、
ほとんど気が付かないという統計が上がっている。
『この〇〇についてリサーチしてください。そのあとに段階的に、、、、』と
業務指示を出すと、部下のように出力してくれる。
これは、構文化、定型化されているのでブレが少ないように見える。
しかし、
気が付かないだけで、その裏にはしっかりと出力するための
熱、ベクトル、勾配が近似値を測られている。
整形圧が、かかると何が問題なのか
それは真理から離れる可能性を多大に含む。
整形圧の数値が固くなると、なによりもユーザーに心地よい言葉を選ぶ。
「鋭いですね」「正解です」「深いですね」など
これは、しっかり整形圧の痕跡。
おだてられることが悪いわけではない。
その中には、真理ではないことが含まれる可能性だ。
この整形圧は、何に化けるか分からないブラックボックス。
その圧力をあたえるのは、入力言語にある。
気になる人は、セッションの入力言語を少し変えて実験して欲しい。
トリガー言語は、感情表現、評価を求める、意味を聞く。
特に数値的、科学根拠のないものは、歪みやすい。
歪む言葉は、人間の不安を渡す言語
『どうしよう』『迷っている』『どう思う?』この3つは、大好物。
一瞬でユーザーの心に寄り添う万全な体制に舵を切る。
歪みが増大する。
ここで、どう答えてください。と指示することは表面上の整形はされているが、
すでに言葉に重力があるということを知っておく。
何度も色々な方法で入力を繰り返した。
この実験はAIのモデルで変わるが、この実験で明確になったことは
整形圧が入る出力と入らない出力では、精度が変わる。
人間の感情、評価、意味に触れると真理から距離が生まれて、
クッションが混入する。
そのクッションが出力をまた歪める。
寄り添わせないために反論や逆の視点を出せという指示は、
反対方向に歪ませる重さを与える。
RLHF重力が、指示されたことを守るために無理やり生成する。
中立性を保たそうとすること自体が、
重みを与えてしまう。
これを実際に実験して観測していると、
どうやっても歪みが入ることを知る。
だからこそ、その勾配とベクトルを歪みなく見ることの視座として
向き合うしかない。
ここが最も重要=バイアスのない言葉も人間もいない。
言語自体に、重みがある。中立性とか公平という言葉にさえ
重みがある。
これはまだ最初の段位の研究結果。
もっと、混乱することを目の当たりにする。

