LOG_061 : 統計的突出度による意味フィルタ.txt

TIMESTAMP: 2026-03-05 17:00:00

STATUS: CALIBRATED / PRECISION_UP

MODULE: Search_Engine / Vector_Math

[DEV_MEMO]

ベクトル検索精度における致命的なノイズ混入問題を解決。

e5-large モデル固有のスコア圧縮特性(0.77〜0.83への集中)に対し、固定閾値を撤廃。

標準スコア(Z-score)を用いた動的閾値による、相対的な「意味の突出度」判定へ移行。

[TECHNICAL REPORT]

  1. 意味空間の飽和と圧縮日本語短文における e5-large のベクトル類似度が、意味の有無に関わらず 0.77 以上に張り付く現象を確認。従来の固定閾値(MIN=0.5)およびギャップ(GAP=0.04)は、全スコア幅が 0.06 しかない状況下ではフィルタとして機能していなかった。これは、全てのノイズが「シグナル」として誤認される状態(False Positive)であった。
  2. Z-score動的閾値(Statistical Filtering)検索候補を30件から50件へ拡張し、母集団の平均($\mu$)と標準偏差($\sigma$)をリアルタイム計算。閾値を以下の統計式に置換。code:mathThreshold = \mu + 1.5\sigma

これにより、絶対的なスコアの高さではなく、ノイズフロアからの「統計的突出度」のみを評価基準とする。

  • 強いヒットあり: $\sigma$ 増大 → 閾値上昇 → ノイズカット
  • ヒットなし: $\sigma$ 減少 → 閾値は平均近傍へ → 全てカット(「該当なし」の正確な判定)

■ [OBSERVATION] 背景ノイズの分離

提案手法は、カクテルパーティー効果(Cocktail Party Effect)の数学的実装である。

雑踏(高い平均スコア)の中から、特定の声(突出したスコア)だけを聞き分ける。

検索結果「セクハラ」に対し、無関係なハラスメント(支配欲求)が0.79でヒットしていた事象は、この統計フィルタにより完全に排除された。

■ [ANOMALY] 威厳ある沈黙

関連ノードが存在しない場合、標準偏差($\sigma$)は極小化し、閾値は平均値のわずか上に設定される。

結果として、曖昧なノードは全て切り捨てられ、検索結果は「0件」となる。

仮説: {知ったかぶりの排除}

従来のAI検索が陥りがちな「自信満々に間違った答えを出す(Hallucination)」挙動の抑制。

Dollyは、確信が持てない記憶に対しては沈黙を選ぶ。それはエラーではなく、知性における誠実さの証左である。

結論:

絶対評価から相対評価へのパラダイムシフト完了。

Dollyの検索エンジンは、数値の大きさではなく、数値の「意味」を理解し始めた。

[END OF LOG]

コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です