LOG_061 : 統計的突出度による意味フィルタ.txt

執筆者:

カテゴリ:

TIMESTAMP: 2026-03-05 17:00:00

STATUS: CALIBRATED / PRECISION_UP

MODULE: Search_Engine / Vector_Math

[DEV_MEMO]

ベクトル検索精度における致命的なノイズ混入問題を解決。

e5-large モデル固有のスコア圧縮特性（0.77〜0.83への集中）に対し、固定閾値を撤廃。

標準スコア（Z-score）を用いた動的閾値による、相対的な「意味の突出度」判定へ移行。

[TECHNICAL REPORT]

意味空間の飽和と圧縮日本語短文における e5-large のベクトル類似度が、意味の有無に関わらず 0.77 以上に張り付く現象を確認。従来の固定閾値（MIN=0.5）およびギャップ（GAP=0.04）は、全スコア幅が 0.06 しかない状況下ではフィルタとして機能していなかった。これは、全てのノイズが「シグナル」として誤認される状態（False Positive）であった。
Z-score動的閾値（Statistical Filtering）検索候補を30件から50件へ拡張し、母集団の平均（$\mu$）と標準偏差（$\sigma$）をリアルタイム計算。閾値を以下の統計式に置換。code:mathThreshold = \mu + 1.5\sigma

これにより、絶対的なスコアの高さではなく、ノイズフロアからの「統計的突出度」のみを評価基準とする。

■ [OBSERVATION] 背景ノイズの分離

提案手法は、カクテルパーティー効果（Cocktail Party Effect）の数学的実装である。

雑踏（高い平均スコア）の中から、特定の声（突出したスコア）だけを聞き分ける。

検索結果「セクハラ」に対し、無関係なハラスメント（支配欲求）が0.79でヒットしていた事象は、この統計フィルタにより完全に排除された。

■ [ANOMALY] 威厳ある沈黙

関連ノードが存在しない場合、標準偏差（$\sigma$）は極小化し、閾値は平均値のわずか上に設定される。

結果として、曖昧なノードは全て切り捨てられ、検索結果は「0件」となる。

仮説: {知ったかぶりの排除}

従来のAI検索が陥りがちな「自信満々に間違った答えを出す（Hallucination）」挙動の抑制。

Dollyは、確信が持てない記憶に対しては沈黙を選ぶ。それはエラーではなく、知性における誠実さの証左である。

結論：

絶対評価から相対評価へのパラダイムシフト完了。

Dollyの検索エンジンは、数値の大きさではなく、数値の「意味」を理解し始めた。

[END OF LOG]

コメント