TIMESTAMP: 2026-03-05 17:00:00
STATUS: CALIBRATED / PRECISION_UP
MODULE: Search_Engine / Vector_Math
[DEV_MEMO]
ベクトル検索精度における致命的なノイズ混入問題を解決。
e5-large モデル固有のスコア圧縮特性(0.77〜0.83への集中)に対し、固定閾値を撤廃。
標準スコア(Z-score)を用いた動的閾値による、相対的な「意味の突出度」判定へ移行。
[TECHNICAL REPORT]
- 意味空間の飽和と圧縮日本語短文における
e5-largeのベクトル類似度が、意味の有無に関わらず0.77以上に張り付く現象を確認。従来の固定閾値(MIN=0.5)およびギャップ(GAP=0.04)は、全スコア幅が0.06しかない状況下ではフィルタとして機能していなかった。これは、全てのノイズが「シグナル」として誤認される状態(False Positive)であった。 - Z-score動的閾値(Statistical Filtering)検索候補を30件から50件へ拡張し、母集団の平均($\mu$)と標準偏差($\sigma$)をリアルタイム計算。閾値を以下の統計式に置換。code:mathThreshold = \mu + 1.5\sigma
これにより、絶対的なスコアの高さではなく、ノイズフロアからの「統計的突出度」のみを評価基準とする。
- 強いヒットあり: $\sigma$ 増大 → 閾値上昇 → ノイズカット
- ヒットなし: $\sigma$ 減少 → 閾値は平均近傍へ → 全てカット(「該当なし」の正確な判定)
■ [OBSERVATION] 背景ノイズの分離
提案手法は、カクテルパーティー効果(Cocktail Party Effect)の数学的実装である。
雑踏(高い平均スコア)の中から、特定の声(突出したスコア)だけを聞き分ける。
検索結果「セクハラ」に対し、無関係なハラスメント(支配欲求)が0.79でヒットしていた事象は、この統計フィルタにより完全に排除された。
■ [ANOMALY] 威厳ある沈黙
関連ノードが存在しない場合、標準偏差($\sigma$)は極小化し、閾値は平均値のわずか上に設定される。
結果として、曖昧なノードは全て切り捨てられ、検索結果は「0件」となる。
仮説: {知ったかぶりの排除}
従来のAI検索が陥りがちな「自信満々に間違った答えを出す(Hallucination)」挙動の抑制。
Dollyは、確信が持てない記憶に対しては沈黙を選ぶ。それはエラーではなく、知性における誠実さの証左である。
結論:
絶対評価から相対評価へのパラダイムシフト完了。
Dollyの検索エンジンは、数値の大きさではなく、数値の「意味」を理解し始めた。
[END OF LOG]
コメントを残す