AI Accelerator ページについて

最終更新日 2025-01-27

AI Accelerator は、OpenAI などのプロバイダーが提供する人工知能サービス向けのキャッシュソリューションです。AI Accelerator は、大規模言語モデル (LLM) API のレスポンスをキャッシュし、意味的に似たクエリのキャッシュを活用することでレイテンシを減らし、LLM API の使用コストを削減することができます。

設定前の注意点

コントロールパネルの設定機能にアクセスする方法を確認してください。

AI Accelerator は、スーパーユーザーのロールが割り当てられているユーザーが Fastly コントロールパネルで有効にすることができます。有効にすると、すべてのアカウントユーザーがメトリクスを表示できます。

サポートされている LLM

AI Accelerator は、OpenAI や Azure OpenAI、Gemini、および OpenAI 互換の API を使用する LLM をサポートしています。

AI Accelerator を有効にする

AI Accelerator を有効にするには、以下の手順に従ってください。

Fastly コントロールパネルにログインします。
Tools > AI Accelerator に移動します。
Enable AI Accelerator をクリックします。
Enable AI Accelerator ページで、Enable Now をクリックします。

AI Accelerator を使用できるようにアプリケーションを設定する

AI Accelerator を有効にした後、読み取り専用の API トークンを作成し、AI Accelerator エンドポイントを使用するようにアプリケーションを更新する必要があります。アプリケーションのコードを更新する際、以下のコード例を参考にしてください。

OpenAI および OpenAI 互換のコード例

Python
JavaScript

from openai import OpenAI
client = OpenAI(
# Set the API endpoint
base_url="https://ai.fastly.app/api.openai.com/v1",
   # Set default headers
   default_headers = {
    "Fastly-Key": f"<FASTLY-KEY>",
   }
)

OpenAI 互換 API を使用する LLM の場合は、https://ai.fastly.app/compat/openai/<llm-endpoint> をベース URL として使用してください。

Azure OpenAI のコード例

Python

from openai.lib.azure import AzureOpenAI
client = AzureOpenAI(
    api_key=azure_key,
    api_version="2024-06-01",
    azure_deployment="ai-member-4o-chat",
azure_en dpoint=f"https://ai.fastly.app/<AZURE RESOURCE>.openai.azure.com",
default_headers = {
    "Fastly-Key": f"<FASTLY-KEY>",
   }
)

Gemini のコード例

Python
JavaScript

project_region = "<GCP-REGION>"
project_id = "<GCP-PROJECT-ID>"
vertexai.init(
location=project_region,
      project=project_id,
  api_endpoint=f"ai.fastly.app/{project_region}-aiplatform.googleapis.com",
      api_transport='rest',
      request_metadata=[("fastly-key", f"<FASTLY-KEY>")]
)
model = GenerativeModel("gemini-pro")
print(model.generate_content("Why is the sky blue?"))

ヘッダーの設定と機能

以下のリクエストとレスポンスヘッダーを使用して、AI Accelerator が LLM レスポンスをキャッシュするプロセスをコントロールおよびモニタリングすることができます。

ヘッダー名	種類	説明
`x-semantic-threshold`	リクエストヘッダー	セマンティックキャッシュからのレスポンスの類似性に対するしきい値をコントロールします。デフォルトは `0.75` です。しきい値を低くするとキャッシュされたレスポンスを返す確率が高まる可能性がありますが、レスポンスの質が低下するリスクがあります。
`x-semantic-cache-key`	リクエストヘッダー	ユーザーが提供する値であり、キャッシュ内のレスポンスをセグメント化するために使われます。類似性のしきい値を超え、`x-semantic-cache-key` が一致するリクエストのみが、レスポンスとして返されます。設定する必要はありません。設定されていない場合、デフォルトである `_default_` の値が使用されます。
`x-settings-overrides`	リクエストヘッダー	セマンティックキャッシュの有効化または無効化を設定します。デフォルトは `{"semantic_cache_enabled": true}` です。
`Cache-Control`	リクエストヘッダー	現時点では、`max-age` のキャッシュ・コントロール・ディレクティブのみがサポートされています。`max-age` を持つリクエストに `Cache-Control` ヘッダーが設定されている場合、それをキャッシュエントリーの TTL (最大30日間) として設定します (秒単位)。
`x-semantic-cache`	レスポンスヘッダー	以前は `x-cache` が使用されていました。使用可能な値は `HIT` または `MISS` です。