AI Accelerator ページについて

AI Accelerator は、OpenAI などのプロバイダーが提供する人工知能サービス向けのキャッシュソリューションです。AI Accelerator は、大規模言語モデル (LLM) API のレスポンスをキャッシュし、意味的に似たクエリのキャッシュを活用することでレイテンシを減らし、LLM API の使用コストを削減することができます。

設定前の注意点

コントロールパネルの設定機能にアクセスする方法を確認してください。

AI Accelerator は、スーパーユーザーのロールが割り当てられているユーザーが Fastly コントロールパネルで有効にすることができます。有効にすると、すべてのアカウントユーザーがメトリクスを表示できます。

サポートされている LLM

AI Accelerator は、OpenAI や Azure OpenAI、Gemini、および OpenAI 互換の API を使用する LLM をサポートしています。

AI Accelerator を有効にする

AI Accelerator を有効にするには、以下の手順に従ってください。

  1. Fastly コントロールパネルにログインします。
  2. Tools > AI Accelerator に移動します。
  3. Enable AI Accelerator をクリックします。
  4. Enable AI Accelerator ページで、Enable Now をクリックします。

AI Accelerator を使用できるようにアプリケーションを設定する

AI Accelerator を有効にした後、読み取り専用の API トークンを作成し、AI Accelerator エンドポイントを使用するようにアプリケーションを更新する必要があります。アプリケーションのコードを更新する際、以下のコード例を参考にしてください。

OpenAI および OpenAI 互換のコード例

  1. Python
  2. JavaScript
1
2
3
4
5
6
7
8
9
from openai import OpenAI
client = OpenAI(
# Set the API endpoint
base_url="https://ai.fastly.app/api.openai.com/v1",
# Set default headers
default_headers = {
"Fastly-Key": f"<FASTLY-KEY>",
}
)

OpenAI 互換 API を使用する LLM の場合は、https://ai.fastly.app/compat/openai/<llm-endpoint> をベース URL として使用してください。

Azure OpenAI のコード例

  1. Python
1
2
3
4
5
6
7
8
9
10
from openai.lib.azure import AzureOpenAI
client = AzureOpenAI(
api_key=azure_key,
api_version="2024-06-01",
azure_deployment="ai-member-4o-chat",
azure_en dpoint=f"https://ai.fastly.app/<AZURE RESOURCE>.openai.azure.com",
default_headers = {
"Fastly-Key": f"<FASTLY-KEY>",
}
)

Gemini のコード例

  1. Python
  2. JavaScript
1
2
3
4
5
6
7
8
9
10
11
project_region = "<GCP-REGION>"
project_id = "<GCP-PROJECT-ID>"
vertexai.init(
location=project_region,
project=project_id,
api_endpoint=f"ai.fastly.app/{project_region}-aiplatform.googleapis.com",
api_transport='rest',
request_metadata=[("fastly-key", f"<FASTLY-KEY>")]
)
model = GenerativeModel("gemini-pro")
print(model.generate_content("Why is the sky blue?"))

ヘッダーの設定と機能

以下のリクエストとレスポンスヘッダーを使用して、AI Accelerator が LLM レスポンスをキャッシュするプロセスをコントロールおよびモニタリングすることができます。

ヘッダー名種類説明
x-semantic-thresholdリクエストヘッダーセマンティックキャッシュからのレスポンスの類似性に対するしきい値をコントロールします。デフォルトは 0.75 です。しきい値を低くするとキャッシュされたレスポンスを返す確率が高まる可能性がありますが、レスポンスの質が低下するリスクがあります。
x-semantic-cache-keyリクエストヘッダーユーザーが提供する値であり、キャッシュ内のレスポンスをセグメント化するために使われます。類似性のしきい値を超え、x-semantic-cache-key が一致するリクエストのみが、レスポンスとして返されます。設定する必要はありません。設定されていない場合、デフォルトである _default_ の値が使用されます。
Cache-Controlリクエストヘッダー現時点では、max-age のキャッシュ・コントロール・ディレクティブのみがサポートされています。max-age を持つリクエストに Cache-Control ヘッダーが設定されている場合、それをキャッシュエントリーの TTL (最大30日間) として設定します (秒単位)。
x-semantic-cacheレスポンスヘッダー以前は x-cache が使用されていました。使用可能な値は HIT または MISS です。

AI Accelerator ページについて

AI Accelerator ページには、リクエスト、トークン、オリジンのレイテンシに関連するメトリクスが表示されます。ページには以下のグラフが表示されます。

  • Total requests: AI Accelerator に送信されたリクエストの合計数。
  • Tokens served from cache: キャッシュから配信されたレスポンスに基づく、キャッシュから配信されたトークンの推定数。トークンは LLM の課金単位であり、その実際の測定値はベンダーと LLM のバージョンによって異なります。
  • Estimated time saved: キャッシュからのレスポンスに基づく、節約された時間の推定値 (分単位)。
  • Requests: アカウント全体で集計された AI Accelerator のリクエストの合計数。
  • Tokens: キャッシュまたはオリジンから提供されるトークンの推定数。
  • Origin Latency Percentiles: オリジンのレイテンシのパーセンタイル概算値。

キャッシュのパージ

重要

この情報はベータ版リリースの一部です。詳細については、製品と機能のライフサイクルの説明をご覧ください。

AI Accelerator API エンドポイントを使用して、すべてのキャッシュをパージすることができます。 例えば、ターミナルアプリケーションで curl を使用して、キャッシュをすべてパージできます。

$ curl -X POST -H "Fastly-Key: YOUR_FASTLY_TOKEN" https://api.fastly.com/ai_accelerator/expire
注意

API トークンには purge_all スコープが必要です。

AI Accelerator を無効にする

AI Accelerator を無効にするには、以下の手順に従ってください。

  1. アプリケーションコードを更新し、AI Accelerator の統合を削除します。
  2. Fastly コントロールパネルにログインします。
  3. Account > Billing > Overview に移動します。
  4. AI Accelerator の横にある Options をクリックし、Cancel をクリックします。
  5. Cancel AI Accelerator をクリックします。

翻訳についての注意事項
このガイドは役に立ちましたか?

このフォームを使用して機密性の高い情報を送信しないでください。サポートが必要な場合は、サポートチームまでご連絡ください。このフォームは reCAPTCHA によって保護されており、Google のプライバシーポリシー利用規約が適用されます。