AWS Generative AI Developer - Professional (AIP-C01) Study Notes

Amazon Bedrock — Core APIs

Selecting and invoking foundation models via Amazon Bedrock

Exam Domain

Foundation Model Integration is the largest domain at 31%. Bedrock API invocation, model selection, and Knowledge Bases are the most tested topics.

Bedrock Invocation APIs

API	Use Case	Key Details
InvokeModel	Single synchronous call	Returns full response; not streaming
InvokeModelWithResponseStream	Streaming response	Returns tokens as generated; lower perceived latency
Converse	Multi-turn conversation	Unified API across models; handles message history
ConverseStream	Streaming multi-turn	Converse + streaming combined
InvokeAgent	Bedrock Agent invocation	Multi-step task orchestration with tools
Retrieve	Knowledge Base RAG query	Returns chunks without generating a response
RetrieveAndGenerate	Knowledge Base RAG + LLM	Retrieves chunks and generates grounded response

Model Selection Criteria

Factor	Considerations
Capability	Reasoning, coding, multilingual, vision, long context
Cost	Price per 1K input/output tokens; On-demand vs Provisioned
Latency	Time-to-first-token; critical for real-time UX
Context window	How much text the model can process at once
Modalities	Text-only vs text+image vs text+image+document
Fine-tunability	Whether the model supports fine-tuning in Bedrock

Bedrock Knowledge Bases (RAG)

Ingestion: Upload documents → Bedrock chunks, embeds, and stores in vector DB
Vector stores: OpenSearch Serverless, Amazon Aurora pgvector, Pinecone, Redis, MongoDB Atlas
Embedding models: Amazon Titan Embeddings, Cohere Embed
Chunking strategies: Fixed-size, semantic, hierarchical
Retrieval: Semantic search returns top-K chunks by cosine similarity
Metadata filtering: Filter chunks by attributes (date, source, category)
RetrieveAndGenerate: Grounded response — KB chunks injected into prompt context

Exam Focus Areas

Converse API normalises prompt format across all Bedrock models — prefer it over InvokeModel for new apps
RAG vs fine-tuning: RAG for dynamic/frequently-updated data; fine-tuning for consistent style/format/domain adaptation
On-demand vs Provisioned Throughput: On-demand = pay per token; Provisioned = reserved capacity for consistent latency
Cross-region inference: Route requests to the lowest-latency region automatically

Prompt Engineering Techniques

Techniques for crafting effective prompts for foundation models

Prompting Strategies

Technique	Description	Best For
Zero-shot	Task description only, no examples	Simple, well-understood tasks
Few-shot	2–10 labeled examples in prompt	Tasks requiring format or style guidance
Chain-of-thought (CoT)	Prompt model to reason step-by-step	Multi-step reasoning, math, logic
System prompt	Sets persona, constraints, tone	Consistent behavior across turns
Retrieval augmentation	Inject relevant docs into context	Grounding responses in factual data
ReAct	Reason + Act interleaved	Agentic workflows with tool calls

Inference Parameters

Temperature (0–1): Higher = more creative/random; Lower = more deterministic
Top-P (nucleus sampling): Cumulative probability threshold for token selection
Top-K: Restrict sampling to top-K most probable tokens
Max tokens: Maximum length of generated response
Stop sequences: Strings that halt generation when encountered

Exam Focus Areas

Temperature=0 for deterministic outputs (classification, extraction)
Temperature=0.7–1.0 for creative tasks (content generation, brainstorming)
System prompt is the most effective way to enforce consistent model behavior
Prompt injection: User input that overrides system instructions — mitigate with Guardrails

AWS Generative AI Developer - Professional (AIP-C01) Study Notes

Amazon Bedrock — Core APIs

Selecting and invoking foundation models via Amazon Bedrock

Exam Domain

Foundation Model Integration is the largest domain at 31%. Bedrock API invocation, model selection, and Knowledge Bases are the most tested topics.

Bedrock Invocation APIs

API	Use Case	Key Details
InvokeModel	Single synchronous call	Returns full response; not streaming
InvokeModelWithResponseStream	Streaming response	Returns tokens as generated; lower perceived latency
Converse	Multi-turn conversation	Unified API across models; handles message history
ConverseStream	Streaming multi-turn	Converse + streaming combined
InvokeAgent	Bedrock Agent invocation	Multi-step task orchestration with tools
Retrieve	Knowledge Base RAG query	Returns chunks without generating a response
RetrieveAndGenerate	Knowledge Base RAG + LLM	Retrieves chunks and generates grounded response

Model Selection Criteria

Factor	Considerations
Capability	Reasoning, coding, multilingual, vision, long context
Cost	Price per 1K input/output tokens; On-demand vs Provisioned
Latency	Time-to-first-token; critical for real-time UX
Context window	How much text the model can process at once
Modalities	Text-only vs text+image vs text+image+document
Fine-tunability	Whether the model supports fine-tuning in Bedrock

Bedrock Knowledge Bases (RAG)

Ingestion: Upload documents → Bedrock chunks, embeds, and stores in vector DB
Vector stores: OpenSearch Serverless, Amazon Aurora pgvector, Pinecone, Redis, MongoDB Atlas
Embedding models: Amazon Titan Embeddings, Cohere Embed
Chunking strategies: Fixed-size, semantic, hierarchical
Retrieval: Semantic search returns top-K chunks by cosine similarity
Metadata filtering: Filter chunks by attributes (date, source, category)
RetrieveAndGenerate: Grounded response — KB chunks injected into prompt context

Exam Focus Areas

Converse API normalises prompt format across all Bedrock models — prefer it over InvokeModel for new apps
RAG vs fine-tuning: RAG for dynamic/frequently-updated data; fine-tuning for consistent style/format/domain adaptation
On-demand vs Provisioned Throughput: On-demand = pay per token; Provisioned = reserved capacity for consistent latency
Cross-region inference: Route requests to the lowest-latency region automatically

Prompt Engineering Techniques

Techniques for crafting effective prompts for foundation models

Prompting Strategies

Technique	Description	Best For
Zero-shot	Task description only, no examples	Simple, well-understood tasks
Few-shot	2–10 labeled examples in prompt	Tasks requiring format or style guidance
Chain-of-thought (CoT)	Prompt model to reason step-by-step	Multi-step reasoning, math, logic
System prompt	Sets persona, constraints, tone	Consistent behavior across turns
Retrieval augmentation	Inject relevant docs into context	Grounding responses in factual data
ReAct	Reason + Act interleaved	Agentic workflows with tool calls

Inference Parameters

Temperature (0–1): Higher = more creative/random; Lower = more deterministic
Top-P (nucleus sampling): Cumulative probability threshold for token selection
Top-K: Restrict sampling to top-K most probable tokens
Max tokens: Maximum length of generated response
Stop sequences: Strings that halt generation when encountered

Exam Focus Areas

Temperature=0 for deterministic outputs (classification, extraction)
Temperature=0.7–1.0 for creative tasks (content generation, brainstorming)
System prompt is the most effective way to enforce consistent model behavior
Prompt injection: User input that overrides system instructions — mitigate with Guardrails

Quick Feedback

AWS Generative AI Developer - Professional (AIP-C01) Study Notes

Exam Domain

Bedrock Invocation APIs

Model Selection Criteria

Bedrock Knowledge Bases (RAG)

Exam Focus Areas

Prompting Strategies

Inference Parameters

Exam Focus Areas

AWS Generative AI Developer - Professional (AIP-C01) Study Notes

Exam Domain

Bedrock Invocation APIs

Model Selection Criteria

Bedrock Knowledge Bases (RAG)

Exam Focus Areas

Prompting Strategies

Inference Parameters

Exam Focus Areas