🔧 Day 4 — Data Ingest Pipeline: Supabase Vector Store + Edit Fields

Minggu 2 · Hari 4 — Yellow Day (Integration) Topik: Pipeline ETL untuk RAG, node Edit Fields, setup Supabase (SQL, pgvector), integrasi n8n-Supabase, OpenAI Embeddings

📋 Daftar Isi

Recap RAG & Embedding
Dua Fase Membangun RAG
Business Challenge Minggu Ini
Data Ingest Pipeline
Setup Supabase
Integrasi n8n + Supabase
Rangkuman & Poin Penting

🔄 Recap RAG & Embedding

RAG dalam Satu Diagram

User bertanya ──▶ Vectorize pertanyaan ──▶ Cari di Vector DB ──▶ Ambil teks relevan
                   (Embedding Model)         (Similarity Search)       │
                                                                        ▼
                                                              Prompt + Konteks ──▶ LLM ──▶ Jawaban

Chunking

Chunking = proses memecah dokumen besar menjadi potongan-potongan lebih kecil yang masing-masing akan mendapat vektor sendiri. Prinsip utamanya:

Strategi	Deskripsi	Kapan Digunakan
Simple/Default	Pecah per ~1000 karakter dengan overlap	Default n8n, biasanya cukup
Semantic Chunking	Pecah berdasarkan kesamaan makna	Data kompleks, topik campur
Fixed Size	Pecah ukuran tetap (token/karakter)	Data terstruktur seragam
Paragraph-based	Pecah per paragraf/section	Dokumen dengan struktur jelas

💡 Prinsip Emas: "Satu-satunya prinsip sesungguhnya adalah — kamu harus mengujinya." Trial and error dengan pengukuran adalah kunci.

Traditional RAG vs Agentic RAG (Recap)

Traditional RAG: Linear — message → vector retrieval → LLM → jawaban
Agentic RAG: LLM mengontrol workflow, punya multiple tools (vector search, SQL, API, dll.), bisa iteratif

"RAG is dead" = Red herring. Agentic RAG adalah evolusi natural, bukan pengganti.

📐 Dua Fase Membangun RAG

╔══════════════════════════════════════════════════════════════════╗
║                                                                  ║
║   FASE 1: DATA INGEST (Hari ini)                                ║
║   ──────────────────────────                                     ║
║   ┌──────────┐  ┌───────────┐  ┌─────────┐  ┌───────────┐      ║
║   │ Extract  │─▶│ Transform │─▶│  Chunk  │─▶│ Vectorize │──┐   ║
║   │ (Google  │  │ (Edit     │  │ (Split  │  │ (OpenAI   │  │   ║
║   │  Sheets) │  │  Fields)  │  │  Text)  │  │ Embedding)│  │   ║
║   └──────────┘  └───────────┘  └─────────┘  └───────────┘  │   ║
║                                                              │   ║
║                                              ┌───────────┐  │   ║
║                                              │   Load    │◀─┘   ║
║                                              │ (Supabase │      ║
║                                              │  Vector   │      ║
║                                              │  Store)   │      ║
║                                              └───────────┘      ║
║                                                                  ║
║   FASE 2: QUESTION ANSWERING (Besok)                            ║
║   ──────────────────────────────────                             ║
║   ┌──────────┐  ┌───────────┐  ┌───────────┐  ┌──────────┐    ║
║   │  User    │─▶│ Vectorize │─▶│ Retrieve  │─▶│   LLM    │    ║
║   │ Question │  │ Question  │  │ from DB   │  │ + Context│    ║
║   └──────────┘  └───────────┘  └───────────┘  └──────────┘    ║
║                                                                  ║
╚══════════════════════════════════════════════════════════════════╝

ETL (Extract, Transform, Load) + Chunking & Vectorizing

Tahap	Apa Yang Terjadi	Tool/Node
Extract	Ambil data dari sumber	Google Sheets node
Transform	Ubah format data sesuai kebutuhan	Edit Fields (Set) node
Chunk	Pecah data jadi potongan kecil	Default Document Loader
Vectorize	Ubah teks menjadi vektor	OpenAI Embeddings node
Load	Simpan ke vector database	Supabase Vector Store node

💼 Business Challenge Minggu Ini

Skenario

Klien memiliki toko online aksesoris komputer dengan 60 produk di Google Sheets. Mereka butuh expert agent yang bisa menjawab pertanyaan detail tentang produk — scalable hingga 60.000+ produk.

Data Sumber: Google Sheet

Column	Contoh
Name	NovaKey Tactile Keyboard
Category	Keyboard
SKU	NK-TK-001
Price	129.99
Description	Premium mechanical keyboard with...

🔑 Kunci Pembelajaran: 60 produk hanyalah contoh. Pipeline yang sama bisa menangani 60.000 atau 600.000 produk. Itulah kekuatan RAG.

🔨 Data Ingest Pipeline

Workflow n8n

┌──────────────┐    ┌──────────────┐    ┌──────────────────────────────┐
│ Manual        │───▶│ Google       │───▶│ Supabase Vector Store        │
│ Trigger       │    │ Sheets       │    │ (Add documents)              │
│               │    │ (Get Rows)   │    │                              │
│               │    │              │    │  ┌────────────┐              │
│               │    │  60 items    │    │  │ Edit Fields│ ← Sub-node  │
│               │    │              │    │  │ (Transform)│   (Loader)   │
└──────────────┘    └──────────────┘    │  └────────────┘              │
                                        │  ┌────────────┐              │
                                        │  │ OpenAI     │ ← Sub-node  │
                                        │  │ Embeddings │  (Embedding) │
                                        │  └────────────┘              │
                                        └──────────────────────────────┘

Node Edit Fields (Transform)

Node Edit Fields (dulunya bernama "Set") adalah node krusial untuk data engineering — memetakan data dari format input ke format output yang diinginkan.

Konfigurasi Mapping

Kita membuat dua field output:

Field 1: content (String, Expression)

Product Name: {{ $json.name }}
Category: {{ $json.Category }}
SKU: {{ $json.SKU }}
Price: ${{ $json.Price }}
Description: {{ $json.Description }}

Field 2: category (String, Expression)

{{ $json.Category }}

Contoh Hasil Transform

json

{
  "content": "Product Name: NovaKey Tactile Keyboard\nCategory: Keyboard\nSKU: NK-TK-001\nPrice: $129.99\nDescription: Premium mechanical keyboard with tactile switches...",
  "category": "Keyboard"
}

💡 Mengapa format ini? Field content dirancang agar informatif jika diberikan ke LLM sebagai konteks. Field category adalah metadata yang bisa digunakan untuk filtering.

🗄️ Setup Supabase

Langkah 1: Buat Project

Login ke supabase.com
Buat New Project → nama: "rag"
Pilih compute size: Tiny (cukup untuk free tier)
Buat database password → simpan aman di password manager
Pilih region terdekat (atau terdekat ke n8n cloud)
Tunggu beberapa menit hingga setup selesai

Langkah 2: Enable pgvector Extension

Navigasi ke Database → Extensions
Cari "vector" → klik Enable extension
Extension pgvector sekarang aktif

Langkah 3: Jalankan SQL Script

Buka SQL Editor → paste dan jalankan script berikut:

sql

-- Script ini membuat tabel dan fungsi yang dibutuhkan n8n
-- Bisa di-generate ulang via ChatGPT jika perlu

CREATE TABLE knowledge_base (
  id         BIGSERIAL PRIMARY KEY,
  content    TEXT,
  metadata   JSONB,
  embedding  VECTOR(1536)         -- ← Dimensi harus cocok dengan model!
);

CREATE FUNCTION match_documents(...)
  -- Fungsi untuk similarity search yang kompatibel dengan n8n
  -- Menggunakan 1 - cosine_distance untuk format yang benar

⚠️ KRITIS — Dimensi Harus Cocok!

Embedding Model	Dimensi	Catatan
text-embedding-3-small (★)	1536	Default choice, murah
text-embedding-3-large	~3072	Lebih powerful, sedikit mahal
Gemini embedding	Varies	Cek dokumentasi
Open source	Varies	Gratis

Angka 1536 di SQL script harus sama persis dengan dimensi embedding model yang dipilih. Jika salah, akan error "mismatching dimensions".

💡 Tips: Script bisa dijalankan berulang kali (akan recreate tabel). Jika ganti model, cukup update angka dimensi dan jalankan ulang.

Langkah 4: Ambil Credentials

Project Settings → Data API → copy URL
Project Settings → API Keys → switch ke Legacy keys → copy service_role secret key (yang ditandai orange "secret")

⚠️ n8n belum mendukung format API key baru Supabase, jadi gunakan legacy keys.

🔗 Integrasi n8n + Supabase

Konfigurasi Supabase Vector Store Node

Cari node: "Supabase Vector Store"
Operation: Add documents to vector store
Credentials:
- Host: URL dari Supabase Data API
- Service Role Secret: Legacy API key
- Tekan Save → harus muncul ✅ hijau

Sub-node 1: Embedding Model

Parameter	Nilai
Provider	OpenAI Embeddings
Model	text-embedding-3-small
Dimensi	1536 (otomatis berdasarkan model)

Sub-node 2: Document Loader (Default Data Loader)

Parameter	Nilai
Mode	Load Specific Data
Data (Expression)	`{{ $json.content }}`
Text Splitter	Simple (default)
Chunk Size	1000 karakter (default)
Overlap	Default

Options → Metadata:

Property Name	Value (Expression)
category	`{{ $json.category }}`

Parameter Utama Vector Store

Parameter	Nilai
Table Name	knowledge_base

Eksekusi Pipeline

Execute Workflow → 60 items loaded → 60 items transformed → 60 documents vectorized → 60 rows in Supabase ✅

Verifikasi di Supabase

Navigasi ke Database → knowledge_base table:

id	content	metadata	embedding
1	"Product Name: NovaKey..."		[-0.023, 0.847, -0.15, ...]
2	"Product Name: ProType..."		[0.134, -0.562, 0.33, ...]
..	...	...	... (1536 angka per row)

Memperbaiki Kesalahan

Jika ditemukan typo (misalnya extra dollar sign di description):

Supabase: Select all → Delete 60 rows
n8n: Fix expression di Edit Fields node
Re-run: Execute workflow → 60 rows baru yang benar

💡 Keuntungan pipeline: Bisa di-rerun kapan saja dengan cepat. Perbaikan data hanya butuh hitungan detik.

📊 Rangkuman

Alur Lengkap Data Ingest

┌────────────────────────────────────────────────────────────────┐
│  EXTRACT          TRANSFORM         CHUNK+VECTORIZE    LOAD   │
│                                                                │
│  Google Sheets → Edit Fields → Default Loader   → Supabase   │
│  (60 products)   (content +    (simple split       (Vector   │
│                   category)     + OpenAI embed)     Store)   │
│                                                                │
│  Node: Google    Node: Edit    Sub-node dalam     Node:       │
│  Sheets (Get     Fields (Set)  Supabase Vector    Supabase    │
│  Rows)                         Store cluster      Vector Store│
└────────────────────────────────────────────────────────────────┘

Poin-Poin Utama

#	Konsep	Penjelasan
1	Edit Fields node	Node untuk data transformation/mapping (dulunya "Set")
2	Supabase setup	pgvector extension + SQL script + dimensi harus cocok
3	Legacy API keys	n8n belum dukung format baru Supabase
4	Node Cluster	Supabase Vector Store = cluster (embedding + loader sub-nodes)
5	Dimensi 1536	text-embedding-3-small → 1536 dimensi → SQL harus match
6	Pipeline reusable	Bisa di-trigger ulang, diubah trigger-nya (schedule, event)

Teknologi Hari Ini

┌─────────────────┬─────────────────────────────────┐
│ Teknologi       │ Peran                            │
├─────────────────┼─────────────────────────────────┤
│ Google Sheets   │ Sumber data produk (Extract)     │
│ n8n             │ Orchestration pipeline ETL       │
│ Edit Fields     │ Data transformation (Transform)  │
│ OpenAI Embed    │ Vectorization (text → 1536 dim)  │
│ Supabase        │ Vector database (Load & Store)   │
│ PostgreSQL      │ Database engine di balik Supabase│
│ pgvector        │ Extension untuk vector operations │
└─────────────────┴─────────────────────────────────┘

🏆 Pencapaian

╔══════════════════════════════════════════════════════════╗
║  ✅ Membangun data ingest pipeline end-to-end          ║
║  ✅ Menguasai Edit Fields node (data transformation)   ║
║  ✅ Setup Supabase: project, pgvector, SQL script      ║
║  ✅ Integrasi n8n ↔ Supabase credentials               ║
║  ✅ 60 produk ter-vectorize & tersimpan di Supabase    ║
║  ✅ Memahami dimensi embedding & konfigurasi           ║
║                                                          ║
║  📊 Progress Kursus: 60% ████████████░░░░░░░░          ║
╚══════════════════════════════════════════════════════════╝

Selanjutnya: Membangun Agentic RAG Question Answering + Voice Agent dengan ElevenLabs — proyek akhir Week 2!

🔧 Day 4 — Data Ingest Pipeline: Supabase Vector Store + Edit Fields ​

📋 Daftar Isi ​

🔄 Recap RAG & Embedding ​

RAG dalam Satu Diagram ​

Chunking ​

Traditional RAG vs Agentic RAG (Recap) ​

📐 Dua Fase Membangun RAG ​

ETL (Extract, Transform, Load) + Chunking & Vectorizing ​

💼 Business Challenge Minggu Ini ​

Skenario ​

Data Sumber: Google Sheet ​

🔨 Data Ingest Pipeline ​

Workflow n8n ​

Node Edit Fields (Transform) ​

Konfigurasi Mapping ​

Contoh Hasil Transform ​

🗄️ Setup Supabase ​

Langkah 1: Buat Project ​

Langkah 2: Enable pgvector Extension ​

Langkah 3: Jalankan SQL Script ​

Langkah 4: Ambil Credentials ​

🔗 Integrasi n8n + Supabase ​

Konfigurasi Supabase Vector Store Node ​

Sub-node 1: Embedding Model ​

Sub-node 2: Document Loader (Default Data Loader) ​

Parameter Utama Vector Store ​

Eksekusi Pipeline ​

Verifikasi di Supabase ​

Memperbaiki Kesalahan ​

📊 Rangkuman ​

Alur Lengkap Data Ingest ​

Poin-Poin Utama ​

Teknologi Hari Ini ​

🏆 Pencapaian ​