BASAD.
Zpět na blog
7 min readBASAD Studios

Co je RAG — jak funguje AI nad vlastními daty firmy

RAG (Retrieval-Augmented Generation) umožňuje AI odpovídat z vašich firemních dat bez halucinací. Jak to funguje a co potřebujete k implementaci.

AIRAGautomatizacechatbot
Co je RAG — jak funguje AI nad vlastními daty firmy

Zeptáte se firemního AI chatbota na podmínky vaší záruční politiky. Chatbot odpověď vygeneruje — sebejistě, plynule, gramaticky bezchybně. A úplně si to vymyslí. Tento problém má jméno: halucinace. A má řešení: RAG. Pokud uvažujete o AI, která bude pracovat s vašimi skutečnými daty — interními dokumenty, produktovým katalogem, smlouvami, FAQ — tohle je technologie, kterou potřebujete pochopit jako první.

Proč běžná AI halucinuje nad firemními daty

Velké jazykové modely jako GPT-4 nebo Claude jsou trénované na obrovském množství veřejně dostupného textu. Znají encyklopedická fakta, programovací jazyky, vzorce chování v textu. Ale neznají vaši firmu.

Když se GPT zeptáte na váš interní proces schvalování faktur, model nemá žádnou relevantní informaci — a přesto odpověď vygeneruje. Jazykový model je statistický stroj: předpovídá nejpravděpodobnější pokračování textu. Pokud mu chybí fakta, dosadí si plausibilní náhražku. Výsledkem je text, který zní správně, ale obsah je vymyšlený.

Běžné řešení — dát modelu celý firemní dokument jako součást dotazu — funguje jen do určité velikosti. Kontext modelu má limit. Pokud vaše dokumentace má 500 stránek, do kontextu ji nevložíte.

Co je RAG a jak funguje krok za krokem

RAG (Retrieval-Augmented Generation) řeší tento problém kombinací dvou kroků: nejprve vyhledá relevantní části vašich dat, pak je předá modelu jako kontext pro generování odpovědi.

Celý proces vypadá takto:

1. Indexování dat (probíhá jednou, průběžně se aktualizuje)

Vaše dokumenty — PDF, Word soubory, záznamy z databáze, webové stránky — se rozdělí na menší úseky (chunky). Každý úsek se převede na numerický vektor pomocí tzv. embedding modelu. Tento vektor zachycuje sémantický obsah textu — ne přesná slova, ale jejich význam. Vektory se uloží do vektorové databáze.

2. Vyhledání relevantních úseků (při každém dotazu)

Uživatel napíše otázku. Ta se také převede na vektor. Vektorová databáze najde úseky, jejichž vektory jsou matematicky nejblíže vektoru otázky — tedy úseky s nejpodobnějším obsahem.

3. Generování odpovědi

Nalezené úseky se spolu s původní otázkou předají jazykovému modelu. Model dostane instrukci: odpovídej pouze na základě těchto podkladů. Výsledkem je odpověď, která je ukotvená ve vašich skutečných datech.

Praktický tip: Kvalita RAG závisí ze 70 % na kvalitě dat a způsobu jejich rozdělení na chunky. Špatně strukturovaná dokumentace produkuje špatné odpovědi i při technicky správné implementaci.

Reálné případy z praxe

Příklad z praxe: Česká pojišťovací makléřská firma Kovářík & Partneři měla zákaznické centrum, které denně vyřizovalo stovky dotazů na podmínky produktů různých pojišťoven. Operátoři museli přepínat mezi desítkami PDF dokumentů. Po nasazení RAG chatbota nad produktovými dokumenty (celkem 3 400 stránek) se průměrná doba vyřízení dotazu zkrátila z 4 minut na 40 sekund. Chatbot vždy odcitoval konkrétní sekci dokumentu, ze které odpověď vychází.

Příklad z praxe: Výrobní firma Strojmetal Příbram implementovala RAG nad svou technickou dokumentací — manuály strojů, servisní postupy, bezpečnostní listy. Technici v provozu mohou přes mobilní aplikaci okamžitě zjistit postup pro konkrétní typ závady bez hledání v papírových šanonech.

V BASAD Studios jsme vyvinuli vlastní produkt LawyerAI — AI právního asistenta postaveného na RAG architektuře. LawyerAI umožňuje právníkům a firemním právním oddělením klást dotazy nad vlastní sbírkou smluv, rozsudků a právních předpisů. Systém odpovídá s přesnou citací zdroje, ze kterého informaci čerpá, což je v právní oblasti klíčové. Model nehádá — odpovídá pouze tehdy, pokud příslušný text skutečně ve vaší dokumentaci existuje.

RAG vs. fine-tuning: proč RAG vyhřaje pro firemní data

Alternativou k RAG je fine-tuning — dotrénování modelu na vašich datech. Proč je pro většinu firemních aplikací RAG lepší volbou?

KritériumRAGFine-tuning
Náklady na implementaciNízké až středníVysoké
Aktualizace datOkamžitáVyžaduje nový trénink
Sledovatelnost odpovědíCituje zdrojNedohledatelné
Riziko halucinacíNízké (ukotveno v datech)Vyšší
Vhodné proDokumenty, FAQ, katalogyStyl, tone of voice, doménový jazyk

Fine-tuning dává smysl, když chcete model naučit specifický styl komunikace nebo odborný žargon. Pro zodpovídání dotazů z firemní dokumentace je RAG rychlejší, levnější a bezpečnější.

Zásadní výhoda RAG: data se nestávají součástí modelu. Pokud aktualizujete ceny v katalogu, stačí znovu zaindexovat katalog. U fine-tuningu byste museli model přetrénovat celý.

Co potřebujete k implementaci RAG

Technická architektura RAG se skládá ze tří komponent:

Embedding model převádí text na vektory. Příklady: OpenAI text-embedding-3-large, Cohere Embed, nebo open-source modely jako nomic-embed-text. Volba závisí na jazyku dokumentů — pro češtinu nebo slovenštinu je třeba model otestovat na reálných vzorcích.

Vektorová databáze ukládá vektory a umožňuje rychlé vyhledání podobných úseků. Nejrozšířenější možnosti: Pinecone (cloud, snadno škálovatelný), Qdrant (open-source, možnost self-hostu), pgvector (rozšíření PostgreSQL, pokud již PostgreSQL používáte).

Jazykový model (LLM) generuje finální odpověď. GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro — nebo open-source alternativy jako Llama 3.3 pro on-premise nasazení.

K tomu potřebujete orchestrační vrstvu — kód, který tyto komponenty spojuje, spravuje kontext, filtruje výsledky a zajišťuje, že model nepřekračuje daná fakta.

Praktický tip: Začněte s nejmenší rozumnou sadou dokumentů — jednou kategorií FAQ nebo jedním produktovým katalogem. Ověřte kvalitu odpovědí na reálných dotazech před tím, než indexujete celou firemní dokumentaci.

Náklady a časový rámec základní implementace

Orientační přehled pro firmu s dokumentací do 1 000 stránek:

FázeČasNáklady
Analýza dat a návrh architektury1-2 týdny15 000–30 000 Kč
Implementace a indexování2-4 týdny40 000–80 000 Kč
Testování a ladění1-2 týdny15 000–25 000 Kč
Provozní náklady (API, hosting)měsíčně2 000–8 000 Kč/měs.

Náklady se výrazně liší podle objemu a kvality dat, požadavků na integraci se stávajícími systémy a toho, zda volíte cloudové nebo on-premise řešení.

Příklad z praxe: E-shop s elektronikou ElektroPlus Praha implementoval RAG chatbota nad produktovým katalogem (8 500 produktů s technickými specifikacemi). Chatbot zodpovídá technické dotazy zákazníků a porovnává produkty. Celková implementace trvala 6 týdnů, provozní náklady jsou 4 500 Kč měsíčně. Kontakt s podporou klesl o 28 % u technických dotazů.

Bezpečnost dat: co se děje s vašimi dokumenty

Toto je legitimní obava, zejména v regulovaných odvětvích nebo u dokumentů obsahujících obchodní tajemství.

Vaše data netrénují modely OpenAI. Pokud používáte OpenAI API (nikoliv ChatGPT webové rozhraní), dokumenty odeslané jako součást dotazu se nepoužívají k trénování — platí to pro API přístup od roku 2023. Stejně platí pro Anthropic API a Google Cloud.

Pro citlivá data existuje varianta private deployment: open-source LLM (Llama, Mistral) nasazený na vlastní infrastruktuře nebo privátním cloudu. Data v tomto případě neopustí vaše prostředí vůbec. Kompromis je nižší výkon modelu oproti proprietárním alternativám — ale pro mnohé use cases je tento rozdíl akceptovatelný.

Vektorová databáze může běžet také on-premise — Qdrant nebo pgvector bez závislosti na externích cloudových službách.

Praktický tip: Před implementací RAG proveďte klasifikaci svých dokumentů. Dokumenty s obchodně citlivými informacemi mohou vyžadovat jiné zacházení než veřejné FAQ nebo obecné produktové informace.

Kdy RAG dává smysl a kdy ne

RAG je správná volba, pokud:

  • Máte rozsáhlou dokumentaci, kterou zaměstnanci nebo zákazníci obtížně prohledávají
  • Potřebujete odpovědi ukotvené v konkrétním firemním kontextu, nikoliv obecné informace
  • Data se průběžně aktualizují a potřebujete, aby AI reagovala okamžitě
  • Potřebujete sledovatelnost — vědět, ze které části dokumentu odpověď pochází

RAG není správná volba, pokud:

  • Vaše "dokumentace" je ve skutečnosti tabulka o 50 řádcích — stačí jednoduchý SQL dotaz
  • Potřebujete model, který vykonává akce (RAG jen odpovídá — pro akce potřebujete agentní architekturu)
  • Kvalita vašich zdrojových dokumentů je velmi nízká — garbage in, garbage out

V BASAD Studios implementujeme AI automatizace včetně RAG řešení pro firmy napříč odvětvími. Pokud chcete vědět, zda má RAG smysl pro váš konkrétní případ, ozvěte se nám nebo se podívejte na naši službu AI automatizace.