Kiedy pracownik wkleja do ChatGPT treść kontraktu, który dopiero ma być podpisany, dzieje się dokładnie to, czego nie chciałby szef firmy: dane opuszczają granice organizacji, trafiają na serwery amerykańskiego dostawcy, potencjalnie stają się częścią danych treningowych i w najgorszym scenariuszu mogą wypłynąć w odpowiedzi innemu użytkownikowi. Firmy w 2026 tracą tajemnice nie przez hakerów, tylko przez własnych pracowników używających AI bez świadomości konsekwencji.
W tym artykule pokazuję: jak faktycznie działa przetwarzanie danych w darmowych i firmowych wersjach AI, jakie konkretne zabezpieczenia trzeba wdrożyć, co mówią DPA dostawców, gdzie są granice RODO, jak używać DLP i kiedy warto self-hostować. Artykuł dla CIO, CISO, DPO i liderów IT w firmach, które już wdrożyły AI lub są w trakcie.
Realne zagrożenia: co się już wydarzyło
Samsung, kwiecień 2023
Inżynierowie Samsunga wkleili do ChatGPT wewnętrzny kod źródłowy i notatki ze spotkań. Dane trafiły na serwery OpenAI. Samsung odkrył incydent po kilku tygodniach, natychmiast zakazał publicznych narzędzi AI i zaczął budować własne wewnętrzne rozwiązanie. Koszt wewnętrzny incydentu: szacunkowo kilka milionów dolarów w utraconej przewadze technicznej.
Amazon, 2023
Amazon zakazał pracownikom używania ChatGPT po tym, jak wykryto, że model generuje odpowiedzi zawierające fragmenty kodu Amazona. Sugeruje to, że kod pracowników trafił do danych treningowych.
JPMorgan, Bank of America, Goldman Sachs
Największe banki zakazały pracownikom używania ChatGPT w pracy. Nie z obawy o technologię, tylko o kontrolę nad danymi klientów i compliance.
Polska kancelaria prawna, 2024
Młodszy prawnik wkleił do ChatGPT fragmenty tajemnicy adwokackiej z dużej sprawy gospodarczej, żeby przygotować podsumowanie. Sprawa wyszła na jaw przez wewnętrzny audyt. Konsekwencje: naruszenie tajemnicy zawodowej, postępowanie dyscyplinarne, utrata klienta.
Hakerzy są problemem, o którym wszyscy w firmie słyszeli. Własni pracownicy wklejający dane do AI są problemem, o którym nikt nie mówi głośno, bo trudno przyznać, że w firmie nie ma kontroli nad tym, co się dzieje.
Co się dzieje z danymi wklejonymi do AI
Po wklejeniu tekstu do narzędzia AI dane przechodzą kilka etapów:
- Transmisja — dane wysyłane szyfrowanym kanałem (HTTPS/TLS) do serwera dostawcy.
- Przetwarzanie — model AI generuje odpowiedź. Dane wejściowe są tymczasowo w pamięci serwera.
- Zapis — w większości wersji konsumenckich zapytanie i odpowiedź są zapisywane w historii konta.
- Ewentualne wykorzystanie do treningu — w darmowych wersjach OpenAI i Google domyślnie tak, chyba że wyłączyłeś.
- Backupy i logi — dane mogą być zachowane w backupach przez 30 dni do kilku lat.
Każdy z tych etapów to potencjalny punkt ekspozycji. Atak na dostawcę, błąd systemu, niedoświadczony administrator, błąd w izolacji kont — wszystko to może doprowadzić do wycieku danych wklejonych miesiące wcześniej.
Darmowe vs Enterprise: 5 kluczowych różnic
| Aspekt | Darmowe / Plus / Pro | Team / Enterprise / API |
|---|---|---|
| Trening na danych użytkownika | Domyślnie TAK (ChatGPT, Gemini) | NIE, umownie wykluczone |
| Zero data retention | Brak opcji | Możliwe na API |
| SOC 2 Type II | Brak lub ograniczone | TAK |
| DPA (Data Processing Agreement) | Brak lub standardowy | Negocjowalny, dostosowany do firmy |
| Admin controls i audit logs | Brak | Pełna kontrola admin + logi dostępu |
| Cena (USD/usr/msc) | 0-20 | 25-80+ |
Różnica 25-60 USD per użytkownik miesięcznie to w skali firmy wydatek rzędu kilkudziesięciu tysięcy złotych rocznie. Dla każdej firmy, która wykorzystuje AI do realnej pracy, jest to inwestycja nieporównywalna z ryzykiem incydentu.
Klasyfikacja danych: co wolno, a czego nie
Nie każdy fragment tekstu jest równie wrażliwy. Praktyczna klasyfikacja, którą wdrażamy u klientów:
Poziom 1: Publiczne (zielone)
Materiały marketingowe, case studies już publikowane, opisy produktów, posty blogowe. Wolno w każdym narzędziu AI, nawet darmowym.
Poziom 2: Wewnętrzne (żółte)
Wewnętrzne notatki, dokumenty operacyjne, procedury, draft'y tekstów. Tylko w narzędziach Enterprise/Team z umową DPA.
Poziom 3: Poufne (pomarańczowe)
Dane osobowe klientów i pracowników, dane finansowe, kod źródłowy, plany strategiczne. Tylko w narzędziach Enterprise z DPA + dodatkowe zabezpieczenia (DLP, szyfrowanie).
Poziom 4: Ściśle poufne (czerwone)
Tajemnice handlowe, dokumenty prawne w trakcie sporów, dane medyczne, dane biometryczne, plany fuzji i przejęć. Self-hosted AI albo w ogóle nie.
DPA i compliance: co musi się zgadzać
DPA (Data Processing Agreement) to umowa między administratorem danych (Twoja firma) a procesorem (dostawca AI). Wymagana przez RODO, gdy ten drugi przetwarza dane osobowe.
Co powinno być w DPA z dostawcą AI
- Lista danych, które będą przetwarzane.
- Cel i podstawa prawna przetwarzania.
- Lokalizacja serwerów (UE / USA / inne).
- Standardowe Klauzule Umowne (SCC) dla transferów poza UE.
- Zobowiązanie do nie używania danych do treningu.
- Czas retencji i procedura usunięcia.
- Obowiązek powiadomienia o naruszeniu w 24-72h.
- Prawo audytu po stronie firmy.
- Lista subprocesorów.
Dostępność DPA u głównych dostawców
- OpenAI: DPA dostępny dla Team, Enterprise i API. Darmowe i Plus — standardowy, niewystarczający dla danych osobowych.
- Anthropic: DPA dla Team, Enterprise i API. Zero data retention opcjonalne na API.
- Google (Gemini): DPA w ramach Google Workspace. Dobre pokrycie dla polskich firm.
- Microsoft (Copilot): DPA w ramach Microsoft 365. Najsilniejsze compliance dla firm europejskich.
DLP i kontrola techniczna
DPA i polityka to papier. Bez kontroli technicznej pracownicy nadal będą wklejali poufne dane do ChatGPT, bo zapomną albo nie zauważą. Narzędzia DLP (Data Loss Prevention) wykrywają i blokują takie próby.
Typy rozwiązań DLP dla AI
- Browser extensions DLP: Nightfall, Polymer, Prompt Security. Wykrywają wzorce danych wrażliwych (PII, numery kart, kod) przed wysłaniem do AI. Blokują lub anonimizują.
- Network DLP: integracja z firewallem lub proxy. Blokuje ruch do określonych domen AI z poziomu sieci firmowej.
- Endpoint DLP: Microsoft Purview, Symantec DLP. Monitoruje aktywność użytkownika na endpoincie.
- CASB (Cloud Access Security Broker): Netskope, Zscaler. Centralne zarządzanie dostępem do chmury AI.
Typowe wdrożenie DLP dla AI
- Blokada darmowych ChatGPT/Claude/Gemini na poziomie sieci.
- Dostęp wyłącznie do firmowych kont Enterprise (SSO).
- Browser extension skanująca prompty przed wysłaniem.
- Alert dla adminów przy próbach naruszenia.
- Audyt logów raz w tygodniu.
Self-hosting: kiedy ma sens
Self-hosting oznacza uruchomienie modeli AI na własnej infrastrukturze (on-prem lub w prywatnym środowisku cloud). Żadne dane nie opuszczają firmy.
Kiedy self-hosting ma sens
- Regulowana branża z danymi, które nie mogą wyjść z infrastruktury (banki, szpitale, obronność).
- Dane szczególnie wrażliwe (biometryczne, genetyczne, medyczne).
- Ogromny wolumen użycia API, przy którym koszt własnych GPU jest niższy niż licencje cloud.
- Wymagania air-gapped (środowiska bez dostępu do internetu).
Kiedy self-hosting NIE ma sensu
- Mała/średnia firma bez zespołu MLOps. Koszty infrastruktury i utrzymania przewyższają licencje.
- Standardowa praca biurowa. ChatGPT Enterprise w 100% wystarczy.
- Firmy, dla których szybkość iteracji jest ważniejsza niż kontrola nad modelem.
Opcje self-hostingu w 2026
- Llama 4 — open-source, Meta, jakość zbliżona do GPT-4o.
- DeepSeek V3/R1 — open-source, bardzo dobre reasoning, chiński dostawca (weights są OK, serwery hostowane nie).
- Qwen 3 — open-source od Alibaby, dobrze radzi sobie z językami.
- Mistral Large — europejski dostawca, silny nacisk na compliance.
Typowa infrastruktura dla średniej firmy: 2-4 GPU H100 lub A100 (koszt 200-400 tys. zł + chmura Azure/AWS), zespół MLOps (pół etatu), narzędzia orchestracji (vLLM, Text Generation Inference). Więcej o praktyce w osobnym artykule o RAG dla firmy.
Checklist bezpiecznego wdrożenia AI
Konkretna lista rzeczy, które muszą być zrobione, zanim pozwolisz pracownikom używać AI do danych firmowych:
- ☐ Polityka AI w firmie spisana i zatwierdzona przez zarząd (zob. osobny artykuł).
- ☐ Lista zatwierdzonych narzędzi — tylko Enterprise/Team, nie darmowe.
- ☐ Umowy DPA podpisane z każdym dostawcą.
- ☐ SSO (Single Sign-On) dla kont AI, blokada prywatnych kont.
- ☐ Klasyfikacja danych — każdy pracownik wie, co wolno wklejać.
- ☐ DLP browser extension lub network DLP wdrożone.
- ☐ Szkolenie pracowników z podpisem potwierdzającym.
- ☐ Proces zgłaszania incydentów (mail, formularz, SLA).
- ☐ Audyt logów minimum raz w miesiącu.
- ☐ Aktualizacja polityki co 6 miesięcy.
- ☐ Powiązanie z rejestrem czynności przetwarzania (RODO).
- ☐ Ocena ryzyka według AI Act dla systemów wysokiego ryzyka.
Więcej o tej tematyce w powiązanych tekstach: ryzyka wdrożenia AI w firmie i koszty wdrożenia AI. Jeśli chcesz audyt bezpieczeństwa AI w swojej firmie, zajmujemy się tym od strony technicznej i procesowej. Zobacz usługi automatyzacji AI lub porozmawiaj z nami.
FAQ
Czy dane wpisywane do ChatGPT są używane do trenowania modeli?
W darmowej i płatnej wersji Plus domyślnie tak, ale można to wyłączyć w ustawieniach (Data Controls). W wersjach Team, Enterprise i API nie, OpenAI gwarantuje umownie, że dane nie są używane do treningu. Claude domyślnie nie trenuje na danych użytkownika nawet w wersjach konsumenckich. Gemini Workspace i Microsoft Copilot trzymają dane w granicach tenantu organizacji.
Gdzie są serwery ChatGPT, Claude i Gemini?
OpenAI (ChatGPT): głównie USA, dla Enterprise dostępne również serwery w Europie. Anthropic (Claude): USA, dla Enterprise dostępne zone AWS/GCP w Europie. Google (Gemini): globalnie, Workspace trzyma dane w regionie klienta. Microsoft Copilot: w granicach geografii tenantu Microsoft 365. Dla polskich firm regulowanych często tylko wersje Enterprise z konkretną lokalizacją są akceptowalne.
Co wolno, a czego nie wolno wklejać do AI?
NIE WOLNO w darmowych narzędziach: danych osobowych klientów i pracowników, tajemnic handlowych, kodu źródłowego z własnością firmy, danych finansowych przed publikacją, informacji objętych klauzulą poufności. W wersjach Enterprise większość tych danych można wprowadzać zgodnie z DPA, ale dane szczególnie wrażliwe (medyczne, biometryczne) nadal wymagają dodatkowych zabezpieczeń lub self-hostingu.
Czy warto self-hostować modele AI?
Dla 80% firm nie. Koszty (infrastruktura GPU, MLOps, aktualizacje) są wyższe niż licencje Enterprise. Self-hosting ma sens gdy: (1) firma w mocno regulowanej branży (bank, szpital, obronność), (2) dane tak wrażliwe że nie mogą wyjść z infrastruktury firmy, (3) ogromny wolumen API, przy którym koszt własnych GPU się zwraca. Dla reszty firm ChatGPT Enterprise + DPA to najlepszy balans.
