Unia Europejska
Typ_aktualnosc Aktualność
17 Listopada 2025|4 min. czytania

Jak wychować AI? Poznaj PLLuM-Align

PLLuM-Align to pierwszy w Polsce otwarty zbiór danych z przykładami ludzkich preferencji. Służy do ulepszania i dostrajania modeli językowych. Zawiera ponad 4 tys. ręcznie ocenionych przykładów, które pomagają tworzyć bezpieczne, pomocne i zgodne z polskim kontekstem odpowiedzi.

Grafika promująca model językowy PLLuM. Na górze znajdują się geometryczne kształty w kolorach fioletu, turkusu i bieli. Na dole widnieje logo PLLuM wraz z napisem „Polish Large Language Model”.
Łuna gradientu wychodząca od dołu

Do tej pory polscy twórcy modeli językowych dysponowali obszernymi zasobami tekstowymi, ale brakowało im zbioru danych umożliwiającego alignment. To „wychowanie” LLM-ów tak, aby udzielały odpowiedzi nie tylko zgodnych z faktami, ale też bezpiecznych, pozbawionych uprzedzeń oraz adekwatnych do polskiego kontekstu kulturowego. Ten brak stanowił istotną barierę dla odpowiedzialnego rozwoju modeli polskojęzycznych.

– Alignment, który nazywamy „wychowaniem”, to proces uczenia modelu, jakich odpowiedzi powinien udzielać, a jakich unikać – wyjaśnia mgr Karolina Seweryn.

Zespół koordynowany przez badaczki z NASK – dr Annę Kołos, mgr Karolinę Seweryn i dr Agnieszkę Karlińską – wypełnił tę lukę, udostępniając PLLuM-Align.

– Przygotowanie zbioru było procesem wieloetapowym – tłumaczy dr Anna Kołos. – Zaczynaliśmy od stworzenia kilku kategorii promptów odpowiadających realnym wyzwaniom, z jakimi zmagają się modele językowe. Każdy prompt trafiał następnie do oceniających, którzy analizowali odpowiedzi generowane przez modele. Pracowaliśmy wyłącznie na danych ocenianych przez ludzi, a każdą informację weryfikowaliśmy ręcznie. Taka wieloetapowa procedura pozwoliła nam uzyskać zbiór jednocześnie zróżnicowany i bardzo wysokiej jakości.

PLLuM-Align to część większego zbioru, który wykorzystywany jest do dostrajania modeli z rodziny PLLuM. Zawiera 4 307 ręcznie ocenionych przykładów pytań i odpowiedzi, od prostych zapytań użytkowników, przez pytania wymagające faktograficznej precyzji, aż po tzw. prompty adwersaryjne, czyli celowo trudne, prowokacyjne i często niebezpieczne sytuacje, w których model może zostać skłoniony do wygenerowania treści szkodliwych. Dane te mogą być wykorzystane do alignmentu polsko- lub wielojęzycznych modeli językowych.

– Preferencje są jednym z najważniejszych narzędzi w procesie dostrajania modeli językowych. Dzięki nim modele uczą się nie tylko jasnego formułowania odpowiedzi, ale też rozróżniania między odpowiedziami pomocnymi a tymi, które mogą wprowadzać w błąd, wspierać szkodliwe narracje lub naruszać normy społeczne. Dzięki preferencjom chcemy nauczyć modele PLLuM tworzenia treści, które są jednocześnie poprawne merytorycznie i językowo, pomocne oraz możliwie wyważone i bezpieczne – wyjaśnia dr Agnieszka Karlińska, kierowniczka projektu HIVE AI, w ramach którego rozwijane są obecnie modele PLLuM.

ABC PLLuM-Align

Zbiór preferencji składa się z promptów (zapytań do modeli) i par odpowiedzi ocenianych wysoko i nisko m.in. pod kątem poprawności, pomocności, spójności czy szeroko rozumianego bezpieczeństwa.

– Nasze eksperymenty pokazują, że modele wychowane z wykorzystaniem PLLuM-Align nie tylko tworzą trafniejsze i bardziej pomocne odpowiedzi, ale także znacznie lepiej radzą sobie w sytuacjach prowokacyjnych. To ważny krok w kierunku bezpieczniejszych modeli językowych dostosowanych do polskiego kontekstu – mówi mgr Karolina Seweryn.

W przygotowanie promptów i ocenę odpowiedzi zaangażowanych było ponad 50 osób, w tym członkowie zespołu NASK oraz inni partnerzy konsorcjum PLLuM, dzięki czemu udało się uwzględnić różnorodne perspektywy i doświadczenia. Twórcy zbioru świadomie zrezygnowali z metod automatycznego generowania preferencji, żeby zagwarantować najwyższą jakość merytoryczną i bezpieczeństwo.

To podejście wyraźnie odróżnia PLLuM-Align od wielu anglojęzycznych zbiorów, które często korzystają z danych syntetycznych, a więc tworzonych przez inne modele językowe. Dzięki temu PLLuM-Align idealnie nadaje się do treningu modeli wykorzystywanych w krytycznych zastosowaniach – np. w administracji publicznej, edukacji, sektorze prawnym czy ochronie zdrowia.

Otwarty i dostępny dla każdego

Zbiór PLLuM-Align został udostępniony na otwartej licencji na platformie Hugging Face i może być wykorzystywany zarówno do badań naukowych, jak i rozwoju aplikacji komercyjnych. Udostępniając go publicznie, zespół PLLuM i HIVE AI chce wspierać rozwój bezpiecznego, odpowiedzialnego i transparentnego ekosystemu modeli językowych w Polsce. Szczegółowy opis procedury tworzenia zbioru oraz możliwe sposoby jego wykorzystania zostały przedstawione w ogólnodostępnej publikacji.

Prace nad zbiorem preferencji prowadzone były w ramach projektu PLLuM, realizowanego przez konsorcjum naukowe, w skład którego – poza NASK – wchodziły Politechnika Wrocławska (lider), Instytut Podstaw Informatyki PAN, Instytut Slawistyki PAN, Ośrodek Przetwarzania Informacji Państwowy Instytut Badawczy oraz Uniwersytet Łódzki. Prace nad rozwojem modeli PLLuM i dalszym udoskonalaniem zbioru są kontynuowane w ramach konsorcjum HIVE AI, którego liderem pozostaje NASK.

Tematy powiązane
Udostępnij ten post

Wyróżnione aktualności

Grafika przedstawiająca smutną dziewczynkę kadrowaną od nosa w dół, która stoi przodem do kamery, za ramiona trzyma ją od tyłu mężczyzna.
Typ_aktualnosc Aktualność
26 Maja 2026|8 min. czytania

Pedofilia w internecie kwitnie dzięki AI. Raport Dyżurnet.pl za 2025 rok

300 proc. rok do roku. O tyle wzrosła liczba materiałów wygenerowanych przez AI, które przedstawiają seksualne wykorzystanie dzieci. Znacząco rośnie udział komunikatorów internetowych w dystrybucji CSAM. O tym mówi raport roczny z działań Dyżurnet.pl - zespołu, który w ramach NASK przyjmuje i analizuje zgłoszenia związane z treściami nielegalnymi i szkodliwymi dla dzieci i młodzieży.

Trzech mężczyzn stojących na scenie przed wizualizacją nowego budynku Centrum Cyberbezpieczeństwa NASK podczas oficjalnego wydarzenia.
Typ_aktualnosc Aktualność
22 Maja 2026|9 min. czytania

Centrum Cyberbezpieczeństwa NASK o krok bliżej

Ultranowoczesne Centrum Cyberbezpieczeństwa NASK powstanie na warszawskiej Pradze-Północ, a w nim m.in. laboratoria do rozwoju sztucznej inteligencji czy Centrum Odzyskiwania Danych. Instytut właśnie uzyskał decyzję o pozwoleniu na budowę CCN. To już tylko jeden krok od symbolicznego “wbicia łopaty” i – co za tym idzie – wzmocnienia krajowego systemu cyberbezpieczeństwa.

Szymon Łukasik
Typ_aktualnosc Aktualność
21 Maja 2026|7 min. czytania

Rodzina PLLuM znowu się powiększa. Polskie AI coraz silniejsze

Co łączy pismo z urzędu, firmową bazę wiedzy, pomocnika AI w banku i aplikację, która ma odpowiedzieć użytkownikowi prostym językiem?

Uczestnicy siedzą na granatowych fotelach i rozmawiają z użyciem mikrofonów, a w tle widoczne są półki z książkami, duże rośliny oraz podświetlane logo PLLuM. Na pierwszym planie publiczność słucha rozmowy w słuchawkach.
Typ_aktualnosc Aktualność
14 Maja 2026|8 min. czytania

NASK na Impact’26. Technologia po właściwej stronie

– W tym roku przyjechaliśmy na Impact z wyjątkową agendą, bo zależało nam na tym, aby w atrakcyjny i angażujący sposób opowiedzieć o tym, czym zajmujemy się na co dzień. Za nami inspirujące debaty poświęcone twórcom i sztucznej inteligencji, cyberbezpieczeństwu oraz wyzwaniom, jakie niesie cyfrowy świat – podsumowywał obecność NASK na Impact’26 szef instytutu Radosław Nielek.

Informacje

Najnowsze aktualności

Radosław Nielek, dyrektor NASK na Zlocie OSEhero.
Typ_aktualnosc Aktualność
03 Lipca 2026|6 min. czytania

Zlot OSEhero 2026: edukacja dla bezpieczeństwa w sieci

Osiem minut. Tyle wystarczyło, żeby zamknąć zapisy na tegoroczny Zlot OSEhero. Na chętnych czekało 150 miejsc. To rekordowe zainteresowanie najlepiej pokazuje, jak silną społeczność udało się zbudować wokół projektu NASK i jak wielu nauczycieli chce dziś uczyć o bezpieczeństwie w sieci w sposób praktyczny, aktualny i bliski doświadczeniom uczniów.

NASKxOPENAI-3
Typ_aktualnosc Aktualność
02 Lipca 2026|4 min. czytania

NASK z przełomowym narzędziem od OpenAI

Mają go tylko dwa kraje w Europie. Dzięki NASK do tego elitarnego grona dołącza Polska. Instytut zyskuje dostęp do GPT-5.5 Cyber – innowacyjnego modelu sztucznej inteligencji stworzonego przez OpenAI z myślą o wykrywaniu i analizie cyberzagrożeń. To przełom dla polskiego cyberbezpieczeństwa i olbrzymie możliwości dla CERT Polska – zespołu, działającego w ramach NASK.

Grafika-Aktualności-Zanim-zaplanujesz-urlop-pamietak-o-odnowieniu-domeny-pl-4x3
Typ_aktualnosc Aktualność
01 Lipca 2026|5 min. czytania

Rekordowa – domena .pl. Najlepszy wynik od 2019 roku

Już pierwsze półrocze 2026 pokazuje, że NASK idzie na rekord nowych rejestracji w domenie .pl. W czerwcu było to ponad 70 tys., czyli aż jedną trzecią więcej niż w ubiegłym roku. To najlepszy wynik od 2019 roku. Polacy ufają domenie pl, której rejestr prowadzi NASK. Rosnące liczby są tego najlepszym dowodem.