Unia Europejska
Typ_aktualnosc Aktualność
17 Listopada 2025|4 min. czytania

Jak wychować AI? Poznaj PLLuM-Align

PLLuM-Align to pierwszy w Polsce otwarty zbiór danych z przykładami ludzkich preferencji. Służy do ulepszania i dostrajania modeli językowych. Zawiera ponad 4 tys. ręcznie ocenionych przykładów, które pomagają tworzyć bezpieczne, pomocne i zgodne z polskim kontekstem odpowiedzi.

Grafika promująca model językowy PLLuM. Na górze znajdują się geometryczne kształty w kolorach fioletu, turkusu i bieli. Na dole widnieje logo PLLuM wraz z napisem „Polish Large Language Model”.
Łuna gradientu wychodząca od dołu

Do tej pory polscy twórcy modeli językowych dysponowali obszernymi zasobami tekstowymi, ale brakowało im zbioru danych umożliwiającego alignment. To „wychowanie” LLM-ów tak, aby udzielały odpowiedzi nie tylko zgodnych z faktami, ale też bezpiecznych, pozbawionych uprzedzeń oraz adekwatnych do polskiego kontekstu kulturowego. Ten brak stanowił istotną barierę dla odpowiedzialnego rozwoju modeli polskojęzycznych.

– Alignment, który nazywamy „wychowaniem”, to proces uczenia modelu, jakich odpowiedzi powinien udzielać, a jakich unikać – wyjaśnia mgr Karolina Seweryn.

Zespół koordynowany przez badaczki z NASK – dr Annę Kołos, mgr Karolinę Seweryn i dr Agnieszkę Karlińską – wypełnił tę lukę, udostępniając PLLuM-Align.

– Przygotowanie zbioru było procesem wieloetapowym – tłumaczy dr Anna Kołos. – Zaczynaliśmy od stworzenia kilku kategorii promptów odpowiadających realnym wyzwaniom, z jakimi zmagają się modele językowe. Każdy prompt trafiał następnie do oceniających, którzy analizowali odpowiedzi generowane przez modele. Pracowaliśmy wyłącznie na danych ocenianych przez ludzi, a każdą informację weryfikowaliśmy ręcznie. Taka wieloetapowa procedura pozwoliła nam uzyskać zbiór jednocześnie zróżnicowany i bardzo wysokiej jakości.

PLLuM-Align to część większego zbioru, który wykorzystywany jest do dostrajania modeli z rodziny PLLuM. Zawiera 4 307 ręcznie ocenionych przykładów pytań i odpowiedzi, od prostych zapytań użytkowników, przez pytania wymagające faktograficznej precyzji, aż po tzw. prompty adwersaryjne, czyli celowo trudne, prowokacyjne i często niebezpieczne sytuacje, w których model może zostać skłoniony do wygenerowania treści szkodliwych. Dane te mogą być wykorzystane do alignmentu polsko- lub wielojęzycznych modeli językowych.

– Preferencje są jednym z najważniejszych narzędzi w procesie dostrajania modeli językowych. Dzięki nim modele uczą się nie tylko jasnego formułowania odpowiedzi, ale też rozróżniania między odpowiedziami pomocnymi a tymi, które mogą wprowadzać w błąd, wspierać szkodliwe narracje lub naruszać normy społeczne. Dzięki preferencjom chcemy nauczyć modele PLLuM tworzenia treści, które są jednocześnie poprawne merytorycznie i językowo, pomocne oraz możliwie wyważone i bezpieczne – wyjaśnia dr Agnieszka Karlińska, kierowniczka projektu HIVE AI, w ramach którego rozwijane są obecnie modele PLLuM.

ABC PLLuM-Align

Zbiór preferencji składa się z promptów (zapytań do modeli) i par odpowiedzi ocenianych wysoko i nisko m.in. pod kątem poprawności, pomocności, spójności czy szeroko rozumianego bezpieczeństwa.

– Nasze eksperymenty pokazują, że modele wychowane z wykorzystaniem PLLuM-Align nie tylko tworzą trafniejsze i bardziej pomocne odpowiedzi, ale także znacznie lepiej radzą sobie w sytuacjach prowokacyjnych. To ważny krok w kierunku bezpieczniejszych modeli językowych dostosowanych do polskiego kontekstu – mówi mgr Karolina Seweryn.

W przygotowanie promptów i ocenę odpowiedzi zaangażowanych było ponad 50 osób, w tym członkowie zespołu NASK oraz inni partnerzy konsorcjum PLLuM, dzięki czemu udało się uwzględnić różnorodne perspektywy i doświadczenia. Twórcy zbioru świadomie zrezygnowali z metod automatycznego generowania preferencji, żeby zagwarantować najwyższą jakość merytoryczną i bezpieczeństwo.

To podejście wyraźnie odróżnia PLLuM-Align od wielu anglojęzycznych zbiorów, które często korzystają z danych syntetycznych, a więc tworzonych przez inne modele językowe. Dzięki temu PLLuM-Align idealnie nadaje się do treningu modeli wykorzystywanych w krytycznych zastosowaniach – np. w administracji publicznej, edukacji, sektorze prawnym czy ochronie zdrowia.

Otwarty i dostępny dla każdego

Zbiór PLLuM-Align został udostępniony na otwartej licencji na platformie Hugging Face i może być wykorzystywany zarówno do badań naukowych, jak i rozwoju aplikacji komercyjnych. Udostępniając go publicznie, zespół PLLuM i HIVE AI chce wspierać rozwój bezpiecznego, odpowiedzialnego i transparentnego ekosystemu modeli językowych w Polsce. Szczegółowy opis procedury tworzenia zbioru oraz możliwe sposoby jego wykorzystania zostały przedstawione w ogólnodostępnej publikacji.

Prace nad zbiorem preferencji prowadzone były w ramach projektu PLLuM, realizowanego przez konsorcjum naukowe, w skład którego – poza NASK – wchodziły Politechnika Wrocławska (lider), Instytut Podstaw Informatyki PAN, Instytut Slawistyki PAN, Ośrodek Przetwarzania Informacji Państwowy Instytut Badawczy oraz Uniwersytet Łódzki. Prace nad rozwojem modeli PLLuM i dalszym udoskonalaniem zbioru są kontynuowane w ramach konsorcjum HIVE AI, którego liderem pozostaje NASK.

Tematy powiązane
Udostępnij ten post

Wyróżnione aktualności

Osoba siedzi przy drewnianym stole w restauracji, trzyma nóż i widelec nad talerzem, na którym leży smartfon przykryty kawałkiem mięsa z ziołami.
Typ_aktualnosc Aktualność
17 Grudnia 2025|8 min. czytania

Od lajków do lęków – zaburzenia odżywiania w erze scrollowania

Zaburzenia psychiczne związane z jedzeniem i zniekształcony obraz ciała coraz częściej zaczynają się od ekranu telefonu. Problem ten wpisuje się szerzej w kryzys zdrowia psychicznego zanurzonych w środowisku cyfrowym młodych ludzi. Nastolatki patrzą na idealny świat w mediach społecznościowych, a siebie widzą w krzywym zwierciadle.

Abstrakcyjna, futurystyczna scena przedstawiająca unoszące się w przestrzeni metaliczne panele i siatki, oświetlone jasnymi promieniami światła na tle gwiazd i mgławicy. Elementy wyglądają jak fragmenty cyfrowej lub kosmicznej struktury.
Typ_aktualnosc Aktualność
29 Grudnia 2025|6 min. czytania

NASK rozwinie komunikację kwantową z europejskimi satelitami

Międzynarodowe konsorcjum pod przewodnictwem NASK zbuduje optyczną stację naziemną umożliwiającą kwantowe ustalanie klucza (QKD) z europejskimi satelitami. Projekt PIONIER-Q-SAT umożliwi łączność m.in. z satelitą Eagle-1 i połączy Polskę z innymi krajami biorącymi udział w programie EuroQCI Komisji Europejskiej.

Poradnik zakupowy NASK
Typ_aktualnosc Aktualność
27 Listopada 2025|3 min. czytania

Okazja czy pułapka? Kupuj bezpiecznie online

Black Friday i Cyber Monday wyewoluowały w całe tygodnie kuszące okazjami i promocjami, a gorączka świątecznych zakupów już się rozpoczęła. Wiedzą o tym nie tylko klienci, ale i cyberprzestępcy. By się przed nimi ustrzec, warto zajrzeć do najnowszej publikacji NASK o bezpiecznych zakupach online.

Panel dyskusyjny w centrum prasowym PAP. Na scenie Małgorzata Rozenek-Majdan, Iwona Prószyńska i Dariusz Standerski. Standerski mówi do mikrofonu. Widać kamery nagrywające wydarzenie i publiczność na sali.
Typ_aktualnosc Aktualność
12 Listopada 2025|7 min. czytania

Wolność w sieci czy era regulacji?

Co zmieni się w internecie po wdrożeniu unijnych regulacji DSA? Jak nowe prawo może wpłynąć na nasze bezpieczeństwo, ochronę dzieci i wizerunku, a także przyszłość cyfrowej komunikacji? Odpowiedzi na te pytania padły podczas debaty Strefy Dialogu Jutra Human Answer Institute w Polskiej Agencji Prasowej.

Informacje

Najnowsze aktualności

mak
Typ_aktualnosc Aktualność
10 Marca 2026|5 min. czytania

Siła kobiet w technologiach. Rusza kolejna edycja programu MAK

Jeszcze niedawno świat nowych technologii kojarzył się niemal wyłącznie z mężczyznami. Dziś ten obraz powoli zaczyna pękać. Coraz więcej kobiet wybiera studia techniczne, wchodzi do branży IT i cyberbezpieczeństwa, buduje własne projekty, zespoły i produkty. Jednak mimo tej zmiany, proporcje wciąż mówią same za siebie – kobiet w technologiach jest zdecydowanie mniej, niż mogłoby i powinno być.

Premier Gawkowski z Ekspertem Oleszkiewiczem
Typ_aktualnosc Aktualność
09 Marca 2026|6 min. czytania

Internet to nie tylko technologia. NASK na Future Up! Fest w Łodzi

Ponad dwadzieścia tysięcy osób odwiedziło Future Up! Fest, ogólnopolskie targi edukacyjne, które odbyły się w EXPO Łódź. W wydarzeniu skierowanym do uczniów, studentów i nauczycieli nie zabrakło także NASK.

grupa polskich naukowców na targach MWC Barcelona 2026
Typ_aktualnosc Aktualność
05 Marca 2026|5 min. czytania

Tam, gdzie przyszłość staje się teraźniejszością. NASK na MWC 2026

Rozmowy o 6G, inteligentne roboty i awatary w czasie rzeczywistym. NASK, wśród globalnych dostawców, zaprezentował PLLuM, FLDX i możliwości polskiej AI. Za nami Mobile World Congress Barcelona 2026 – miejsce, w którym tworzy się innowacje z europejskim rodowodem.