
Stażysta / -tka ds. anotacji danych i korekty językowej
5000 zł. miesięcznie
- Warszawa
- umowa o praktyki
- pełen etat
- staż
- praca hybrydowa
Oferujemy staż badawczy w Zespole Inżynierii Lingwistycznej w Zakładzie Przetwarzania Języka Naturalnego. Celem stażu jest stworzenie zbioru danych do dostrojenia modeli do zadania korekty językowej dla języka polskiego oraz ich ewaluacji.
Zdolność do osiągania wysokich wyników w kompleksowej korekcie językowej tekstów w języku polskim — obejmującej nie tylko literówki, błędy ortograficzne i fleksyjne, lecz także niewłaściwy dobór leksyki oraz uchybienia stylistyczne — pozostaje wciąż istotnym wyzwaniem, a zarazem realną potrzebą w branżowych i domenowych zastosowaniach rozwiązań AI w Polsce, w tym w administracji publicznej.
Dominujące do niedawna podejścia oparte na regułach nie umożliwiają kontekstowego rozumienia tekstu, a tym samym pełnej detekcji i korekty wszystkich błędów oraz nieścisłości językowych i stylistycznych. W dobie dynamicznego rozwoju generatywnych modeli sztucznej inteligencji funkcjonalność ta powinna stać się jednym z podstawowych oczekiwań wobec modeli przeznaczonych do profesjonalnych zastosowań. Dotrenowanie modelu do realizacji tego zadania w języku polskim wymaga starannie zaprojektowanego, zbalansowanego i nadzorowanego przez ekspertów zbioru danych uczących. Zbiór ten nie może ograniczać się wyłącznie do danych konwertowanych z istniejących polskojęzycznych datasetów ani do danych generowanych syntetycznie, lecz powinien obejmować także wysokiej jakości próbki anotowane ręcznie.
Dostrojenie otwartego modelu, który osiągałby satysfakcjonujące wyniki w zakresie korekty tekstów polskojęzycznych, mogłoby znacząco zwiększyć efektywność wielu działań realizowanych w ramach projektów naukowych i wdrożeniowych w NASK. Taki model pomocniczy mógłby zostać wykorzystany m.in. do korekty danych syntetycznych destylowanych z anglocentrycznych dużych modeli językowych oraz wizyjno-językowych.
Twój zakres obowiązków:
- Testowanie dużych modeli językowych zgodnie z wyznaczonymi kryteriami i standardami, w szczególności w zakresie wiedzy na temat języka polskiego i poprawności językowej
- Przygotowywanie ręcznie anotowanych nowych danych treningowych służących do dostrojenia modelu (SFT) do zadania korekty językowej w postaci instrukcji (pary polecenie i wzorcowa odpowiedź)
- Przygotowanie nowych danych ewaluacyjnych służących do oceny performansu modeli w zakresie korekty polskojęzycznego tekstu
- Udział w eksperckiej weryfikacji danych syntetycznych służących do dostrojenia modelu (SFT) do zadania korekty językowej
Nasze wymagania:
- Student/ka lub absolwent/ka studiów magisterskich o charakterze językoznawczym (preferowane kierunki: filologia polska, neofilologia obca, lingwistyka stosowana i pokrewne kierunki)
- Doskonała znajomość języka polskiego, dbałość o poprawność językową
- Doświadczenie w korekcie lub redakcji tekstów naukowych, publicystycznych lub popularno-naukowych
- Doświadczenie w korzystaniu z dużych modeli językowych i zainteresowanie obszarem generatywnej sztucznej inteligencji
- Umiejętność pracy zespołowej, dobra organizacja czasu, skrupulatność i rzetelność w wykonywaniu powierzonych zadań
Mile widziane:
- Doświadczenie w pracy z dużymi zbiorami danych tekstowych
- Znajomość programu MS Excel i/lub podstawowe umiejętności programistyczne (Python)
Oferujemy:
- 3-miesięczny staż w Zakładzie naukowym Przetwarzania Języka Naturalnego, w Zespole Inżynierii Lingwistycznej
- Staż w pełnym wymiarze godzin tygodniowo
- Wynagrodzenie 5000 PLN miesięcznie
- Możliwość rozwoju naukowego
Supportive and Comfortable Work Environment
The right people deserve the right care. That’s why we offer a wide range of extra benefits — from professional training and courses, to yoga sessions and Fruit Thursdays, all the way to co-financed Multisport cards and reimbursements for cinema or theatre tickets. But above all, it simply feels good to work with us.
You can start your day anytime between 7 and 10 a.m.
We believe in maintaining a healthy approach to work. That’s why we support a balanced lifestyle and respect your time outside the office.
We offer opportunities to grow your skills through professional development and industry events.
We operate at the intersection of science, cybersecurity, and emerging technologies.
Each employee has the opportunity to use private medical care services.
Stay active with a co-financed Multisport card or get reimbursed for cultural activities like cinema and theatre visits.
We offer partial reimbursement of vacation costs — including Poland’s traditional “under the pear tree” benefit.
You can opt in to additional life insurance coverage, giving you and your loved ones greater peace of mind.