Grupa ludzi podczas rozmowy
Inne

Stażysta / -tka ds. anotacji danych i korekty językowej

5000 zł. miesięcznie

  • Warszawa
  • umowa o praktyki
  • pełen etat
  • staż
  • praca hybrydowa

Oferujemy staż badawczy w Zespole Inżynierii Lingwistycznej w Zakładzie Przetwarzania Języka Naturalnego. Celem stażu jest stworzenie zbioru danych do dostrojenia modeli do zadania korekty językowej dla języka polskiego oraz ich ewaluacji.

Zdolność do osiągania wysokich wyników w kompleksowej korekcie językowej tekstów w języku polskim — obejmującej nie tylko literówki, błędy ortograficzne i fleksyjne, lecz także niewłaściwy dobór leksyki oraz uchybienia stylistyczne — pozostaje wciąż istotnym wyzwaniem, a zarazem realną potrzebą w branżowych i domenowych zastosowaniach rozwiązań AI w Polsce, w tym w administracji publicznej.

Dominujące do niedawna podejścia oparte na regułach nie umożliwiają kontekstowego rozumienia tekstu, a tym samym pełnej detekcji i korekty wszystkich błędów oraz nieścisłości językowych i stylistycznych. W dobie dynamicznego rozwoju generatywnych modeli sztucznej inteligencji funkcjonalność ta powinna stać się jednym z podstawowych oczekiwań wobec modeli przeznaczonych do profesjonalnych zastosowań. Dotrenowanie modelu do realizacji tego zadania w języku polskim wymaga starannie zaprojektowanego, zbalansowanego i nadzorowanego przez ekspertów zbioru danych uczących. Zbiór ten nie może ograniczać się wyłącznie do danych konwertowanych z istniejących polskojęzycznych datasetów ani do danych generowanych syntetycznie, lecz powinien obejmować także wysokiej jakości próbki anotowane ręcznie.

Dostrojenie otwartego modelu, który osiągałby satysfakcjonujące wyniki w zakresie korekty tekstów polskojęzycznych, mogłoby znacząco zwiększyć efektywność wielu działań realizowanych w ramach projektów naukowych i wdrożeniowych w NASK. Taki model pomocniczy mógłby zostać wykorzystany m.in. do korekty danych syntetycznych destylowanych z anglocentrycznych dużych modeli językowych oraz wizyjno-językowych.

Twój zakres obowiązków:

  • Testowanie dużych modeli językowych zgodnie z wyznaczonymi kryteriami i standardami, w szczególności w zakresie wiedzy na temat języka polskiego i poprawności językowej
  • Przygotowywanie ręcznie anotowanych nowych danych treningowych służących do dostrojenia modelu (SFT) do zadania korekty językowej w postaci instrukcji (pary polecenie i wzorcowa odpowiedź)
  • Przygotowanie nowych danych ewaluacyjnych służących do oceny performansu modeli w zakresie korekty polskojęzycznego tekstu
  • Udział w eksperckiej weryfikacji danych syntetycznych służących do dostrojenia modelu (SFT) do zadania korekty językowej

Nasze wymagania:

  • Student/ka lub absolwent/ka studiów magisterskich o charakterze językoznawczym (preferowane kierunki: filologia polska, neofilologia obca, lingwistyka stosowana i pokrewne kierunki)
  • Doskonała znajomość języka polskiego, dbałość o poprawność językową
  • Doświadczenie w korekcie lub redakcji tekstów naukowych, publicystycznych lub popularno-naukowych
  • Doświadczenie w korzystaniu z dużych modeli językowych i zainteresowanie obszarem generatywnej sztucznej inteligencji
  • Umiejętność pracy zespołowej, dobra organizacja czasu, skrupulatność i rzetelność w wykonywaniu powierzonych zadań

Mile widziane:

  • Doświadczenie w pracy z dużymi zbiorami danych tekstowych
  • Znajomość programu MS Excel i/lub podstawowe umiejętności programistyczne (Python)

 

Oferujemy:

  • 3-miesięczny staż w Zakładzie naukowym Przetwarzania Języka Naturalnego, w Zespole Inżynierii Lingwistycznej
  • Staż w pełnym wymiarze godzin tygodniowo
  • Wynagrodzenie 5000 PLN miesięcznie
  • Możliwość rozwoju naukowego
Employee benefits

Supportive and Comfortable Work Environment

The right people deserve the right care. That’s why we offer a wide range of extra benefits — from professional training and courses, to yoga sessions and Fruit Thursdays, all the way to co-financed Multisport cards and reimbursements for cinema or theatre tickets. But above all, it simply feels good to work with us.

icon_pace
Flexible Working Hours

You can start your day anytime between 7 and 10 a.m.

icon_balance
Work-Life Balance

We believe in maintaining a healthy approach to work. That’s why we support a balanced lifestyle and respect your time outside the office.

icon_model_training
Training and Conferences

We offer opportunities to grow your skills through professional development and industry events.

icon_school
Exciting Projects

We operate at the intersection of science, cybersecurity, and emerging technologies.

icon_medical
Healthcare

Each employee has the opportunity to use private medical care services.

icon_fitness_center
Multisport Card

Stay active with a co-financed Multisport card or get reimbursed for cultural activities like cinema and theatre visits.

icon_landscape
Holiday Subsidy

We offer partial reimbursement of vacation costs — including Poland’s traditional “under the pear tree” benefit.

icon_beach_access
Life Insurance

You can opt in to additional life insurance coverage, giving you and your loved ones greater peace of mind.

    Job offers