Dwie trzecie nagrody naszych studentów w konkursie Eurostat „The Web Intelligence – Deduplication Challenge”
Celem konkursu była identyfikacja potencjalnych duplikatów ofert pracy zebranych ze stron internetowych w całej Unii Europejskiej. Zbiór danych zawierał 112.000 ogłoszeń o pracę w różnych językach, które należało sklasyfikować do jednej z kategorii:
- Unikalne ogłoszenia.
- Pełne duplikaty – oferty mające ten sam tytuł i opis stanowiska.
- Semantyczne duplikaty – oferty dotyczące tej samej pozycji zawodowej, ale wyrażone w inny sposób w języku naturalnym lub w różnych językach.
- Czasowe duplikaty – semantyczne duplikaty z różnymi datami pozyskania ogłoszenia.
- Częściowe duplikaty – oferty dotyczące tej samej pozycji zawodowej, ale zawierające, np. dodatkowe wymagania wobec kandydata, których nie posiada pierwotna oferta.
Nasi studenci przygotowali rozwiązanie w języku Python, które z wykorzystaniem LLM (duży model językowy), a także innych metod przetwarzania języka naturalnego identyfikuje zduplikowane oferty pracy.
W konkursie wzięło udział 69 zespołów z 17 krajów, a nasi studenci (zespół IDA) zajęli trzecie miejsca w dwóch kategoriach:
- Accuracy – jak najdokładniejsza identyfikacja duplikatów (3000 EUR).
- Reproducibility – opracowanie innowacyjnej i skalowalnej metodologii w celu tworzenia europejskich statystyk (3000 EUR).
Szczególne podziękowania należą się prof. Krzysztofowi Węclowi, którego zajęcia zainspirowały członków zespołu do rozwoju w Data Science oraz za jego bezcenną pomoc i wsparcie podczas trwania konkursu!
Więcej informacji na stronie: statistics-awards.eu/announcements/winners-wi-1st-round