Od nauki do praktyki: identyfikacja istotnych źródeł informacji w wielojęzycznej Wikipedii
Automatyczna identyfikacja oraz ocena źródeł informacji w Wikipedii
W obliczu ponad miliarda stron internetowych, indywidualne ocenianie wiarygodności każdego źródła przez użytkowników Wikipedii jest ogromnym wyzwaniem. Chociaż w różnych językowych wersjach Wikipedii istnieją szczegółowe wytyczne dotyczące wiarygodnych źródeł, brakuje kompleksowej listy witryn, które można by uznać za rzetelne w różnych tematycznych kontekstach. Ponadto, wiarygodność i reputacja witryn mogą zmieniać się z czasem, co wymaga regularnych aktualizacji takich wykazów. Z tego powodu zautomatyzowanie procesu tworzenia i aktualizacji listy wiarygodnych źródeł jest niezwykle istotne. Taka lista byłaby cennym zasobem nie tylko dla edytorów Wikipedii, ale również dla jej czytelników poszukujących dokładnych i rzetelnych informacji.
W Katedrze Informatyki Ekonomicznej UEP prowadzone są badania w obszarze automatycznej oceny jakości artykułów oraz wiarygodności źródeł informacji w różnych wersjach językowych Wikipedii. Analiza ponad 60 milionów artykułów Wikipedii pozwoliła zidentyfikować ponad 330 milionów przypisów (odwołań do źródeł). Dzięki różnym modelom oceny udało się zidentyfikować istotne źródła informacji. Poniższa tabela przedstawia wyniki ekstrakcji przypisów dla wybranych wersji językowych tej encyklopedii oraz liczbę unikalnych stron internetowych w październiku 2023 roku:
Wiki | Wersja językowa | Liczba artykułów | Liczba przypisów | Liczba unikatowych witryn |
ar | Arabska | 1.219.168 | 6.355.164 | 294.089 |
ca | Katalońska | 735.551 | 3.895.389 | 197.470 |
cs | Czeska | 532.602 | 2.752.877 | 119.313 |
de | Niemiecka | 2.839.878 | 14.473.501 | 622.551 |
en | Angielska | 6.722.214 | 79.687.819 | 1.942.579 |
es | Hiszpańska | 1.833.749 | 12.558.623 | 509.313 |
fa | Perska | 975.931 | 2.477.763 | 133.634 |
fi | Fińska | 559.931 | 3.371.084 | 138.320 |
fr | Francuska | 2.557.559 | 19.455.752 | 576.523 |
he | Hebrajska | 342.285 | 1.867.068 | 103.848 |
hi | Hindi | 162.954 | 496.057 | 47.617 |
hu | Węgierska | 530.977 | 2.545.152 | 124.536 |
id | Indonezyjska | 661.844 | 2.672.604 | 162.924 |
it | Włoska | 1.829.095 | 8.856.574 | 278.232 |
ja | Japońska | 1.388.532 | 14.684.917 | 359.446 |
ko | Koreańska | 646.717 | 1.885.878 | 91.918 |
nl | Holenderska | 2.133.536 | 3.010.002 | 112.318 |
no | Norweska | 616.624 | 2.102.507 | 107.343 |
pl | Polska | 1.583.919 | 8.847.928 | 242.835 |
pt | Portugalska | 1.110.209 | 7.692.600 | 319.534 |
ru | Rosyjska | 1.940.113 | 15.461.960 | 454.351 |
sv | Szwedzka | 2.572.575 | 11.791.609 | 134.081 |
th | Tajska | 158.905 | 1.010.438 | 70.395 |
tr | Turecka | 533.201 | 2.773.455 | 146.854 |
uk | Ukraińska | 1.289.727 | 5.455.954 | 217.787 |
vi | Wietnamska | 1.288.093 | 3.796.577 | 147.041 |
zh | Chińska | 1.379.496 | 8.130.187 | 283.516 |
Podczas webinarium dr Włodzimierz Lewoniewski przedstawił możliwości identyfikacji oraz automatycznej oceny istotności źródeł informacji artykułów Wikipedii z różnych wersji językowych. W ramach części praktycznej zostały pokazane niektóre możliwości narzędzia BestRef, które posiada informacje o wynikach oceny milionów źródeł internetowych w artykułach Wikipedii z punktu widzenia poszczególnych wersji językowych.
Webinarium odbyło się w dniu 23 listopada 2023 roku. Organizatorem wydarzenia jest stowarzyszenie Wikimedia Polska, które wspiera i promuje Wikipedię oraz jej projekty siostrzane (takie jak Wikidane, Wikiśłownik, Wikinews, Wikiźródła oraz inne).
Więcej informacji na temat badań dotyczących analizy źródeł informacji w Wikipedii można znaleźć w publikacjach naukowych:
- Companies in Multilingual Wikipedia: Articles Quality and Important Sources of Information (2023)
- Identification of Important Web Sources of Information on Wikipedia across various Topics and Languages (2022)
- Reliability in Time: Evaluating the Web Sources of Information on COVID-19 in Wikipedia across Various Language Editions from the Beginning of the Pandemic (2022)
- Identifying Reliable Sources of Information about Companies in Multilingual Wikipedia (2022)
- Modeling Popularity and Reliability of Sources in Multilingual Wikipedia (2020)