Katedra Informatyki Ekonomicznej

Od nauki do praktyki: identyfikacja istotnych źródeł informacji w wielojęzycznej Wikipedii

Wikipedia przykłada niezwykłą wagę do zapewnienia, że treści na jej stronach są rzetelne i godne zaufania. Kluczowe dla utrzymania tego standardu jest zasada weryfikowalności, która wymaga, aby informacje - szczególnie te budzące kontrowersje - były oparte na źródłach wiarygodnych i opublikowanych. Dzięki temu treści na Wikipedii nie są oparte na subiektywnych opiniach czy niezweryfikowanych badaniach. Jednakże, wiarygodność jest pojęciem subiektywnym, a jej ocena zależy od wielu czynników, takich jak wersja językowa Wikipedii czy temat artykułu, co może stanowić wyzwanie dla edytorów przy doborze odpowiednich źródeł.

Automatyczna identyfikacja oraz ocena źródeł informacji w Wikipedii

W obliczu ponad miliarda stron internetowych, indywidualne ocenianie wiarygodności każdego źródła przez użytkowników Wikipedii jest ogromnym wyzwaniem. Chociaż w różnych językowych wersjach Wikipedii istnieją szczegółowe wytyczne dotyczące wiarygodnych źródeł, brakuje kompleksowej listy witryn, które można by uznać za rzetelne w różnych tematycznych kontekstach. Ponadto, wiarygodność i reputacja witryn mogą zmieniać się z czasem, co wymaga regularnych aktualizacji takich wykazów. Z tego powodu zautomatyzowanie procesu tworzenia i aktualizacji listy wiarygodnych źródeł jest niezwykle istotne. Taka lista byłaby cennym zasobem nie tylko dla edytorów Wikipedii, ale również dla jej czytelników poszukujących dokładnych i rzetelnych informacji.

W Katedrze Informatyki Ekonomicznej UEP prowadzone są badania w obszarze automatycznej oceny jakości artykułów oraz wiarygodności źródeł informacji w różnych wersjach językowych Wikipedii. Analiza ponad 60 milionów artykułów Wikipedii pozwoliła zidentyfikować ponad 330 milionów przypisów (odwołań do źródeł). Dzięki różnym modelom oceny udało się zidentyfikować istotne źródła informacji. Poniższa tabela przedstawia wyniki ekstrakcji przypisów dla wybranych wersji językowych tej encyklopedii oraz liczbę unikalnych stron internetowych w październiku 2023 roku:

Wiki Wersja językowa Liczba artykułów Liczba przypisów Liczba unikatowych witryn
ar Arabska 1.219.168 6.355.164 294.089
ca Katalońska 735.551 3.895.389 197.470
cs Czeska 532.602 2.752.877 119.313
de Niemiecka 2.839.878 14.473.501 622.551
en Angielska 6.722.214 79.687.819 1.942.579
es Hiszpańska 1.833.749 12.558.623 509.313
fa Perska 975.931 2.477.763 133.634
fi Fińska 559.931 3.371.084 138.320
fr Francuska 2.557.559 19.455.752 576.523
he Hebrajska 342.285 1.867.068 103.848
hi Hindi 162.954 496.057 47.617
hu Węgierska 530.977 2.545.152 124.536
id Indonezyjska 661.844 2.672.604 162.924
it Włoska 1.829.095 8.856.574 278.232
ja Japońska 1.388.532 14.684.917 359.446
ko Koreańska 646.717 1.885.878 91.918
nl Holenderska 2.133.536 3.010.002 112.318
no Norweska 616.624 2.102.507 107.343
pl Polska 1.583.919 8.847.928 242.835
pt Portugalska 1.110.209 7.692.600 319.534
ru Rosyjska 1.940.113 15.461.960 454.351
sv Szwedzka 2.572.575 11.791.609 134.081
th Tajska 158.905 1.010.438 70.395
tr Turecka 533.201 2.773.455 146.854
uk Ukraińska 1.289.727 5.455.954 217.787
vi Wietnamska 1.288.093 3.796.577 147.041
zh Chińska 1.379.496 8.130.187 283.516

Podczas webinarium dr Włodzimierz Lewoniewski przedstawił możliwości identyfikacji oraz automatycznej oceny istotności źródeł informacji artykułów Wikipedii z różnych wersji językowych. W ramach części praktycznej zostały pokazane niektóre możliwości narzędzia BestRef, które posiada informacje o wynikach oceny milionów źródeł internetowych w artykułach Wikipedii z punktu widzenia poszczególnych wersji językowych.

Nagranie z webinarium:

Webinarium odbyło się w dniu 23 listopada 2023 roku. Organizatorem wydarzenia jest stowarzyszenie Wikimedia Polska, które wspiera i promuje Wikipedię oraz jej projekty siostrzane (takie jak Wikidane, Wikiśłownik, Wikinews, Wikiźródła oraz inne).

Więcej informacji na temat badań dotyczących analizy źródeł informacji w Wikipedii można znaleźć w publikacjach naukowych:

Strona korzysta z plików cookie w celu realizacji usług zgodnie z Polityką prywatności.
Możesz określić warunki przechowywania lub dostępu do cookie w Twojej przeglądarce lub konfiguracji usługi.