Katedra Informatyki Ekonomicznej

Seminarium o automatycznej ocenie jakości Wikipedii na Uniwersytecie Tufts

Początek roku akademickiego w Stanach Zjednoczonych zbiegł się z wystąpieniem dra Włodzimierza Lewoniewskiego na Uniwersytecie Tufts. W ramach seminarium dyskusyjnego zostały omówione teoretyczne i praktyczne aspekty wykorzystania sztucznej inteligencji oraz wielkich zbiorów otwartych danych do automatyzacji procesu oceny jakości artykułów Wikipedii oraz jej źródeł informacji w różnych wersjach językowych.
23 września, 2023

Wydarzenie odbyło się w dniu 7 września 2023 roku w budynku Joyce Cummings Center (JCC) podczas sześciotygodniowej wizyty dra Włodzimierza Lewoniewskiego w Stanach Zjednoczonych. To pierwsze seminarium dyskusyjne (colloquium) na Uniwersytecie Tufts w ramach roku akademickiego 2023/2024.[1]

W świecie, gdzie informacja może się szybko rozprzestrzeniać, ważne jest, by społeczeństwo miało dostęp do pewnych i wiarygodnych źródeł wiedzy. Wikipedia, będąca jednym z najczęściej odwiedzanych serwisów internetowych na świecie, odgrywa istotną rolę w edukacji i informowaniu ludzi. Ta ogólnodostępna encyklopedia zawiera ponad 60 milionów artykułów w ponad 300 wersjach językowych oraz oferuje darmowy dostęp do ogromnej ilości informacji na praktycznie każdy temat.[2] Dodatkowo, treści pochodzące z Wikipedii pomagają polepszać różne serwisy internetowe (np. wyszukiwarka Google, ChatGPT etc.).

Ocena jakości Wikipedii oraz jej źródeł informacji

Wikipedia jest tworzona przez wolontariuszy z całego świata, co sprawia, że jest dynamiczna i ciągle rozwijająca się. Ten model współpracy pozwala na szybkie aktualizacje i korekty informacji. Codziennie w ramach tej encyklopedii wprowadza się ponad pół miliona nowych edycji. Ręczna ocena wszystkich tych zmian w realnym czasie jest dużym wyzwaniem.

W Wikipedii istnieją pewne standardy oceny jakości treści. Jednak kryteria oceny mogą się różnić w zależności od wersji językowej oraz mogą się zmieniać w czasie.[3] Ponadto, ocena jakości informacji jest w dużej mierze procesem subiektywnym, zależnym od interpretacji i doświadczenia poszczególnych edytorów tej encyklopedii. Dlatego ocena artykułów w Wikipedii często wymaga dialogu i konsensusu wśród społeczności.

Automatyzacja procesu oceny jakości informacji Wikipedii może znacząco przyczynić się do poprawy jakości treści, efektywności pracy redaktorów oraz wiarygodności platformy jako całości.[4] Algorytmy, które są dobrze zaprojektowane, nie mają emocji, uprzedzeń ani stronniczości, co może pomóc w zapewnieniu bardziej obiektywnej oceny jakości informacji. Dodatkowo, automatyzacja pozwala na jednolitą i spójną ocenę jakości artykułów opartą na ustalonych kryteriach, co przyczynia się do większej spójności w ocenie treści. Dzięki automatyzacji można również gromadzić i analizować duże ilości danych dotyczących jakości informacji, co może dostarczyć cennych wskazówek na temat obszarów wymagających poprawy i kierunków dalszego rozwoju platformy. Ponadto, automatyzacja może pomóc w odciążeniu użytkowników Wikipedii od rutynowych zadań, pozwalając skupić się na bardziej skomplikowanych aspektach edycji oraz moderacji.

Specjalnie przygotowane narzędzia mogą natychmiast identyfikować potencjalne problemy, takie jak wandalizm, nieodpowiednie treści czy dezinformacja, co pozwala na szybsze reagowanie i poprawę jakości treści. Te narzędzia mogą dostarczać redaktorom cennych informacji zwrotnych w czasie rzeczywistym, pomagając im w tworzeniu i edycji artykułów zgodnie z wytycznymi Wikipedii. Dodatkowo, systemy automatycznej oceny artykułów Wikipedii oraz jej źródeł informacji mogą być zintegrowane z innymi narzędziami i platformami, co pozwala na lepsze wykorzystanie technologii w celu poprawy jakości treści.

Należy również pamiętać, że społeczność Wikipedii składa się z wielu wolontariuszy, którzy zazwyczaj ręcznie oceniają i poprawiają treść. W przypadku znaczącej aktywizacji działań w kierunku zamieszczania fałszywych informacji lub masowego wandalizmu, automatyczne narzędzia mogą służyć jako pierwsza linia obrony, szybko identyfikując i reagując na niechciane zmiany.

Kluczowym aspektem jakości treści w Wikipedii jest zasada weryfikowalności informacji. To oznacza, że każde twierdzenie w artykułach tej encyklopedii musi być oparte o wiarygodne źródło informacji. Wszystkie artykuły Wikipedii w różnych językach posiadają setki milionów przypisów na rozmaite źródła informacji.[5] Automatyzacja procesu oceny źródeł mogą pomóc szybko identyfikować źródła, które są potencjalnie niewiarygodne, przestarzałe lub które nie spełniają standardów akademickich, co pozwala redaktorom skupić się na ich weryfikacji lub zastąpieniu bardziej wiarygodnymi źródłami. Dodatkowo, w dobie rosnącej liczby fake news, automatyczna ocena źródeł może szybko wykrywać i sygnalizować informacje oparte na wątpliwych źródłach, zapobiegając ich rozprzestrzenianiu się. Ponadto, nowi redaktorzy Wikipedii mogą nie być pewni, jakie źródła są najbardziej wiarygodne w danej dziedzinie. Automatyczna ocena źródeł może dostarczyć im wskazówek i zaleceń, pomagając w wyborze odpowiednich materiałów źródłowych.

W ramach prezentacji zostały również przedstawione narzędzia, które w oparciu o badania naukowe oraz wielkie zbiory danych pozwalają na automatyczną ocenę jakości artykułów Wikipedii[6] oraz ocenę źródeł informacji[7] tej encyklopedii. Jedno z takich narzędzi pozwala na porównanie oraz integrację informacji z różnych otwartych wielojęzycznych źródeł, takich jak Wikipedia, Wikidane, DBpedia oraz innych.[8]

Przypisy

  1. Lista seminariów dyskusyjnych na Uniwersytecie Tufts w semestrze bieżącym dostępna jest na stronie: http://www.cs.tufts.edu/t/colloquia/current.php. Więcej informacji na temat seminariów z zaproszonymi prelegentami omawiającymi wyzwania badawcze i najnowsze postępy w informatyce można znaleźć na stronie internetowej Uniwersytetu Tufts.
  2. Ogólne statystyki dla wszystkich wersji językowych Wikipedii: https://meta.wikimedia.org/wiki/List_of_Wikipedias
  3. Na przykład, dla wersji polskojęzycznej Wikipedii można znaleźć porady, zalecenia i wytyczne mające służyć jakości artykułu: https://pl.wikipedia.org/wiki/Pomoc:Jak_napisać_doskonały_artykuł
  4. Lewoniewski W., Węcel K., Abramowicz W., (2017), Relative Quality and Popularity Evaluation of Multilingual Wikipedia Articles. Informatics 2017, 4, 43.
  5. Lewoniewski W. (2022). Identification of Important Web Sources of Information on Wikipedia across various Topics and Languages. Procedia Computer Science, 207, 3290-3299.
  6. WikiRank – ocena jakości oraz popularności artykułów Wikipedii w różnych językach.
  7. BestRef – ocena źródeł informacji Wikipedii w różnych wersjach językowych.
  8. DBpedia blog. (2021). Giving knowledge back to Wikipedia: Towards a Systematic Approach to Sync Factual Data across Wikipedia, Wikidata and External Data Sources.

Strona korzysta z plików cookie w celu realizacji usług zgodnie z Polityką prywatności.
Możesz określić warunki przechowywania lub dostępu do cookie w Twojej przeglądarce lub konfiguracji usługi.