Wikidata — база знаний, связанных открытых данных
Wikidata — это свободная, многоязычная база знаний, созданная и поддерживаемая Фондом Викимедиа (Wikimedia Foundation). В отличие от DBpedia, которая автоматически извлекает данные из Википедии, Wikidata изначально разрабатывалась как структурированное хранилище фактов, которые могут редактироваться людьми и ботами.
🔹 Для чего используется Wikidata?
- Централизованное хранение структурированных данных
- Wikidata служит единым источником данных для всех проектов Викимедиа (Википедия, Викисклад, Викицитатник и др.).
- Например, инфобоксы в Википедии часто берут данные из Wikidata.
- Семантический веб и Linked Open Data (LOD)
- Все элементы в Wikidata имеют уникальные URI (например,
Q42
— Дуглас Адамс). - Интегрируется с другими базами знаний (DBpedia, GeoNames, Schema.org).
- ИИ, машинное обучение и NLP
- Используется для обучения моделей (например, генеративные ИИ, чат-боты).
- Помогает в распознавании именованных сущностей (NER).
- Разработка приложений и визуализация данных
- Можно строить графы знаний, дашборды, чат-боты (например, вики-ассистенты).
- Пример: Scholia — визуализация научных публикаций на основе Wikidata.
- Исследования (история, социология, лингвистика)
- Анализ культурных тенденций, исторических событий.
- Сравнение данных между странами (например, статистика по населению).
🔹 Какие данные есть в Wikidata?
Данные хранятся в виде утверждений (statements) по схеме:
🔸 Сущность (Item, Q…) → Свойство (Property, P…) → Значение
Основные категории данных:
Тип данных | Примеры |
---|---|
Люди | Учёные, политики, артисты (дата рождения, гражданство, профессия) |
Места | Города, страны (координаты, население, столица) |
Организации | Компании, университеты (основатели, год создания) |
Произведения | Фильмы, книги, музыка (автор, жанр, дата выхода) |
Наука | Химические элементы, биологические виды (молекулярная формула, таксономия) |
События | Войны, выборы, спортивные соревнования (дата, участники) |
Абстракции | Математические теоремы, философские концепции |
Пример структуры данных для «Илон Маск» (Q317521):
- P569 (дата рождения) → 28 июня 1971
- P27 (гражданство) → США (Q30), ЮАР (Q258)
- P106 (род занятий) → предприниматель (Q131524), инженер (Q81096)
- P800 (известные работы) → Tesla (Q478214), SpaceX (Q42189)
🔹 Как получить данные из Wikidata?
1. SPARQL-запросы
Официальный эндпоинт: https://query.wikidata.org/
Пример запроса (все лауреаты Нобелевской премии по физике):
SELECT ?person ?personLabel WHERE {
?person wdt:P106 wd:Q901 . # Профессия = учёный
?person wdt:P166 wd:Q38104 . # Награда = Нобелевская премия по физике
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}
2. API Wikidata
wbeditentity
— редактирование данныхwbgetentities
— получение данных по ID
3. Дампы данных (JSON/RDF)
Доступны для скачивания: https://dumps.wikimedia.org/wikidatawiki/
4. Готовые инструменты
- QuickStatements — массовое редактирование.
- OpenRefine + Wikidata Toolkit — очистка и загрузка данных.
🔹 Сравнение Wikidata и DBpedia
Критерий | Wikidata | DBpedia |
---|---|---|
Источник данных | Ручное и бот-редактирование | Автоматический парсинг Википедии |
Актуальность | Чаще обновляется | Может отставать |
Формат | JSON, RDF, SPARQL | RDF, SPARQL |
Многоязычность | Полная поддержка | Зависит от Википедии |
Связи с LOD | Очень сильная интеграция | Хорошая, но менее централизованная |
🔹 Плюсы и минусы Wikidata
✅ Преимущества:
- Открытая и редактируемая (как Википедия).
- Более актуальная, чем DBpedia.
- Лучшая поддержка многоязычности.
- Гибкие запросы через SPARQL.
❌ Недостатки:
- Могут быть ошибки (как в любой вики-системе).
- Некоторые данные избыточны или неполны.
Вывод
Wikidata — мощная альтернатива DBpedia, если нужны:
✔ Свежие и редактируемые данные
✔ Глубокая интеграция с Википедией
✔ Сложные запросы через SPARQL
Если вам нужны машинно-извлечённые данные (например, для NLP), можно использовать DBpedia + Wikidata вместе.