YAGO (Yet Another Great Ontology) — база знаний на основе семантических технологий
YAGO — это онтологическая база знаний, созданная путем автоматического объединения данных из Википедии, WordNet и GeoNames. В отличие от Wikidata и DBpedia, YAGO уделяет особое внимание качеству данных и их связи с лингвистическими ресурсами.
🔹 Официальный сайт: https://yago-knowledge.org/
🔹 Для чего используется YAGO?
- Семантический веб и Linked Data
- YAGO является частью Linked Open Data Cloud и совместима с RDF/SPARQL.
- Используется для обогащения других баз знаний (Wikidata, DBpedia).
- Искусственный интеллект и NLP
- Применяется в задачах распознавания именованных сущностей (NER).
- Используется для обучения моделей понимания естественного языка (NLU).
- Академические исследования
- Анализ онтологий и графов знаний.
- Сравнение культурных и исторических данных.
- Поисковые системы и рекомендации
- Улучшение поиска за счет связей между сущностями.
🔹 Какие данные есть в YAGO?
YAGO содержит более 10 млн сущностей и 120 млн фактов, включая:
Тип данных | Примеры |
---|---|
Люди | Ученые, политики (связи, даты жизни) |
Места | Города, страны (координаты, иерархия) |
Организации | Компании, университеты (основатели, даты) |
События | Войны, научные открытия (участники, даты) |
Лингвистические данные | Связи с WordNet (синонимы, категории) |
Пример данных в YAGO
- Альберт Эйнштейн →
родился в
→ Ульм →находится в
→ Германия - WordNet-связь:
scientist
(ученый) →researcher
(исследователь)
🔹 Как получить данные из YAGO?
1. SPARQL-запросы
Доступ через SPARQL-эндпоинт:
SELECT ?person WHERE {
?person yago:hasWonPrize yago:NobelPrize .
}
(Находит всех лауреатов Нобелевской премии)
2. Скачивание дампов
🔹 Форматы: RDF, TSV, Turtle
🔹 Ссылки: https://yago-knowledge.org/downloads
3. Интеграция с Python (RDFlib)
from rdflib import Graph
g = Graph()
g.parse("yago_data.ttl", format="turtle")
for subj, pred, obj in g:
print(subj, pred, obj)
🔹 Сравнение YAGO с Wikidata и DBpedia
Критерий | YAGO | Wikidata | DBpedia |
---|---|---|---|
Источник данных | Википедия + WordNet + GeoNames | Ручное редактирование | Автопарсинг Википедии |
Качество данных | Высокое (ручная проверка) | Зависит от редакторов | Среднее (возможны ошибки) |
Лингвистика | ✅ Интеграция с WordNet | ❌ Нет глубокой лингвистики | ❌ Нет |
SPARQL | ✅ Полная поддержка | ✅ Полная поддержка | ✅ Полная поддержка |
🔹 Плюсы и минусы YAGO
✅ Преимущества:
- Высокая точность (ручная проверка фактов).
- Лингвистическая поддержка (WordNet).
- Совместимость с семантическим вебом.
❌ Недостатки:
- Меньший охват, чем у Wikidata.
- Медленное обновление (не всегда актуально).
Вывод
YAGO — лучший выбор, если вам нужно:
✔ Высококачественные данные с ручной проверкой
✔ Лингвистические связи (WordNet)
✔ Семантическая совместимость (RDF, SPARQL)
Если нужен максимальный охват — выбирайте Wikidata.
Для автоматического парсинга Википедии — DBpedia.