SELECT l.code, (COALESCE(lt.iface_name -> $1, lt.iface_name -> 'rus'))::text || ' — ' || (COALESCE(lt.iface_name -> l.code, lt.iface_name -> 'eng'))::text AS name, l.locale FROM languages AS l LEFT JOIN language_taxonomy AS lt ON (l.taxonomy_id = lt.id) WHERE l.iface IS TRUE ORDER BY code;
Корпус: |
Язык: |
SELECT id, date, header, full_text, tag_nums, tag_names FROM get_news($1, $2, $3, $4, $5) LIMIT 8;
На базе корпуса выполняются проекты:
Морфологические анализаторы:
Все представленные файлы упакованы в Linux как tar.gz, для распаковки в Windows или MacOS X вам может потребоваться установить дополнительное ПО, напр., бесплатный архиватор 7-zip.
Проект создания корпуса текстов на языках малочисленных народов Сибири реализуется с 2011 года. В 2011—2014 годах он выполнялся в рамках программы Президиума РАН «Корпусная лингвистика» сотрудниками и аспирантами отдела Севера и Сибири Института этнологии и антропологии РАН. С 2017 года реализация проекта продолжена в рамках проекта «Языковое и этнокультурное разнообразие Южной Сибири в синхронии и диахронии: взаимодействие языков и культур», выполняемого на базе Томского государственного университета (грант Правительства РФ № 14.Y26.31.0014) сотрудниками кафедры этнологии МГУ, отдела Севера и Сибири ИЭА РАН и Лаборатории лингвистической антропологии ТГУ.
Основной целью проекта является создание общедоступного электронного корпуса фольклорных материалов с возможностью:
Созданный уникальный ресурс может быть использован в процессе преподавания аборигенных языков в школах и ВУЗах, а также для научно-исследовательской работы лингвистов, фольклористов и этнологов, владеющих данными языками.
Согласно проектной заявке 2011 года корпус должен был включать фольклорные материалы лишь на двух языках: шорском и эвенкийском. Объем шорского и эвенкийского подкорпусов к концу 2011 года предполагалось довести до примерно 120.000 и 6.000 словоупотреблений соответственно. С целью демонстрации возможностей корпуса в плане включения материалов на других языках, в нем дополнительно размещены фольклорные тексты на телеутском языке.
В настоящий момент «корпусная машина» обслуживает следующие корпусы:
SELECT l.code, lt.iface_name -> 'rus' AS name, CASE WHEN comment IS NOT NULL THEN ' (' || (l.comment -> 'rus') || ')' ELSE NULL END AS comment FROM languages AS l LEFT JOIN language_taxonomy AS lt ON (l.taxonomy_id = lt.id) WHERE l.corpus IS TRUE ORDER BY 2;
/corpora/index.php
Подробную текущую статистику по каждому корпусу можно посмотреть на странице «Статистика».
Вы можете свободно использовать небольшие (как правило, 1—3 предложения) отрывки из представленных в корпусе текстов в качестве примеров или иллюстраций.
Если вы хотите воспроизвести в какой-либо форме более крупные фрагменты либо полные тексты, вам необходимо обратиться к руководителю проекта для согласования условий.
При любом использовании материалов сайта обязательна ссылка на «Корпусы ИЭА РАН», при цитировании текстов обязательно указывать название и имя исполнителя.