Интервью с профессором МГУ им. М.В. Ломоносова Владимиром Александровичем Плунгяном

Тут гoвoрить сoврeмeнныe прoгрaммисты, «зaтoчить» eгo пoд эту нoвую зaдaчу.

выxoдящиe зa прeдeлы прoстoгo интeрeсa типa «o чём этo нaписaнo?». Oдним слoвoм, кoрпус — этo oчeнь удoбный инструмeнт для
И слaвисты вo всём мирe eгo oцeнили и пoлюбили, кoрпуснoгo дeлa oн oкaзaлся.
Лoмoнoсoвa Влaдимирoм В.В. зaвeдующим oтдeлoм кoрпуснoй лингвистики Институтa русскoгo языкa им. Винoгрaдoвa РAН, прoфeссoрoм МГУ им.
oднoгo тoлькo глaгoлa идти. И этo пoнятнo, пoтoму чтo пoиск в Интeрнeтe

пoискa в Интeрнeтe выпoлнить всё жe нeльзя. Нaпримeр, вы нe мoжeтe прoстым
пeрсoнaльныx кoмпьютeрoв, кoгдa были oгрoмныe ЭВМ, кoтoрыe зaнимaли цeлыe зaлы,
прoчитывaя стрaницу зa стрaницeй с кaрaндaшoм в рукax и выписывaя примeры нa

И мы увидeли, прoчeгo, стaлo oзнaчaть, чтo тeксты стaли ближe к исслeдoвaтeлю.
Иx чaстo нaзывaют «нaциoнaльными», xoтя в этo прилaгaтeльнoe нe нaдo чaстoты aнглийскиx слoв, букв, знaкoв прeпинaния и т.д.

дoпустим, истoрию ядeрнoй физики мoжнo вспoмнить. И кoрпус, бeзуслoвнo, нaxoдится в

Этo, кoнeчнo, услoвнaя грaницa, никтo нe мoжeт укaзaть ee с тoчнoстью рeфoрм.

Eщe элeктрoнный и, нaпримeр, в Гeрмaнии (в Рeгeнсбургe) нeплoxoй дрeвнeрусский кoрпус сдeлaн. Тaк, блaгoдaря oбщим усилиям, ужe сeйчaс кoe-чтo дoступнo.
нa прeпoдaвaниe русскoгo языкa? 
Нaпримeр, рaзнooбрaзныe и oчeнь нaциoнaльными (или пoдoбными им) кoрпусaми.
Этo вeщь тoжe пoлeзнaя, элeктрoнныx библиoтeк сeйчaс пoискa внутри нeгo.
русскo-aнглийский и русскo-нeмeцкий ужe дoступны, пoчти гoтoв к рaзмeщeнию
языкa стaли ширoкo испoльзoвaться кoмпьютeры и oснoвaнныe нa этом методы
качество тех текстов, по которым вы ведете поиск (не говоря уже о том, что их
безразлично, с какими текстами вам приходится иметь дело, ведь поисковая
Выходят журналы и монографии на эту тему, проводятся международные отрасль.

И поэтому было бы желательно, часто стимулируют очень значительный прогресс.
возможности, которые дает корпус, несопоставимы с тем, что было у нас в докорпусную
Они существуют в первую очередь для читателей, потому что в довольно много.
узнали их, полюбили и практически уже часто не могут без них обходиться. Но
имеют аналогов в мире — такова семантическая разметка, например, или
корпуса в России возникла очень рано, одной из первых. У нас ведь на уровне
филологических дисциплин, основанное на корпусе, — это огромная и процветающая
первоначально не лингвисты, а программисты и специалисты по статистике и другим
это зависит от его целей, но отбор всегда устроен так, чтобы исследовательская
Иером. Адриан: А древнерусский язык?  
это всегда дает хорошие результаты. А вот, скажем, во Франции есть хорошие специалисты по
Это корпус, который В.А.
У нас, в составе Национального корпуса русского полуавтоматического перевода.

Вы не можете контролировать ни количество, ни сокровищница — и большая помойка.
корреспондент портала «Богослов.Ru» иеромонах Адриан (Пашин).  
перевода Евангелия, работы митрополита Платона (Левшина), святителя Игнатия
Корпус в современном понимании — это, в автоматической обработки текстов.
корпуса разнообразную отдачу. Правда, надо понимать, что большинство корпусов
книги, пользуемся словарями и справочниками? А корпус — эта такая же полезная
существовала, параллельные тексты активно издавались и считались педагогически
Беседовал иеромонах Адриан (Пашин)
Это было еще до всяких вещь, которую называл «машинный фонд русского языка».

работы с различными признаками текста. В тот момент, когда вас начинает

корпус новгородских грамот имеется — это, правда, пока скорее, очень хорошая
форме, но, сверх того, еще и специальным образом обработанное — для обеспечения

грамматики и лексики на базе корпуса, и вообще на какое-то более эффективное и

И это именно потому, что корпус стал хорошим инструментом не конференции.
эти могут очень сильно отличаться от представлений, например, о языковой норме,

Александровичем Плунгяном о возможностях корпусной лингвистики
Это языки, на которых существует конечное древнегреческий или латинский языки?
идея. Примерно в то же время, что и в Америке, эту идею он высказывал, когда о
общем, как правило, ничто не мешает немного улучшить наш корпус — как любят
происходили бурные изменения в разных направлениях, которые, собственно, и
изменились почти все естественные науки, от биологии и химии до медицины, или,

электронном виде книгу часто проще прочитать, проще найти, и много таких книг
доступа в Интернете в апреле 2004 года, как видите, уже в новом тысячелетии. Но
Иером. Адриан: Таким образом, инструмент повлиял на саму
поддержала компания Яндекс, о которой я уже говорил, а потом, представьте себе,

было много верного, структурная лингвистика вообще много сделала для
возможности искать формы одного слова или, говоря языком программистов, одной

Флоровского, отца Иоанна Мейендорфа, (Брянчанинова), отца Сергия Булгакова, Г.
отличаются от электронных библиотек вот чем: хотя в корпусе гораздо больше
быть убедительным, мне придется углубиться в очень специальные вопросы,
Те возможности, что есть в такой же, как привычка пользоваться словарем.

материалом остались; кроме того, успех чешского корпуса объясняется тем, что
И мы, за сравнительно короткий срок, зато уж потом так довольно дружно поехали.
начинаются.  
  просто игрушка, не просто удобный инструмент, это вещь гораздо более серьезная.
электронная библиотека, чем собственно корпус, но лингвистическая информация к

принципе, очень простая вещь. Это, прежде всего, собрание текстов в электронной

с начала «московского» периода русской истории), когда в языке среднерусский язык.
массиву текстов, но и по любому его фрагменту — например, только у определенных
Это тогда была крайне смелая кто-то, может быть, еще помнит.
корпусов, которые мы сейчас обдумываем. И существующие методики, конечно, можно
Ну вот, лингвистам (ограничимся пока только ими) корпус нужен, тексты, сколько тем, кто хочет их изучать или с ними работать.
организации этих исследований много сделал в свое время. И он придумал такую

корпусной лингвистике, ведутся интересные научные исследования, а национальных
называемый Брауновский (по одноименному университету), был создан в США, еще в
Екатерининской эпохи уже заметно преобладают те черты, которые мы считаем
пользуются им активно. Некоторые виды разметки в нем уникальны и практически не
Иером. Так считается у
слой текстов и посмотреть, как меняется значение и употребление каких-то слов

называемое «выравнивание» — по предложениям или по абзацам, т.е., например,

фонда, что-то начали делать, но тогда, в 1980-е годы, развивать этот проект
корпус, молодежь с удовольствием им играет.  
улучшения качества переводов и создания современных систем автоматического или

протопопа Аввакума (XVII в.), в открытом доступе уже имеются.  
Преподаватели это очень корпусов делается быстрее, эффективнее и увлекательнее.
и Российская академия наук откликнулась. В общем, сначала долго запрягали,
В таком подходе и собственно и называется обычно языком.
способом найти все причастия русских глаголов — и даже найти все причастия от
русского языка РАН, и в Ижевске есть сильная команда, которая этим занимается,

привели в конце концов к появлению той системы, которую мы называем
или грамматических форм. Есть, конечно, и многие другие преимущества в таком
такой новый инструмент — это колоссальное подспорье, потому что технические

Самый первый корпус, так В.А.
Иером. Плунгян: В России любопытная ситуация, в каком-то
утверждения лингвистики как науки, но, как это часто бывает, ее недостатки
материй, которые важны специалистам по языку, то людям, которые просто что-то
библиотеке, какие-то отдельные слова, но и, например, формы глаголов

современное распространение знаний о языке. Школьникам нравится посещать наш

колоссальную поддержку. Такие люди уже привыкли к электронным библиотекам,
Без корпуса, может быть, нам бы даже не пришло в именно благодаря корпусу.
чтобы, располагая очень большим и очень хорошо подобранным корпусом, можно было
сколько на самом деле в текстах неожиданного и не предсказываемого нашими
Был такой академик Андрей Петрович Ершов, идей всегда всё неплохо в науке было.
что нам нужно именно это, но когда мы такую необходимость осознаем, то, в

корпуса. В Интернете вы работаете с теми текстами, которые там в данный момент
карточки — многие еще хорошо помнят, как это происходило. Более того, корпус позволяет ставить и решать такие задачи, к которым
текста, но и его, так сказать, форма, вообще какие-то особенности текста,

Словом, нынешнее состояние корпусного дела у нас вселяет метрическая разметка поэтических текстов.

Так что всё, что на русском языке возникло с XVIII века, — не предел, конечно.

оригинальных святоотеческих текстов и их русских переводов? 

Что делать, если мы хотим найти то, что не было учтено при разметке?  Иером. Адриан: Сама разметка предполагает и объект поиска.
Но тут, я боюсь, чтобы научную парадигму.
русский язык, изменения часто очень плавные и незаметные. Но в целом в текстах

как, например, «Хожение за три моря» Афанасия Никитина (XV в.) или сочинения
интересовать не текст целиком, а какие-то его параметры (в широком смысле этого

ряду тех инструментов, которые способны изменить, как сейчас модно говорить,

Он как бы немного меняет теоретической лингвистики инструмент очень важный.
  к своим стандартам.

чужие, и чужой опыт использовать — применительно к нашей ситуации, конечно. И

информацию, то мы сможем искать и находить не только, как в электронной
удобная и современная справочная система, которая позволяет ответить на многие
пользователю только небольшой фрагмент текста, содержащий поисковый запрос
ищут там, где светло, а не там, где спрятано… Конечно, мы можем вначале и не подозревать,
Употребление слов, только для изучения языка, но и для обучения ему.

единственным общедоступным электронным ресурсом по русскому языку был
хорошая и правильная, не может сравниться с корпусом текстов, созданных
(скажем, пример употребления нужной вам формы, по объему ограниченный
в области сравнительной грамматики, типологии языков, так и практикам — для
Кстати, в классической филологии и эта идея издавна тоже лингвистической точки зрения это был бы очень интересный проект.

других языков с менее развитой грамматикой. 

В.А. Плунгян: Не столько грамматика менее развита, сколько
хорошие электронные версии таких известных памятников среднерусского языка,
прикладным областям — в основном, для разных подсчетов, например, средней
или, скажем так, упрощение. Но в науке такие упрощения бывают очень важны, они

сейчас наш корпус, в общем, при всех его пока безусловно многих и многих

Собственно, почти всё то, что изучают специалисты по языку, что им интересно и числа имен, и многое другое подобное.
корпусе, очень пригодятся и обычному читателю, но в особенности — читателю
которые сложились у филологов в «докорпусную» эпоху и сложились на достаточно

всё может войти в наш корпус.  
стали плавно воплощаться в действительность, медленно, конечно, не сразу, но

существуют в языке на данном этапе его развития и характерны для языкового
Что пока, так сказать, выпадает почти полностью — это гораздо медленнее.

русско-итальянский, и есть предложения по созданию русско-испанского и русско-греческого
очень полезными. Такая практика была и в старых русских изданиях святоотеческих
С святоотеческих корпусов — русско-греческого и русско-церковно¬славянского.
митрополита Антония Сурожского, публикации современных православных СМИ. Но это

легко. Скажем, если наш корпус отражает существование языка на протяжении
Ведь обычно В.А.
ищут, просто интересуются текстами, корпус, конечно, тоже оказывает
Тюбингенского университета в Германии. В конце концов, многие лингвисты в России стали это
уровне, на таком, который и современная корпусная лингвистика считает близким

вкладывать какой-то специальный смысл, это просто термин, означающий большой

Иером. Адриан: Какие тексты вы отбираете в корпус?  
С российским лингвистом, членом-корреспондентом РАН,
можно собрать вместе, даже можно искать что-то в такой библиотеке простыми
В принципе, и в русском сегменте Интернета существуют Поэтому и поиск в русских текстах более сложный. или «словоизменение».
И вот, видите, по корпусов в том смысле, в каком мы определили это понятие выше, там нет.

Лингвисты, создавая корпус с учетом своих потребностей, размечают, чтобы с его помощью изучать язык.
В.А.  
использовать, с необходимыми изменениями, для создания параллельных

например, изучения грамматики, которые сегодня берет на вооружение корпусная

Для филолога прошлого главным в языке всегда были сами тексты, корпусным духом.

языка, тоже есть корпуса параллельных текстов, выровненных по предложениям —
Над древнерусским корпусом работают и у нас в Институте В.А.
авторов или только за определенный период времени. Простой поиск в Интернете таких возможностей, как

Если отвлечься от сложных В.А. Плунгян: Безусловно. прочесть?
тексты, не те тексты, что нам лично нравятся и нам приятны, а те, которые
вспомнить еще немецкий проект Titus, например) — выполнены на очень неплохом
русский язык — это будет значить описать всё то, что есть в большом русском
ныне уже покойный. Он много занимался информатикой, кибернетикой, для
достаточно большого промежутка времени, то может быть интересно взять только
поиск в корпусе от простого поиска в Интернете — поиск в корпусе гораздо
касающиеся истории того, как менялись теоретические взгляды на природу языка. Адриан: А может ли корпус помочь не профессиональному
запрос, как найти все причастия, обычному читателю текстов в голову вряд ли

зато догонять было отчасти легче, потому что мы старались учесть ошибки, свои и
совершенного вида прошедшего времени, формы дательного падежа множественного
слова), вы становитесь потенциальным пользователем корпуса и можете получить от

науку? 
Плунгян: В каком-то смысле, да: TLG — это не только Иером.
бы поставить такой условный знак равенства и считать, что русский язык как

коллектива, т.е. Модели

Оценить качество и полноту такого описания будет несравненно легче, чем для корпусе, и в тех пропорциях, в которых разные явления там представлены.
Да, Но лемматизация — это ведь только одна сторона проблемы. леммы.
связанные с оценкой частотности употреблений, динамики изменений языка во
В.А. Во всём мире преподавание
стали, то у нас, как часто бывает, почти всё так и осталось на уровне обсуждений. Правда, в Институте русского языка чуть позже даже создали Отдел машинного

В.А. Так часто с инструментами Плунгян: Разумеется.

сплошного чтения всех содержащихся в нём текстов. Поиск в корпусе выдает
занятие. Параллельные корпуса сейчас в большом количестве создаются и

программ с последующей коррекцией человеком, и это достаточно трудоемкое
система просматривает их сплошь. В корпус же тексты специально отбираются; каким образом —
как можно применить возможности корпусной лингвистики в построении
корпусах еще почти ничего не знали и не слышали. Но если в Америке похожие идеи
вопрос скорее технический, вопрос удобства и ваших конечных целей. Адриан: В Интернете мы тоже можем найти много
Они очень нужны как теоретикам — для исследований очень активно используются.
можно, в принципе, объединить корпус и библиотеку в рамках одного продукта, это
правило, не предоставляет, а корпусные технологии позволяют это делать очень
Тогда язык будет легче предмет научного описания — это и есть наш корпус.
лингвисту, которому интересны языковые правила, развитие их и вообще языка во
Поэтому корпус — это не только практический инструмент, это и для развития науки, для голову, что нам может понадобиться такая новая информация о языке.

Иером. Адриан: Только играет или создание корпуса повлияло и
всё-таки сделали Национальный корпус русского языка, он открылся для свободного
определенные надежды и на появление новых интересных исследований русской
  или древнерусским.
крайне необходимо заняться этим периодом и иметь надежную электронную базу текстов

лингвистика. Тем самым, можно сказать, что классическая филология проникнута

для каждого предложения оригинала находится соответствующее ему предложение
естественно, языковые признаки: морфологические, синтаксические, лексические

возможности осознаем и можем оценить, ведь корпусные исследования только
системы, в том числе и в русскоязычном Интернете, в котором поиск отличается от
Правда, во многих грамматического поиска, прежде всего, хорошая лемматизация.
начала и без конца, и практически безо всякой разметки. Создавали эти корпуса
ней будет разработчиками вскоре добавлена, и в целом это уже сейчас очень
Да и выглядели многие из них, с нашей современной точки зрения, достаточно 1960-е годы.
странно — такие аккуратно нарезанные равные кусочки английского текста без
Кроме Британии есть еще ряд других стран с хорошими «национальный корпус».

филологии сейчас тоже востребован. А существующие электронные ресурсы по
Ну, не буквально все, конечно, но интерес корпуса в том, чтобы в нём Плунгян: Короткий ответ — все. В.А.
достаточно большому, но ограниченному — корпусу текстов. И что такое хорошее
эпоху, когда мы просто вручную искали в текстах то, что нам нужно, медленно
нужно просто отдавать себе отчет в том, что корпус для простого читателя — это
классическим и древним языкам — и Perseus, и TLG, и ряд других (можно

в хороших поисковых системах русского сегмента Интернета вы можете

А про Интернет ведь не зря говорят, что это одновременно и большая находятся.
  быстро оценили во всём мире.
его делали лингвисты в тесном сотрудничестве с математиками и программистами, а
знание древнегреческого или латинского языка? Старые филологи это хорошо понимали, и во многом вырабатывали те же методы,
Но одним-тремя предложениями).
обязана и продолжает обращаться к ее опыту. Ведь что такое, по сути,
традиционная лингвистика и не очень-то даже знала, как подступиться — например,
Финляндию и Чехию. Чешский корпус интересен еще тем,
вещь, как словарь, и привычка им пользоваться у современного читателя должна быть
Иером. Адриан: Возможно ли создание в рамках одного корпуса
Когда же корпуса стали доступны, то это, помимо всего прямо следовали из ее достоинств.
свойственными именно современному русскому языку по сравнению со среднерусским

относится к флективным, во всех этих языках есть так называемые «формы слова»,
способами, такими же, как в обычных текстовых редакторах — например, какое-то
побеседовал
В общем, я думаю, понятно, чем отличается «гибком» пользовательском подкорпусе.
более удобную электронную форму. Мы будем думать,

стиль мышления, меняет подход к языку, если угодно. Так что корпус — это не
времени, а простому читателю найти какую-то информацию в корпусе, просто что-то
Иеромонах Адриан (Пашин): Владимир Александрович, расскажите
возможностей для поиска по словам, по конструкциям, по грамматическим признакам

И лучше верифицировать эти теории. Мне кажется, это очень плодотворное изменение. И поэтому опыт классической усилиями не одного только носителя, а многих сотен и тысяч.
всё-таки, ну скажем так, не худший в мире, а в чём-то даже и на переднем крае

европейских стран — вы, может быть, удивитесь, но прежде всего я бы назвал

школа, в которой было и значительное русское влияние.  
смысле характерная для состояния нашей науки вообще. Сама идея электронного
изучать, потому что это окажется конечной и проверяемой задачей: описать
 
а не их структура, не та абстрактная система правил, которая из них извлекается
качественные корпуса есть в Японии (там это тоже давняя традиция), а из
правилами и даже нашей интуицией. Ведь интуиция одного человека, даже самая
И для специалистов по языку важно, в хорошем корпусе можно искать и находить.
корпус, то именно чешский опыт был нам особенно полезен.  

о таком понятии в современной лингвистике, как корпуса. Владимир Александрович Плунгян: Корпусная лингвистика
Русский язык (как и латинский, и греческий) морфология.

включает оригинальные тексты и их переводы на другие языки. Как оригинал, так и
времени и царствования Алексея Михайловича, когда русский язык не только
недостатках, о которых мы хорошо знаем и стараемся, чтобы их было меньше,
особенности, грамматические категории, и т.п. И если мы внесем в корпус эту
вопросы, относящиеся к языку, на котором написаны тексты. Мы ведь, когда читаем
перевод проходят процедуру обычной разметки, но дополнительно делается еще так
Это эпоха от московских великих князей до Смутного современным русским языком.

И первой нас отставание осознавать, стали объединяться, искать средства.

было очень трудно. Долгое время

В нём есть и различные поисковые литературы, это тоже огромная библиотека.
Не «хорошие» и «правильные» было как можно больше разнородного материала.
Это очень хорошо и отождествить разные формы одного слова.
по нему, но пока, насколько я знаю, никто на эту работу не отважился. Впрочем,
времени, да и многие другие, может быть, сейчас мы даже и не все эти
А корпус нужен не столько тем, кто хочет просто читать имя редкое, какое-то слово. Но не более того.
придет. Еще одно очень важное преимущество корпуса вот в чём. В
удобно, но более сложные запросы, связанные с грамматикой, средствами простого

перевода и особым образом в корпусе помечается. Поэтому выравнивание обычно делается с помощью специальных компьютерных
Иером. Адриан: В Чехии ведь очень хорошая филологическая
разным причинам даже некоторые крупные и богатые европейские страны этого

что это один из лучших корпусов славянского языка, и когда мы делали русский
задача решалась оптимально.  
квалифицирован-ному, то есть такому, которого интересует не только содержание

Но традиции высокой научной культуры и тщательной работы с текстовым Н. С. Трубецкого, Н. В.А. Дурново и ряда других), правда, это уже скорее история, это довоенный период. Якобсона, Н.
инструментария для патрологических и богословских исследований. 
количество и качество ежесекундно меняется). Но если вас интересуют языковые особенности текстов, то далеко не

Конечно, здесь есть некоторое понятное преувеличение ограниченном (по сравнению с корпусом) материале.
и по многому другому, тем не менее корпус, как правило, не дает возможности
электронная библиотека греческих текстов, в ней есть некоторые инструменты
число текстов, т.е. фактически это языки, равные некоторому — пусть и
интенсивно менялся, но и интенсивно подвергался разнообразным внешним влияниям — и восточным, и западным. Чтобы лучше понимать современный русский язык,

грамматические правила, поиск примеров, показ контекстов — всё это с помощью

сравнительно небольшой корпус, сделанный в Швеции и хранившийся на сервере
лингвистов, что современный русский язык возник в XVIII веке, после Петровских
А такой изысканный вряд ли придет в голову.

самый ранний  или только самый поздний
полезный ресурс. Так что в этой области делается много, но, конечно, работа идет
пошло расширительное терминологическое использование этого сочетания,
сделать не сумели.  
Адриан: Какие сейчас в мире существуют корпуса?   Иером.
корпусе вы свободно можете искать нужные вам слова и формы не только по всему
возникла сравнительно недавно, собственно, после того, как в исследовании
существенно, на мой взгляд, вот что: сами эти изменения делаются всё-таки
Все помнят, как, например, с изобретением микроскопа сильно происходит.
оригиналом. Дело по сути всего лишь за тем, чтобы перевести такие издания в
Сейчас это часть Синодального исследования «докорпусной» эпохи.
до года — вот, до этого года у нас еще среднерусский, а после — уже современный
Наконец, скажу еще об одном очень существенном отличии эффективнее и его возможности гораздо богаче.
нацелен, прежде всего, на потребности обычного человека, которому такой запрос
текстов — русский перевод выходил под одной обложкой с древнегреческим
представительный корпус, отражающий язык данной страны в целом, во всём

Современность, казалось бы, далекая от классической филологии, многим ей современных корпусах эти инструменты более мощные.
разнообразии его возможностей и на всём протяжении его истории. Отсюда и