Компьютерная лингвистика: «мы ждем бакалавров разных специальностей»
Содержание:
- COVID-19 Policies
- Учебный процесс
- Graduate Advising Expectations
- Качество перевода
- Инструментарий компьютерной лингвистики.
- Coterminal Master’s Degree Program in Linguistics
- Направления компьютерной лингвистики
- International Students Can Now Apply to HSE through a Simplified Procedure
- Истоки
- Интересные факты
- Научно-исследовательский блок
- Инструментарий компьютерной лингвистики.
COVID-19 Policies
On July 30, the Academic Senate adopted grading policies effective for all undergraduate and graduate programs, excepting the professional Graduate School of Business, School of Law, and the School of Medicine M.D. Program. For a complete list of those and other academic policies relating to the pandemic, see the «» section of this bulletin.
The Senate decided that all undergraduate and graduate courses offered for a letter grade must also offer students the option of taking the course for a “credit” or “no credit” grade and recommended that deans, departments, and programs consider adopting local policies to count courses taken for a “credit” or “satisfactory” grade toward the fulfillment of degree-program requirements and/or alter program requirements as appropriate.
Учебный процесс
«Учебный процесс включает лекции и семинары по профильным дисциплинам, включая спецкурсы междисциплинарного характера, практические занятия по русскому языку как иностранному и английскому языку для академических целей, научно-педагогическую и преддипломную практики, научно-исследовательскую работу. Преподавание ведется полностью на английском языке.Специфика состоит в особом внимании к общей теории языка и лингвистической компаративистике, углублённом изучении системы языка в научно-теоретическом и практическом аспектах.
Основные профильные дисциплины: Philology in the System of Modern Humanities, Theory and History of Linguistics, General Linguistics, Theory of Intercultural Communication, Linguistic Semantics, Linguistic Pragmatics, Discourse Analysis, Comparative and Contrastive Linguistics, Methods of Scientific Research, Lexicography Methods, Textual Stylistics, Russian and English Literature etc.»
Graduate Advising Expectations
The department is committed to providing academic advising in support of each graduate student’s scholarly and professional development. The advising relationship should entail collaborative engagement by both the adviser and the advisee. Faculty advisers guide students in key areas such as selecting courses, designing and conducting research, navigating degree requirements, exploring academic and professional opportunities, and preparing for their post-Ph.D. careers. Graduate students are active contributors to the advising relationship, proactively seeking academic and professional guidance and taking responsibility for informing themselves of policies and degree requirements for the Ph.D. program. An important part of the advisee-adviser relationship is that students learn to advocate for themselves; this includes discussing expectations for the adviser/advisee relationship with the adviser and revisiting these expectations periodically to ensure mutual understanding.
Advisers and Advising Meetings
A department faculty member serves as the Graduate Studies Adviser (GSA). Typically, the GSA keeps track of the general degree progress of all M.A. and Ph.D. students, offers advice on meeting department and University milestones, coordinates departmental advising and TA assignments, and approves special petitions.
Ph.D. Students
Each student has an individual adviser (also referred to as a second adviser in the pre-candidacy stage), usually chosen based on shared research interests, who advises on coursework, training in research methodologies, research projects, and professional development. Entering students are assigned a second adviser for their first two quarters in the program. The second adviser helps first year students make the transition to graduate school and take the initial steps towards their long-term goals. Beginning with Spring Quarter of the first year, the student’s current Qualifying Paper Committee Chair serves as the second adviser. On completion of these papers, the student chooses a faculty member as Chair of their dissertation Reading Committee; this faculty member becomes the main adviser. Throughout their graduate career, students are also encouraged to consult with other faculty, including the members of their Qualifying Paper and Reading Committees.
In order to meet the department’s advising expectations, twice a year each student and their adviser meet for a holistic, structured discussion of the student’s recent progress, short-term plans, and longer-term academic and professional goals and to discuss the steps that the student should take to meet these objectives. The GSA usually joins the discussion with students in the earlier stages of the Ph.D. program. Students who receive department Summer funding are also expected to fill out a Summer Commitments Agreement that lays out their activities, priorities and goals for the summer, and to discuss these with their adviser.
Students are expected to meet regularly with their advisers and to keep them informed about their academic progress. Each student and their adviser should mutually agree on the frequency of these meetings when the advising relation begins and reassess their frequency at the start of every quarter.
M.A. Students
At the start of graduate study, each student is assigned a faculty member as an M.A. program adviser, chosen based on shared research interests and the student’s proposed M.A. thesis area. Usually this faculty member serves in this role for the duration of the M.A. program. Besides advising the student on the M.A. thesis, the adviser provides guidance on the student’s overall path through the M.A. program. Students are expected to meet with their advisers at least once each quarter and to keep them informed about their academic progress. The precise meeting frequency should be mutually agreed upon and reassessed quarterly; it depends on the student’s stage in the program.
Additional resources
The Department of Linguistics Ph.D. Handbook provides additional information. Students are also encouraged to familiarize themselves with the Policies and Best Practices for Advising Relationships at Stanford. Additional resources on advising are offered by VPGE. For a statement of University policy on graduate advising, see the section of the Bulletin.
Качество перевода
Качество перевода зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке. Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.
Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бродящих по Интернету шуток. Из пространных примеров наиболее известен текст «Гуртовщики Мыши» (перевод компьютерной документации программой Poliglossum на основе медицинского, коммерческого и юридического словарей); из кратких — фраза «My cat has given birth to four kittens, two yellow, one white and one black», которую переводчик компании ПРОМТ превращает в «Моя кошка родила четырёх котят, два желтых цвета, одного белого и одного афроамериканца». Главной причиной того, почему программа перевела именно так, было то, что после слова black нужно было добавить kitten, тогда программа переведёт правильно: «Моя кошка родила четырёх котят: двух жёлтых, одного белого и одного чёрного котёнка».
Чаще всего подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращает «bra-ket notation» в «примечание Кети лифчика», «Lie algebra» — в «алгебру Лжи», «eccentricity vector» — в «вектор оригинальности», «Shawnee Smith» в «индеец племени шони Смит» и т. п.
Инструментарий компьютерной лингвистики.
Компьютерная лингвистика как особая прикладная дисциплина выделяется прежде всего по инструменту – т.е. по использованию компьютерных средств обработки языковых данных. Поскольку компьютерные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые различные средства программирования, то об общем понятийном аппарате компьютерной лингвистики говорить вроде бы не приходится. Однако это не так. Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В их основе лежит теория знаний, первоначально разрабатывавшаяся в области искусственного интеллекта, а в дальнейшем ставшая одним из разделов когнитивной науки. Важнейшими понятийными категориями компьютерная лингвистика являются такие структуры знаний, как «фреймы» (понятийные, или, как принято говорить, концептуальные структуры для декларативного представления знаний о типизированной тематически единой ситуации), «сценарии» (концептуальные структуры для процедурного представления знаний о стереотипной ситуации или стереотипном поведении), «планы» (структуры знаний, фиксирующие представления о возможных действиях, ведущих к достижению определенной цели). Тесно связано с категорией фрейма понятие «сцена». Категория сцены преимущественно используется в литературе по компьютерной лингвистике как обозначение концептуальной структуры для декларативного представления актуализованных в речевом акте и выделенных языковыми средствами (лексемами, синтаксическими конструкциями, грамматическими категориями и пр.) ситуаций и их частей.
Определенным образом организованный набор структур знаний формирует «модель мира» когнитивной системы и ее компьютерной модели. В системах искусственного интеллекта модель мира образует особый блок, в который в зависимости от выбранной архитектуры могут входить общие знания о мире (в виде простых пропозиций типа «зимой холодно» или в виде правил продукций «если на улице идет дождь, то надо надеть плащ или взять зонтик»), некоторые специфические факты («Самая высокая вершина в мире – Эверест»), а также ценности и их иерархии, иногда выделяемые в особый «аксиологический блок».
Большинство элементов понятий инструментария компьютерной лингвистики омонимично: они одновременно обозначают некоторые реальные сущности когнитивной системы человека и способы представления этих сущностей, используемые при их теоретическом описании и моделировании. Иными словами, элементы понятийного аппарата компьютерной лингвистики имеют онтологический и инструментальный аспекты. Например, в онтологическом аспекте разделение декларативных и процедурных знаний соответствует различным типам знаний, имеющимся у человека – так называемым знаниям ЧТО (декларативным; таково, например, знание почтового адреса какого-либо NN), с одной стороны, и знаниям КАК (процедурным; таково, например, знание, позволяющее найти квартиру этого NN, даже не зная ее формального адреса) – с другой. В инструментальном аспекте знание может быть воплощено в совокупности дескрипций (описаний), в наборе данных, с одной стороны, и в алгоритме, инструкции, которую выполняет компьютерная или какая-либо другая модель когнитивной системы, с другой.
Coterminal Master’s Degree Program in Linguistics
The Department of Linguistics admits a limited number of Stanford undergraduates to the coterminal master’s degree program. Students are required to submit to the department a complete application, which includes a statement of purpose identifying a thesis topic, a Stanford transcript, three letters of recommendation (at least one of which must be from a faculty member in Linguistics), and a proposed course of study (worked out in advance with a Linguistics adviser). Applicants for the coterminal master’s degree may apply as early as their eighth quarter and no later than early in the eleventh quarter of undergraduate study. Decisions on admission to the coterminal degree program rest with the Graduate Admissions Committee of the Department of Linguistics.
University Coterminal Requirements
Coterminal master’s degree candidates are expected to complete all master’s degree requirements as described in this bulletin. University requirements for the coterminal master’s degree are described in the “Coterminal Master’s Program” section. University requirements for the master’s degree are described in the «» section of this bulletin.
After accepting admission to this coterminal master’s degree program, students may request transfer of courses from the undergraduate to the graduate career to satisfy requirements for the master’s degree. Transfer of courses to the graduate career requires review and approval of both the undergraduate and graduate programs on a case by case basis.
In this master’s program, courses taken three quarters prior to the first graduate quarter, or later, are eligible for consideration for transfer to the graduate career. No courses taken prior to the first quarter of the sophomore year may be used to meet master’s degree requirements.
Course transfers are not possible after the bachelor’s degree has been conferred.
Направления компьютерной лингвистики
Обработка естественного языка (англ. natural language processing). Уровни обработки и анализа текста: синтаксический, морфологический, семантический.
К задачам и направлениям компьютерной лингвистики относят:
- Корпусную лингвистику, создание и использование электронных корпусов текстов.
- Создание электронных словарей, тезаурусов, онтологий. Например, Lingvo. Словари используют, например, для автоматического перевода, проверки орфографии.
- Автоматический перевод текстов. Среди русских переводчиков популярным является Промт. Среди бесплатных известен переводчик Google Translate.
- Автоматическое извлечение фактов из текста (извлечение информации) (англ. fact extraction, text mining)
- Автореферирование (англ. automatic text summarization). Эта функция включена, например, в Microsoft Word.
- Построение систем управления знаниями. См. Экспертные системы.
- Создание вопросно-ответных систем (англ. question answering systems).
- Оптическое распознавание символов (англ. OCR). Например, с помощью программы FineReader
- Автоматическое распознавание речи (англ. ASR).
- Автоматический синтез речи.
International Students Can Now Apply to HSE through a Simplified Procedure
HSE’s Admission Rules for the 2017/2018 academic year have undergone some changes in regards to international admission. The admission track is now unified for students from both CIS and non-CIS countries. Thus, only two exams must be passed in order to be accepted into a given undergraduate programme, while competitions for Master’s programmes only require a portfolio and an interview. The rules for International Olympiad Competitions have also been changed. Registration for these competitions ends on October 18 (for some countries, deadlines may be extended).
Admissionsinternational studentsHSE admissions
Истоки
Математическая лингвистика является ветвью науки искусственного интеллекта. Её история началась в Соединённых Штатах Америки в 1950-х годах. С изобретением транзистора и появлением нового поколения компьютеров, а также первых языков программирования, начались эксперименты с машинным переводом, особенно русских научных журналов. В 1960-х годах подобные исследования проводились и в СССР (например, статья о переводе с русского на армянский в сб. «Проблемы кибернетики» за 1964 год). Однако качество машинного перевода до сих пор сильно уступает качеству перевода, произведённого человеком.
С 15 по 21 мая 1958 года в I МГПИИЯ состоялась первая Всесоюзная конференция по машинному переводу. Оргкомитет возглавляли В. Ю. Розенцвейг и ответственный секретарь Оргкомитета Г. В. Чернов. Полностью программа конференции опубликована в сборнике «Машинный перевод и прикладная лингвистика», вып. 1, 1959 г. (он же «Бюллетень Объединения по машинному переводу № 8»). Как вспоминает В. Ю. Розенцвейг, опубликованный сборник тезисов конференции попал в США и произвёл там большое впечатление.
В апреле 1959 года в Ленинграде состоялось I Всесоюзное совещание по математической лингвистике, созванное Ленинградским университетом и комитетом прикладной лингвистики. Главным организатором Совещания был Н. Д. Андреев. В Совещании приняли участие ряд видных математиков, в частности, С. Л. Соболев, Л. В. Канторович (впоследствии — Нобелевский лауреат) и А. А. Марков (последние двое выступали в прениях). В. Ю. Розенцвейг выступил в день открытия Совещания с программным докладом «Общая лингвистическая теория перевода и математическая лингвистика».
Интересные факты
- Чарльз Э. Р. Хоар утверждает, что разработал метод, известный как «быстрая сортировка», именно для машинного перевода. Дело в том, что в те времена словарь можно было хранить только на магнитной ленте, и если отсортировать слова в исходном тексте, то их перевод можно получить за один прогон ленты.
- Системы машинного перевода позволяют провести простой эксперимент, подтверждающий синтаксическое единство русского, украинского и белорусского языков. Для этого достаточно перевести произвольный текст с помощью одной из систем машинного перевода. Качество перевода в данном случае, как правило, получается очень высокими.
Научно-исследовательский блок
Концепция научно-исследовательского семинара
В рамках научно-исследовательского семинара магистры знакомятся с практикой научного исследования, разработки лингвистического ресурса или программного продукта и получают возможность не только освоить те или иные теоретические подходы и парадигмы, но, в идеале, добиться собственного значимого научного или практического результата.
НИС призван сформировать у слушателей:
— опыт постановки и решения научно-исследовательской или практической задачи, индивидуально и в коллективе;
— способность освоить конкретный теоретический аппарат и инстументарий и применить его к решению той или иной конкретной исследовательской или практической задачи;
— навыки академического письма, презентации и опыт разных форм представления для научных и практических проектов, навыки подготовки научных докладов;
— навыки академического общения на английском языке, самостоятельной работы с научной литературой на разных языках.
НИС проводится в формах проектных мастерских, приглашенных лекций и мастер-классов, миникурсов по теориям, моделям и конкретным языкам, полевой работы с малыми языками (в форме интервью с носителями или лингвистических экспедиций) и полевых социолингвистических исследований, работы с корпусами русского и иных языков.
В рамках НИСа группы магистров профиля «Теория языка» выполнят коллективные исследования по одному из базовых направлений магистратуры – русистики, типологии или социолингвистики, группы магистров профиля «Компьютерная лингвистика» выполняют проекты, направленные на создание готовых продуктов, связанных с автоматической обработкой естественного языка или же электронным представлением и обработкой гуманитарного наследия.
Мастер-класс
Мастер-класс является обязательным практическим курсом с приглашенными лекторами из самых разных областей, связанных с теорией языка, полевой лингвистикой, преподаванием иностранных языков и русского как иностранного, лингвистическими технологиями в научно-исследовательских сферах и коммерческих приложения. Курс крайне важен для выбора магистрантами будущей профессиональной специализации. Ожидается, что содержание курса будет непосредственно влиять на выбор проектов в научно-исследовательском семинаре. Принципиально, что приглашенные лекторы являются одновременно потенциальными работодателями магистрантов. Содержание курса варьируется в зависимости от состава внешних участников. Литература к занятию предлагается приглашенным лектором.
Инструментарий компьютерной лингвистики.
Компьютерная лингвистика как особая прикладная дисциплина выделяется прежде всего по инструменту – т.е. по использованию компьютерных средств обработки языковых данных. Поскольку компьютерные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые различные средства программирования, то об общем понятийном аппарате компьютерной лингвистики говорить вроде бы не приходится. Однако это не так. Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В их основе лежит теория знаний, первоначально разрабатывавшаяся в области искусственного интеллекта, а в дальнейшем ставшая одним из разделов когнитивной науки. Важнейшими понятийными категориями компьютерная лингвистика являются такие структуры знаний, как «фреймы» (понятийные, или, как принято говорить, концептуальные структуры для декларативного представления знаний о типизированной тематически единой ситуации), «сценарии» (концептуальные структуры для процедурного представления знаний о стереотипной ситуации или стереотипном поведении), «планы» (структуры знаний, фиксирующие представления о возможных действиях, ведущих к достижению определенной цели). Тесно связано с категорией фрейма понятие «сцена». Категория сцены преимущественно используется в литературе по компьютерной лингвистике как обозначение концептуальной структуры для декларативного представления актуализованных в речевом акте и выделенных языковыми средствами (лексемами, синтаксическими конструкциями, грамматическими категориями и пр.) ситуаций и их частей.
Определенным образом организованный набор структур знаний формирует «модель мира» когнитивной системы и ее компьютерной модели. В системах искусственного интеллекта модель мира образует особый блок, в который в зависимости от выбранной архитектуры могут входить общие знания о мире (в виде простых пропозиций типа «зимой холодно» или в виде правил продукций «если на улице идет дождь, то надо надеть плащ или взять зонтик»), некоторые специфические факты («Самая высокая вершина в мире – Эверест»), а также ценности и их иерархии, иногда выделяемые в особый «аксиологический блок».
Большинство элементов понятий инструментария компьютерной лингвистики омонимично: они одновременно обозначают некоторые реальные сущности когнитивной системы человека и способы представления этих сущностей, используемые при их теоретическом описании и моделировании. Иными словами, элементы понятийного аппарата компьютерной лингвистики имеют онтологический и инструментальный аспекты. Например, в онтологическом аспекте разделение декларативных и процедурных знаний соответствует различным типам знаний, имеющимся у человека – так называемым знаниям ЧТО (декларативным; таково, например, знание почтового адреса какого-либо NN), с одной стороны, и знаниям КАК (процедурным; таково, например, знание, позволяющее найти квартиру этого NN, даже не зная ее формального адреса) – с другой. В инструментальном аспекте знание может быть воплощено в совокупности дескрипций (описаний), в наборе данных, с одной стороны, и в алгоритме, инструкции, которую выполняет компьютерная или какая-либо другая модель когнитивной системы, с другой.