Computational linguistics/Datalingvistik Forår 2004

ved Henning Christiansen

AFLYST GRUNDET LAV TILMELDING :-(

Kurset finder sted på RUC, onsdage, de fleste gange 9.30-12 plus 13-15.30, startende 4. februar.
Kurset svarer til 7,5 ECTS point.

Se detaljeret kursusplan nedenfor.

Lokaler: Møderum 43.2.43 + Usabilitylab. 43.2.03

Målsætninger

Kurset giver en indføring til emnet datalingvistik gennem metoder baseret på logikprogrammering, både traditionelle Definite Clause Grammars og nyere constraint-baserede metoder. Målet er ikke at uddanne fikse og færdige udviklere til sprogteknologiske systemer, men at introducere til at man kan lave spændende, computerbaserede modeller af sprog. Vi vil koncentrere os om udvalgte aspekter af sprog og en stor del af arbejdet er udvikling af små prototyper. Hvis der er interesse for det, kan der arrangeres en klynge af projektarbejder inden for emnekredsen, som kan tilpasses deltagernes individuelle forudsætninger.

Kursusindhold

Der gives en overordnet introduktion til computerbaseret sprogbehandling, grundlæggende problemer og mulige anvendelser. En kort introduktion til programmeringssproget Prolog og dets indbyggede grammatiknotation Definite Clause Grammars. Simple konstituentgrammatikker og syntakskendere. Introduktion til Constraint Handling Rules og CHR Grammars, som også bygger på Prolog, men tillader kontekst-sensitive regler, fri brug af hypoteser, m.v. Eksempler på sproglige fænomener, f.eks. håndtering af tvetydighed, elipsis og koordination, anaphora (henførende stedord m.v.). Abduktion som begreb, abduktion til kontektsanalyse i CHRG. Mulig implementation af sætningsskemaer i DCG eller CHRG. Evt. andre eksempler udviklet i samarbejde med deltagerne. Oversigt over andre teknologier.

Deltagerforudsætninger

Der forudsættes enten en baggrund i lingvistik og mod på at omsætte beskrivelser til kørende programmer, eller et kendskab til indledende programmering, en interesse for sprog og et elementært kendskab til grammatik.

Kursuslitteratur

Kurset er primært blive baseret på noter og artikler, som gøres tilgængelige her fra siden.

Derudover benytter vi følgende bog som baggrundslitteratur og referenceværk; den bliver ikke brugt som egentlig "kursusbog", men vi vil dykke ind i enkelte afsnit og overlade meget til selvstændig læsning:

(JM) D. Jurafsky and J.D. Martin: Speach and Language Processing. An Introduction to natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice-Hall, 2000.

Til Prolog og DCG benyttes:

(BBS) P. Blackburn, J. Bos, K. Striegnitz: Learn Prolog Now! http://www.coli.uni-sb.de/~kris/learn-prolog-now/

(HC:Prolog) H. Christiansen: Introduction to Prolog as a database language. http://www.ruc.dk/~henning/adb2003/DatabaseProlog.pdf

Links til mere online-materiale om Prolog og DCG kommer senere.

Kursusoversigt (meget foreløbig)

DatoEmneØvelser
4/2-2004
9.30-12.00 og 13.00-15.30
Introduktion til datalingvistik, Introduktion til logiske grammatikker i Prolog
Læsstof: (BBS) Kap. 1, 4.1, 7, 8 t.o.m. 8.1.2
(NB: De beskriver hvordan DCG fungerer internt istedet for blot hvordan de virker; prøv at abstrahere fra det.
Dagens OHer: IntroForelOH.pdf.
Kursorisk baggrundsstof: (JM) Kap. 1, 2, indledninger sider af kap. 3, 4, 5, 7, 8, 9
Inden dagen er omme, ved I hvad "Computational Linguistics" overordnet går ud på, og I har skrevet jeres første lille grammatik som kan analysere sætninger automatisk, og måske endog svare pænt på dansk!
Introduktion og opgaver: PrologDCG_intro.pdf. Eksempelprogrammer (flade tekstfiler): familie, gram
Løsninger: familieAlt, gramAlt, gram2Alt.
11/2-2004
9.30-12.00
Mere om Prolog og DCG, workshop og opgaver SAMT introduktion for nye deltagere
Læsstof: (BBS) t.o.m. 7, 9-10; se evt 11. Spring de alt for tekniske detaljer over.
Alternativt om Prolog: (HC:Prolog) alt minus det som går på databaser og matematisk logik specifikt.
Dagens OHer: CompLingProlog.pdf (4,8 Mb!!), opgaver, og et eksempelprogram.
Nye deltagere: Se under første kursusgang.
Bemærk: Kun kursus om formiddagen.
18/2-2004
Ingen kursusgang
25/2-2004
9.30-12.00 og 13.00-15.30
Workshop om modellering af sproglige fænomener ved DCG
Der forventes at ligge oversigt og læsestof fredag 14/2.
-
3/3-2004
9.30-12.00 og 13.00-15.30
- -
10/3-2004
9.30-12.00 og 13.00-15.30
- -
17/3-2004
9.30-12.00 og 13.00-15.30
- -
24/3-2004
9.30-12.00 og 13.00-15.30
- -
31/3-2004
9.30-12.00 og 13.00-15.30
- -
7/4-2004
9.30-12.00 og 13.00-15.30
- -
14/4-2004
9.30-12.00 og 13.00-15.30
- -
21/4-2004
Ingen kursusgang
28/4-2004
9.30-12.00
Afslutning og evaluering


Sidst rettet 11:01, 12. februar 2004, Henning Christiansen