DITECT Rechtschreibprüfung
§ 1 Allgemein
DITECT ist ein Unterprogramm-System, das in ein Satz- oder Textsystem inte-
griert werden kann und die Textbereiche auf Schreibfehler hin untersucht.
DITECT unterstützt drei Maßnahmen mit höchstem Wirkungsgrad, um dem Anwen-
der bei der schnellstmögliche Korrektur von Schreibfehlern zu helfen:
a) Fehler finden.
DITECT findet Schreibfehler im Millisekunden-Bereich und damit wesentlich schneller
als jeder Anwender. Dieser Faktor ist umso größer, je länger der Text ist.
b) Fehlerart erkennen.
Nachdem DITECT den Anwender auf einen Schreibfehler hingewiesen hat, benötigt
dieser noch Zeit, um herauszufinden, was eigentlich falsch ist. Dies besonders
bei langen Wörtern oder solchen, die auf den ersten Blick korrekt erscheinen.
DITECT unterstützt jedoch diese Fehlerart-Erkennung auf vielfältige Weise:
- Direkte Indizierung der Fehlerstelle im Wort,
z.B.: "Falschschreivung".
- Eine Liste möglicher Schreibvorschläge dazu.
|
- Verschiedene Markierungsarten je nach Fehlerart|Vorschlagsliste
1) Allgemeiner Schreibfehler | ja
2) Falsche Kleinschreibweise am Satzanfang | nein
" " im Satz | nein
3) Falsche Großschreibweise | nein
4) Doppeltes Wort | nein
5) Leerzeichen fehlt / doppelt vor dem Wort | nein
6) Unerwünschte Schreibweise *) | ja
7) Automatisch ersetzte Schreibweise *) | nein
*) vom Anwender gespeichert |
Wenn das Textprogramm diese Fehlerarten unterschiedlich markiert (z.B. in verschie-
denen Farben) oder einen entsprechenden Hinweis ausgibt, vergeudet der Anwender
keine Zeit mehr, um die Position und Art des Fehlers zu erkennen.
Auch das Erkennen und Abspeichern (Lernen) von Wörtern, die korrekt aber DITECT
unbekannt sind, wird deutlich vereinfacht, da dies nur bei der ersten Fehlerart sinnvoll
ist (Allgemeiner Schreibfehler).
c) Fehlerkorrektur
durch den Anwender ist danach durch den Direktsprung zur Fehlerposition schnell
geschehen.
1. Bedienungsoberfläche
Die auf der Folgeseite dargestellte Bildschirmaufteilung ist nur eine Anregung,
wie dem Anwender durch die DITECT-Rückmeldungen die Fehlererkennung und
-Korrektur auf schnellste und einfachste Weise ermöglicht werden kann.
Da es in manchen Sprachen z.T. sehr lange Wörter gibt, benötigt der Anwender
viel Zeit, um die wirkliche Fehlerstelle und -art in einem markierten Wort zu erken-
nen. Zusätzlich werden Fehler des Typs 2-6 nur am Wortanfang markiert, wobei in
den Fehlertypen 4-6 das markierte Wort obendrein korrekt erscheint. Aus diesen
Gründen ist eine exakte Fehlerbeschreibung sehr wichtig, da andernfalls viel Zeit
bis zur Erkennung und Korrektur verloren geht, ev. das Wort vom Anwender sogar
fälschlicherweise zum "Lernen" gespeichert wird, statt den Fehler zu korrigieren.
Beschreibung der Bildschirmdarstellung
Der im Textfenster dargestellte Text wird an DITECT in einem Aufruf zur Prüfung
übergeben. Die DITECT-Rückmeldung weist mittels Indices direkt auf die Fehler-
position(en) im Text hin.
Der Cursor wird nun für die Fehlerkorrektur im Textfenster direkt unter der
Fehlerstelle positioniert. Ist eine Korrektur aus programminternen Gründen
dort nicht möglich, so wird die Fehlerstelle im Kontext im Fehlerfenster-Feld
(1) angezeigt und der Cursor (2) dort unter der Fehlerstelle positioniert.
Im Feld (3) wird zu dem Fehler eine (von sechs) Fehlerbeschreibungen angezeigt,
und links darunter einige Vorschläge zur Korrektur (5-7).
Weitere Vorschläge (max. 20) können durch Scrollen angezeigt werden.
Da nur die Fehlertypen 1 (unbekannte Schreibweise) und 2 (falsche Großschrei-
bung) für Begriffe in Frage kommen, die DITECT nicht kennt, kann das rechte
Feld (unbekannter Begriff) bei den anderen Fehlertypen ausgeblendet werden.
Es fällt dem Anwender nun leicht, zu entscheiden, ob der Begriff fehlerhaft (4)
oder dem DITECT unbekannt (8) ist:
Bei fehlerhaft kann der Anwender nun sofort korrigieren, wobei Cursorposi-
tion und Fehlertyp-Hinweis bei der Problemerkennung helfen, oder er kann
durch Anklicken eines der Vorschläge (5-7) mit diesem das fehlerhafte Wort im
Text ersetzen.
Bei unbekannt kann DITECT nach Anklicken eines der Felder (9-11) das Wort
a) dauerhaft lernen (s. 1.2: wichtige Begriffe) oder
b) voruebergehend lernen (s. 1.2: unwichtige Begriffe) oder
c) ignorieren (beim nächsten Auftreten wird
das Wort wieder markiert !)
| Bildschirmdarstellung | Fensterart
|--------------------------------------------------------------| ----------
| Erstaunt stellten schwedische Forscher von der Universität | Text
| |
| Stockholm fest, dass beim Kompostieren von Gartenabfällen |
| |
| der Dioxngehalt auf das Dreifache Der normalen Umweltbelas- |
| * * |
| tung ansteigt. Die Giftmenge ist nicht akut gefährlich, aber |
| |
| dss die Horrorchemikalir durch biologische Prozesse akti- |
| * * |
| viert wird, ist neu. |
| |
| |
| |
| | ----------
|--------------------------------------------------------------| Fehlertyp
| der Dioxngehalt auf das Dreifache Der normalen Umweltbela... | 1
|---------*----------------------------------------------------| 2
| falsche Schreibweise | 3
|--------------------------------------------------------------|
| Vorschlaege im Fehlerfall | unbekannter Begriff | 4 | 8
|------------------------------------|-------------------------| |
| Dioxingehalt | x Lernen-Speicherung | 5 | 9
| dioxinhaltig | x nicht mehr markieren | 6 | 10
| dioxinbelastet | x ignorieren | 7 | 11
|--------------------------------------------------------------|
2. Wortlexika
DITECT verwendet eine stark komprimierte Binärdatei (Kompressionsrate 1 : 3)
als Wortlexikon, die vom Anwender nicht bearbeitet werden kann.
Basierend auf diesem Lexikon und einer speziellen Logik für Wort-Endungen und
-Komposita erkennt DITECT z.Bsp. für Deutsch weit mehr als 4 Mio. Wörter.
Diese Binärlexika werden beim Auftreten neuer Wörter erweitert und unseren
Lizenznehmern auf Wunsch zugeschickt.
Der Anwender kann auch eigene Wörter in einer Ausnahmendatei speichern, wo-
nach sie DITECT ebenfalls bekannt sind.
Textteile, die DITECT nicht im Lexikon und nicht in der Ausnahmendatei findet,
werden als fehlerhaft markiert.
Der Anwender kann diese Begriffe korrigieren oder - wenn sie korrekt sind -
speichern lassen und die Begriffe damit dem DITECT bekannt machen.
Bei dieser Speicherung kann der Anwender zwischen unwichtigen und wichtigen
Begriffen unterscheiden.
Unwichtige Begriffe, wie ausländische Namen usw. sind zumeist rein artikel-
bezogen und treten später nicht mehr auf. Solche Begriffe werden kurzfristig
gespeichert, damit DITECT sie nicht bei jedem Auftreten wieder markiert.
Der Anwender kann über einen Schalter festlegen, dass diese Begriffe am Artikel-
Ende gelöscht werden.
Wichtige Begriffe werden dagegen dauerhaft in der Ausnahmendatei gespeichert
und sind DITECT danach ebenso bekannt wie die Begriffe im Lexikon.
Abkürzungspunkte müssen dabei mitgespeichert werden ( z.Bsp.: Prof. St. ).
Einzelbuchstaben werden von DITECT ignoriert und brauchen daher (auch mit Ab-
kürzungspunkt) nicht gespeichert werden.
Also nicht speichern: z.Bsp. sondern nur: Bsp.
Abkürzungspunkte sind Wortendezeichen, daher müssen bei abgekürzten
Koppel-
wörtern die Einzelteile gespeichert werden.
Also nicht: Hbg.-Harburg sondern: Hbg. und außerdem Harburg
3. Groß-/Kleinschreibprüfung
Das Satz-/Textsystem kann sowohl einzelne Wörter als auch ganze Sätze, Abschnitte
oder Artikel an DITECT zur Prüfung übergeben.
Enthält der Textbereich mindestens eine Leerstelle, so betrachtet DITECT den
Textbereich als einen Satz (oder mehrere).
DITECT versucht dann selbst, anhand bestimmter Kriterien weitere Satzanfänge
im Textbereich zu erkennen, um ev. auch korrekte Groß-/Kleinschreibung nicht
nur der Wörter, sondern auch an den Satzanfängen prüfen zu können.
Satzanfänge, die diesen Kriterien nicht entsprechen, werden u.U. nicht erkannt.
In solchen Fällen kann die Prüfung fälschlicherweise eine unkorrekte Großschrei-
bung am Satzanfang melden, z.B. neuer Satz nach Überschriftzeile ohne Endepunkt.
Auf Anwenderwunsch hin werden Wörter mit maximal 4 Großbuchstaben nicht ge-
prüft, da es sich zumeist um Spezialbegriffe handelt, wie z.B.: DM, BGB, AKW, IHK.
Großschreibung substantivierter Verben kann u.U. nicht in allen Fällen korrekt er-
kannt werden, da sie kontextabhängig ist.
§ 2 Binde-/Trennstrich Unterscheidung
Steht ein Strichzeichen ( - ) am Zeilenende( | ), so gibt es 3 Möglichkeiten:
1. der zweite Wortteil ist kleingeschrieben:
Es handelt sich um einen Trennstrich. Der Trennstrich und das
folgende Zeilenende-Zeichen werden ignoriert. Bsp.: Zeilen-|ende
2. der zweite Wortteil ist großgeschrieben:
Es handelt sich um den Koppelwort-Bindestrich (s. § 3)
Das folgende Zeilenende-Zeichen wird ignoriert. Bsp.: Jo-|Ann
3. Der Bindestrich (-) oder (/) ist als Koppelstrich in der Datei
"DTCOnn" mit 002D definiert ( Bedeutung wie unter 2. ).
§ 3 Nichtgespeicherte Wortzusammensetzungen
in vielen Sprachen gibt es Wortzusammensetzungen wie folgende konstruierte
Beispiele, die DITECT u.U. wie nachstehend beschrieben als korrekt erkennen
kann, selbst wenn sie nicht im Lexikon gespeichert sind:
1. Koppelwörter Erklärungen
Gustav-Peter nicht im Lexikon gespeicherte Koppel-
AEG-Mannschaft Wörter werden über die Einzelwörter
erkannt: Gustav, Peter, AEG, Mannschaft,
wenn Schalter "mexsw = 1 oder 2" !
Brokat-/Seidenstoffe
Brokat- und Seidenstoffe
Lesungs- und Messungs-Rat Fugen-s wird akzeptiert, auch wenn
das Ende-s im Normalfall nicht stimmt.
2. Zusammensetzungen Erklärungen
Petermann nicht im Lexikon gespeicherte Wortkom-
Stadtthemen positionen werden über Einzelwörter
erkannt: Peter, Mann, Stadt, Themen,
wenn Schalter "mexsw = 2 oder 6" !
3. Erkennungsgenauigkeit bei Zusammensetzungen
Nachfolgend symbolisiert:
aaa, bbb = kleingeschriebene Wortkomposita
Ccc, Ddd = großgeschriebene Wortkomposita
Wortkomposition gültig ungültig
aaabbb x
aaaCcc x
CccDdd x
Cccddd x)
x) Die Minimallänge der Komposita ist vom Anwender einstellbar (minkl).
Fehlende Zwischenräume auch nach Satzzeichen werden mit hoher Genauigkeit
erkannt !
4. Nichtgespeicherte Wortendungen
DITECT erkennt auch viele Wörter mit Endungen, die nicht im Lexikon gespeichert
sind. Wenn z.Bsp. nur das Adjektiv lustig ohne andere Endungen gespeichert ist,
erkennt DITECT trotzdem alle anderen Endungsformen wie:
lustig- e em en er ere erem eren erer eres es ste stem sten ster stes
Die unter § 3 aufgezeigten Fähigkeiten bewirken, dass DITECT weit mehr korrekte
Wörter erkennt, als im Basislexikon vorhanden sind, da die deutsche Sprache
(aber auch viele andere Sprachen) zu einem Großteil aus Wortzusammensetzungen
und Beugungsformen besteht.
Außerdem entstehen in einer lebendigen Sprache täglich neue Wortbegriffe, die
zumeist Zusammensetzungen bekannter (somit gespeicherter) Begriffe sind.
Jedes andere Prüfprogramm, das nur auf der Erkennung gespeicherter Begriffe
beruht, wird solche korrekten Wörter als falsch markieren und dem Anwender da-
mit viel Zeit und Nerven kosten.
5. Email- und Web-Adressen
sind z.T. lange Ketten von Spezialbegriffen und Sonderzeichen wie . - _ /
Bei einer Web-Adresse wie http://www.ub-dieck.com/dtgendeu.htm wird eine
Rechtschreibprüfung u.U. folgende sieben Begriffe als Fehler markieren:
"http", "www", "ub", "dieck", "com", dtgeneng" und "htm" !
Da es also keinen Sinn macht, solche Begriffe zu prüfen, kann DITECT diese kom-
plett ignorieren, wenn sie als Ganzes oder als spezifische Teile davon in Datei
DTEXPR.SKP gespeichert sind.
§ 4 Vorschlag von Ersatzwörtern
Wenn DITECT ein Wort als fehlerhaft/unbekannt betrachtet, merkt es sich bis
zu 20 Wörter aus dem Lexikon, die dem gesuchten Wort am ähnlichsten sind.
Bei "Koppel-Wörtrrn" werden Vorschläge nur für den falschen Wortbegriff gezeigt,
hier für "Wörtrrn" wird angezeigt: Wörtern, Wörter, Wärtern, etc.
Sind beide Koppel-Wörter falsch, so enthält die Liste nur Vorschläge für das letz-
te Wort.
Diese Wort-Vorschläge sind absteigend sortiert nach einer Prozentzahl, die den
Grad der Ähnlichkeit anzeigt und können als Korrekturvorschläge in einem Fenster
angezeigt werden, z.B:
Desperat (= Falschschreibweise )
% Vorschläge
98 desperat
77 Desperado
77 Desiderat
Ein spezieller Algorithmus bewirkt dabei hohe Erkennungsgenauigkeit von Vorschlä-
gen, auch wenn in der Falschschreibweise ein oder zwei Buchstaben fehlen, zu viel
oder verdreht sind, z.B:
Zustimug (=Falschschreibweise )
% Vorschläge
66 Zustimmung
62 zustimme
62 zustimmt
56 Zustimmens
56 zustimmen
56 zustimmst
56 zustimmte
50 zustimmend
Fehler im Wortlexikon
Bei jedem sehr großen Lexikon besteht die Möglichkeit, dass sich Eingabefehler
beim Erstellen des Lexikons eingeschlichen haben oder Wörter darin enthalten
sind, deren Schreibweise ein Anwender ablehnt.
Sollte ein DITECT-Anwender eine falsche oder unerwünschte Schreibweise feststel-
len, die DITECT als korrekt erkennt, so kann dieser Begriff mit / # oder * am Wort-
ende in die permanente Ausnahmendatei gespeichert werden, wodurch DITECT
ihn zukünftig als Falschschreibweise markieren wird.
Ende* und Ende# bieten die Möglichkeit, die Begriffe abzukürzen.
Die Abkürzung ist bei Ende# auf maximal 2 weitere Buchstaben beschränkt,
bei Ende* hingegen unbegrenzt.
Z.B. bewirkt der Eintrag mutterl#, dass das Wort mutterlos abgelehnt wird,
nicht aber mutterloser !
Der Begriff Vaterl* hingegen bewirkt Ablehnung aller Begriffe, die mit "Vaterl"
beginnen, also: Vaterland, Vaterliebe, Vaterlosigkeit, usw.
Dem Ablehnungsbegriff (z.B: Photo) kann der gewünschte Vorschlag gleich angehängt
werden (z.B: Foto) wie folgt: Photo/Foto/*
Bei Ende* oder # wird der Vorschlag ggf. automatisch ergänzt und als einziges
Wort in der Vorschlagsliste angezeigt, z.B.:
Das Textwort heißt Photoatelier. Der o.g. Begriff bewirkt, dass in der Vorschlags-
liste angezeigt wird: Fotoatelier
Eine Ablehnung* oder eine Kombination aus Ablehnung/Vorschlag/ darf auch ein
Leerzeichen (wenn Schalter "mexsw +8") enthalten wie z.B.: am Besten/am besten/*
Das aufrufende Programm ersetzt die "Ablehnung" automatisch durch den "Vorschlag",
wenn die Ausnahmenzeile nicht mit * sondern mit . (Punkt) endet, z.B.:
mdg/Mitglied der Gemeinde/.
und Fehlercode-Nr. 7 zurückgemeldet wird.
Siehe Beschreibung: Ausnahmendatei
Beispiele für deutsche Ablehnungsschreibweisen in der Ausnahmendatei:
Photo/Foto/*
am Besten/am besten/*
Vaterliebe
Vaterl*
faßt/fasst/*
paralell*
Achtung:
Das obige Beispiel bewirkt, dass alle Wörter mit "Vaterl" abgelehnt werden,
mit Ausnahme von "Vaterliebe" !
§ 5 Nutzung der Ausnahmen-Dateien
Ein von DITECT markiertes Wort ist entweder
1. fehlerhaft: Es wird vom Anwender korrigiert.
oder
2. korrekt aber
unwichtig: z.Bsp. ein ausländischer Eigenname.
2.1 Es wird vom Anwender ignoriert, und DITECT
zeigt es bei jedem Auftreten wieder an,
2.2 oder der Anwender speichert es "kurzfristig".
oder
3. korrekt und
wichtig: Es wird "mittelfristig" gespeichert
( und damit automatisch auch "kurzfristig" ).
Die Datei für "kurzfristige" Speicherung heißt DTnnTMP.* (nn =Sprach-Nr.).
Jeder dem DITECT unbekannte Begriff wird darin gesucht und, wenn nicht gefun-
den, darin gespeichert.
Die Speicherung erfolgt in einem Spezialverfahren, das einen schnellen Zugriff
ermöglicht. Diese Datei kann nicht editiert werden !
Der Anwender bestimmt über einen Software-Schalter 'ftmp', wenn diese Datei
vom Satz-/Textsystem gelöscht werden soll, z.Bsp. zum Job-Ende oder nach der
Permanentspeicherung der Datei(en) DTnnEXC.*
Da die kurzfristige Datei viele unwichtige, artikelbezogene Begriffe enthält,
sollte sie nur kurzfristig erhalten bleiben und nicht zu umfangreich werden,
da ihr Suchvorgang andernfalls die Programmgeschwindigkeit herabsetzt.
Die Datei für "mittelfristige" Speicherung heißt DTnnEXC.*
Die Wörter werden darin nicht gesucht, sondern nur sequentiell gespeichert, unab-
hängig davon, wie oft das Satz-/Textsystem neu gestartet wird, bis der Anwender
diese Datei in die permanente Ausnahmendatei integriert mit dem Batchprogramm-
Aufruf: DTEXA nn ( DTnnEXC.* und DTnnTMP.* sind danach gelöscht ).
DTnnEXC.* kann vor der Permanent-Speicherung editiert werden, zu Korrektur-
zwecken oder um ev. Fehler darin noch rechtzeitig zu korrigieren.
Netzwerk - Dateien
DITECT weist jeder Arbeitsstation eine freie Dateinummer (1 - 999) für die
kurz- und mittelfristige Datei zu, z.Bsp.: DTnnTMP.18 und DTnnEXC.18
Programmaufruf: DTALLMED nn (nn=Sprach-Nr.) fasst die mittel-
fristigen Dateien zu Datei DTnnEXC zusammen und gibt die Datei-Nrn. da-
nach wieder frei.
§ 6 Nutzung der Permanent-Ausnahmendatei
Die permanente Ausnahmendatei DTEXnn.TXT kann über folgende Batchprogramm-
aufrufe bearbeitet bzw. ergänzt werden:
DTEXD nn (Display Wörter und Katalog aufbauen)
bzw.
DTEXA nn (Wörter hinzufügen, Katalog aufbauen)
Aufruf: DTEXD zeigt mittels Editor (PE2) die gesamte Datei auf dem Bildschirm
an und erlaubt Einfügen, Verändern oder Löschen von Wörtern.
Es ist dabei auf korrekte Groß-/Kleinschreibung zu achten.
Begriffe, die Abkürzungen darstellen, können mit Abkürzungspunkt gespeichert
werden. Apostroph, Binde- und Schrägstrich im Wort sind ebenfalls erlaubt.
Nach dem Editier-Ende wird die Datei automatisch auf gültige Zeichen überprüft
und sortiert. An ev. fehlerhafte Worteinträge wird ein entsprechender in Apostroph
eingeschlossener Fehlertext angehängt und der Editiervorgang automatisch wieder-
holt (siehe auch Beschreibung: Ausnahmendatei)
Aufruf: DTEXA hängt automatisch die mittelfristige(n) Datei(en) DTnnEXC.*
an die permanente Ausnahmendatei an, und arbeitet dann weiter wie DTEXD.
Danach sind die Dateien DTnnEXC.* und DTnnTMP.* gelöscht.
( nn = Sprach-Nr. zweistellig ! )
Ausnahmendatei
Software-Interface
Referenzen, Testberichte
Kontakt