Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Werkzeuge und Technologien
Translation-Memory-Systeme Terminologiemanagementssysteme Terminologieextraktionsprogramme Terminologieprüfprogramme Alignment-Tools (Software)-Lokalisierungstools Korpustools Maschinelle Verarbeitung von Text(Texttechnologie): Rechtschreib- und Grammatikkorrektur; Computergeschützte Lexikographie und Terminologie; Textbearbeitung, - filterung,- extraktion,- indexierung,- kategoriesierung Wissensmanagement; Dokumentenerschließung und -klassifikation, Textstellenzugriff (document retrieval); Textmining Verfahren der Textzusammenfassung, Fragebeantwortung und Antwortextraktion; Technologiegestütztes Übersetzen, Maschinelle Übersetzung Hilfsmittel für Contenterstellung,- verarbeitung -verwaltung, Texterstellung, -verarbeitung -verwaltung: z.B. Technische Dokumentation Hilfsmittel für Übersetzer: und relevante abhängige Technologien: CAT-Tools: Computer-Assisted Translation; Computergestütztes Übersetzten ist eine Form von Ü der ein menschlicher Ü Texte mit Hilfe von Computerprogrammen übersetzt; Erleichterung der ÜArbeit Maschinelle-Ü-Systeme: Human-Aided Machine Translation (HAMT); Vollautomatisch, Fully Automatic Translation (FAT) Translation-Memory-Systeme: TMS (in Literatur oft CAT-Tools im engeren Sinn); nicht verwechseln mit Terminologiemanagementsystemen oder Ümanagementsystemen (translation management system); Softwareanwendung, die den Üprozess unterstützen; Voraussetzung: Der zu übersetzende Text liegt in elektronischer maschinenlesbarer Form vor Translation-Memory-Systeme: Funktion: Mit Hilfe eines TM können Ü Übersetzungseinheiten wiederverwenden, die ihnen aus dem Translation Memory (Ü-Speicher) automatisch vorgeschlagen werden, wenn ein identisches oder ähnliches Segment wieder vorkommt; Beim Ü weiterer Texte wird jedes weitere Segment daraufhin überprüft, ob er bereits iim Translation Memory vorhanden ist, Somit muss ein Segment nicht zweimal übersetzt werden Translation Memory: Übersetzungsspeicher, TM; TM ist ein Text- und Satzarchiv, in dem jedes übersetzte Segment zusammen mit seiner Übersetzung gespeichert wird Segment: TMS teilen den in einem Dokument enthaltenen Text in Bedeutungsabschnitte (Segmente) auf, die dann einzeln verarbeitet werden können; Segmente: Sätze, Aufzählungspunkte oder Inhalte aus Tabellenzellen, Überschriften; Segmentgrenzen(Segmentierungsregel): Satzendzeichen, Tabulator; Standard um Segmentierungsregeln auszutauschen: Format Segmentation Rules eXchange (SRX) Vorschläge aus dem Translation Memory: Suchmechanismus mit Abweichtoleranz (verschiedene Werte) Exact Match: 100% Übereinstimmung zwischen dem abgespeicherten Satz im Tm und dem Satz im AT, Vorteil: Aktualisierung der Dokumente; Trotzdem niemals ungeprüft übernehmen In context exact match – 101% Match Bedingter Exact Match: Abweichung bei Herkunft des Segments (Projekt, Textsorte); Abweichung in Formatisierung Fuzzy Match (Ähnlichkeitswert): Entsprechung < 99% Wie entsteht ein Translation Memory: Erstellung eines TM: Während des Übersetztens, Importieren ein Übersetzungsspeichers, Aus Paralleltexten erstellen à Alignment-Tool Vorteile von TMS: Formatierung vereinfachen; übersichtliche Übersetzugsumgebung, identisch bei allen Dateitypen; mit vielen Dateitypen arbeiten; Vereinheitlichung von Stil und Terminologie zu unterstützen; Qualitätssicherung; Produktivität steigern; Zeitaufwand reduzieren; Projekt- und Übersetzungsabläufe effizienter gestalten und zu planen Alignment: Mit dem A-Tool können bereits übersetzte Texte so aufbereitet werden, dass sie anschließend als Translation Memory bzw. als Referenzmaterial (z.B. Konkordanzsuche) mit einem Translation-Memory-System zur Verfügung stehen Austausch von Translation Memories: Translation Memory eXchange (tmx): ein offenes Datenformat, das zum Datenaustausch zwischen verschiedenen Tools oder Übersetzern dient; TMX basiert auf XML (Extensible Markup Language, erweiterbare Auszeichnungssprache) XML: eXtensible Markup Language (erweiterbare Auszeichnungssprache); eine maschinenlesbare Sprache für die Gliederung und Formatierung von Texten und anderen Daten; Maschinenlesbar und menschenlesbar (human-readable); Vorteil: Text (Inhalt) und Form getrennt; für den plattform- und implementationsunabhängigen Austausch von Daten; XML kann in Texteditoren angezeigt werden Technologiegestützte Terminologieverwaltung Tabellenkalkulationsprogramme: z.B. MS Excel; Daten mit Trennzeichen bzw. Tabs getrennt; Terminologieverwaltung mit Tabellenk.: bei kleinen Datenbeständen; mit beschränkten Anzahl von Datenkategorien; und beschränkten Anzahl von Sprachen; Spalten=Datenkategorien; Zeilen=einzelne Datensätze (Einträge) Vorteile: Verfügbarkeit von Software; leicht zu bedienen; Daten sind komma- bzw. tabulatorengetrennt (gängiges Terminologieaustauschformat, Daten lassen sich zu einem späteren Zeitpunkt in ein Terminologieverwaltungssysteme importieren) Nachteile: Ebenen lassen sich kaum bzw. nicht abbilden; Begriffsorientierung und Benennungsautonomie mit großer Anzahl von Spalten umsetzbar; Such- und Filterfunktionen nur rudimentär Terminologieverwaltungssysteme:(Terminologiemanagementsysteme) Datenbankähnlich aufgebaut; Kategorien: Nach Anzahl der Sprachen; nach Eintragsstruktur(vorgegeben, frei definierbar); nach Eigenständigkeit(unabhängige Softwareprodukte-stand-alone Tools; Parallel zu einem anderem System-Translation-Memory-System; als Bestandteil einer anderen Softwareanwendung z.B. Translation-Memory-Systems) Grundlegende Funktionalitäten: Modellierung von terminologischen Einträgen auf der Begriffs-, Sprach- und Benennungsebene; Festlegung von Datenkategorien; Querverweise; Suchfunktion; Filterfunktion; Import-, Exportfunktion; Schnittstellen zu anderen Programmen; Qualitätssicherung; Benutzer- und Rollenverwaltung Terminologie sammeln und extrahieren: Sammlung von vorhandenen Terminologielisten; Textbezogene Terminoogiearbeit (Filtern bzw. extrahieren von Terminologie aus vorhandenen Texten) Werkzeuge:; bei allen Werkzeugen zu beachten: unterstützte Dateiformate; unterstützte Sprachen; Einbindung von Stoppwortlisten (in Terminologieextraktion ist ein Stoppwort ein Wort, das nicht relevanten Benennungen vorkommen sollte); unterstützte Exportformate; Anzeige und Export von Kontextsätzen Konkordanzprogramme: Listet alle Benennungen auf, die in einem Text oder Textkorpus vorkommen; Verwendung von Stoppwortlisten reduziert die Anzahl der unerwünschten Benennungen; Bsp. AntConc, SketchEngine Funktionen: Liste aller Benennungen, Häufigkeit je Benennung, Anzeige der Kontextsätze, Sprachunabhängigkeit Nachbearbeitung: unerwünschte Ergebnisse manuell entfernen, Temkandidaten in die Grundform umschreiben (z.B. Vorspeisen-Vorspeise) Extraktionsprogramme (Statische, Linguistische, Hybride) Annahme: alle Benennungen, die häufig in identischer Form vorkommen, sind wichtig Statistische Analyse: Funktioniert für alle Sprachen (bessere Ergebnisse für Sprachen auf Alphabetbasis) Funktionen: Liste der häufigen Termkandidaten; Häufigkeit je Benennung; Anzeige der Kontextsätze; Sprachunabhängigkeit; Extrahiert aus ein- und mehrsprachigen Quellen; Listen können in ein Terminologieverwaltungssysteme übernommen oder exportiert werden Statische Extraktionsprogramme: Aufwand abhängig-Größe des Textkorpus, Stoppwortliste, Sprachkompetenz/Fachwissen des Bearbeiters Nachbearbeitung: unerwünschte Ergebnisse manuell entfernen; Termkandidaten in die Grundform umschreiben (Vorspeisen-Vorspeise); zusätzliche Infos hinzufügen Nachteile: Noise (viele unbrauchbare Benennungen); Silence (tatsächliche Termkandidaten werden nicht extrahiert) Häufig Module in einem Translation-Memory-System; Bsp. memoQ Linguistische Analyse: sprachabhängig, basiert auf sprachlichen Mustern und Abweichungen zwischen Termkandidaten (Termvarianz) • Sprachmuster, z.B.: ◦ Wortart ◦ Wortlänge ◦ Eigenname ◦ Einwort-oder Mehrwortbenennung • Termvarianten, z.B.: ◦ Schreibvarianten (Heizelement, Heiz-Element) ◦ Ableitungsvarianten (Heizelement, Heizungselement) ◦ Abkürzungsvarianten (Identifikationsnummer, ID-Nummer) ◦ Syntaktische Varianten (Prüfungsart, Art der Prüfung) • Voraussetzung: Regeln zu sprachlichen Mustern liegen vor • Funktionen: ◦ Liste der häufigen Termkandidaten ◦ Häufigkeit je Benennung ◦ Anzeige der Kontextsätze ◦ Sprachabhängig ◦ Extrahiert aus ein-und mehrsprachigen Quellen ◦ Listen können in ein Terminologieverwaltungssystem übernommen oder exportiert werden • Nachbearbeitung: ◦ Termkandidatenin die Grundform umschreiben ◦ Zusätzliche Informationen hinzufügen ◦ Termkandidatenvalidieren (z.B. bevorzugte, erlaubte, verbotene Benennung) Terminologieprüfungsprogramme •Ziel: ◦Überprüfung der Nichteinhaltung vorgegebener Terminologie und Terminologieinkonsistenzen in Originaltexten/Übersetzungen •Grundlage: ◦Vorhandene Terminologiedatenbank -Notwendige Angabe: Zuordnung von Benennungen (Vorzugsbenennung oder verbotene Benennung) -Die Qualität eines Terminologieprüfprogramms hängt von der Qualität der Qualität der Terminologiedatenbankab. Gepflegte Terminologiedatenbank-> Qualitätssicherung Terminologieprüfung der Originaltexte • Einsatz: ◦ Direkt bei der Entstehung von Texten (als Unterstützung des Autors) ◦ Prüfung des Textes (Lektorat) • Verfahren: ◦ Statistisch -Sprachunabhängig -Nachteil: flektierte Formen werden nicht erkannt -> FuzzySuche (unscharfe Suche ◦ Linguistisch -Komplexere Prüffunktionen: Rechtsschreib-und Grammatikprüfung, Stilprüfung Terminologieprüfung in Übersetzungen • Abweichungen von der vorgegebener Terminologie • Einsatz: ◦ Direkt bei der Entstehung von Übersetzung (als Unterstützung) ◦ Prüfung der Übersetzung (Revision) • Ergebnis: Fehlerliste • Fehlermeldungen, abhängig von: ◦ Qualität der Übersetzung ◦ der Terminologie ◦ der Terminologieerkennung (noise, silence) Vorüberlegung und Vorbereitung • Bevor man sich für Tool entscheidet, Folgendes klären ◦ Anforderungen an die IT-Infrastruktur (Hardware, Betriebssystem, Sicherheit) ◦ Finanzielle, personelle, zeitliche Ressourcen ◦ Wie wird das System verwendet unabhängig, als Bestandteil eines Systems oder parallel; In welcher Ausführung soll es verwendet werden (Einzelplatz, Client-Server oder webbasiert); Welche Sprachen sollen unterstützt werden (nicht-lateinische Zeichen) Ist Übernahme von bereits bestehenden Daten möglich Ist Datenaustausch vorgesehen, welche Austauschformate werden unterstützt • Aufwandschätzung: ◦ Einschulung ◦ Vorbereitung der Daten, Dateien, Textkorpora; Nachbearbeitung von Ergebnissen; Quaitätssicherung; Pflege von Datenbeständen • Ergebnisse: Abhängig von der Qualität des Ausgangsmaterials(Quellen, Textkorpora, Terminologiedatenbanken); Abhängig von der sprachlichen und fachlichen Qualifikation der Bearbeiter; Abhängig vom Aufwand für Nachbearbeitung und Qualitätssicherung Terminologieaustausch: Austausch zwischen Terminologen, Übersetztern vs. Austausch zwischen unterschiedlichen Werkzeugen Terminologische Datenbestände zwischen identischen Softwareanwendungen relativ unproblematisch austauschen Voraussetzung: gepflegte Terminologiedatenbestände; Flache Terminologiedatenbanken: CSV (comma seperated value) Genormte Austauschformate Austauschformat: TBX (TermBase eXchange): XML-basiertes Austausch-Fomat, in dem festgelegt wird, wie terminologische Datenbestände zu strukturieren sind, um diese zwischen unterschiedlichen Tools mit einem Minimum an Informationsverlust auszutauschen Beruht auf Prinzipien der terminologischen Datenmodellierung; Genormt in der Norm ISO 30042; Variante-TBX-Default mit 127 Datenkatgorien; Einfachere Version-TBX-Basic(nicht genormt) TBX-Datei-besteht aus Prolog Dokumentinstanz
|
Последнее изменение этой страницы: 2019-04-19; Просмотров: 309; Нарушение авторского права страницы