L’idée de mécaniser les processus de traduction remonte au XVIIe siècle. Cependant, ce n’est qu’au XXe siècle que des possibilités réalistes sont apparues. Au milieu des années 1930, le Franco-Arménien Georges Artsrouni et le Russe Petr Troyanskii ont déposé des demandes de brevet pour des « machines à traduire ». Le brevet de Troyanskii était le plus important, car il proposait une méthode pour la création d’un dictionnaire bilingue automatique. Il offrait, de surcroît, un système de codage des rôles grammaticaux interlinguaux (basé sur l’espéranto). Enfin, il nous donnait un aperçu du fonctionnement de l’analyse et de la synthèse. Cependant, les idées de Troyanskii n’ont pas été connues avant la fin des années 1950.

Les pionniers, 1947-1954

Lors de la première apparition des « calculatrices électroniques », des recherches ont été entreprises pour utiliser les ordinateurs comme outils de traduction des langues naturelles. Une lettre adressée en mars 1947 par Warren Weaver, au cybernéticien Norbert Wiener marque ce début. En 1949, Weaver rédige un mémorandum (juillet 1949) dans lequel il avance diverses propositions. Celles-ci sont fondées sur les succès remportés en temps de guerre dans le décryptage des codes. Ces propositions s’appuient aussi sur les développements de Claude Shannon dans la théorie de l’information. Elles s’adossent aussi sur les spéculations sur les principes universels qui sous-tendent les langues naturelles. En quelques années, des recherches sur la traduction automatique (TA) ont débuté dans de nombreuses universités américaines . En 1954 une collaboration entre IBM et l’université de Georgetown permettait une première démonstration publique de la faisabilité de la traduction automatique. Bien qu’utilisant un vocabulaire et une grammaire très restreints, cette démonstration était assez impressionnante. Elle permettait de stimuler un financement massif de la TA aux États-Unis . En outre, elle inspirera la création de projets de TA dans le monde entier.

L’optimisme, 1954-1966

Les premiers systèmes se composaient principalement de grands dictionnaires bilingues. Ceux-ci comportaient des entrées des mots de la langue source donnant un ou plusieurs équivalents dans la langue cible. Puis sont apparues, quelques règles pour produire l’ordre correct des mots dans le résultat. On s’est vite rendu compte que les règles d’ordre syntaxique spécifiques aux dictionnaires étaient trop complexes. En outre, le besoin de méthodes d’analyse syntaxique plus systématiques est devenu évident. Un certain nombre de projets ont été inspirés par les développements contemporains en linguistique. Ceux-ci l’ont été, en particulier, dans les modèles de grammaire formelle (générative-transformationnelle, dépendance et stratification). Ils semblaient aussi offrir la perspective d’une traduction grandement améliorée.
L’optimisme est resté à un niveau élevé pendant la première décennie de recherche, avec de nombreuses prédictions de « percées » imminentes. Cependant, la désillusion s’est installée au fur et à mesure que les chercheurs se sont heurtés à des « barrières sémantiques ». En effet, ils ne voyaient pas de solutions viables. Il existe quelques systèmes opérationnels. D’abord, le système Mark II (mis au point par IBM et l’université de Washington) installé à la division de la technologie étrangère de l’USAF. Ensuite, le système de l’université de Georgetown à l’autorité américaine de l’énergie atomique et à Euratom en Italie. Toutefois, la qualité des résultats est décevante (bien que satisfaisant les besoins de nombreux destinataires en matière d’informations produites rapidement). En 1964, les commanditaires du gouvernement américain s’inquiètent de plus en plus de l’absence de progrès. Ils créent le Comité consultatif sur le traitement automatique des langues (ALPAC). Ce dernier conclut dans un célèbre rapport de 1966 que la TA est plus lente, moins précise et deux fois plus coûteuse que la traduction humaine. En outre, il n’existe aucune perspective immédiate ou prévisible de traduction automatique utile. Il ne voyait pas la nécessité d’investir davantage dans la recherche sur la TA. Il recommandait plutôt le développement d’aides automatiques pour les traducteurs, comme des dictionnaires automatiques. Il prônait enfin le soutien continu de la recherche fondamentale en linguistique informatique.

Les conséquences du rapport ALPAC, 1966-1980

Bien que très souvent condamné comme étant partial, le rapport ALPAC a pratiquement mis fin à la recherche sur la MT aux États-Unis pendant plus d’une décennie. En outre, il a eu un grand impact ailleurs en Union soviétique et en Europe. Toutefois, la recherche s’est poursuivie au Canada, en France et en Allemagne. En l’espace de quelques années, le système Systran a été installé pour être utilisé par l’USAF (1970). Puis, peu après par la Commission des Communautés européennes pour la traduction de ses volumes de documentation en croissance rapide (1976). La même année, un autre système opérationnel réussi est apparu au Canada, le système Météo. Celui-ci était dédié à la traduction des bulletins météorologiques, développé à l’université de Montréal.
Dans les années 1960, aux États-Unis et en Union soviétique, l’activité de TA s’est concentrée sur la traduction russeanglais et anglaisRusse. Il s’agissait principalement de documents scientifiques et techniques destinés à un nombre relativement restreint d’utilisateurs potentiels. Ces derniers, acceptaient le résultat brut non révisé pour avoir un accès rapide à l’information. À partir du milieu des années 1970, la demande de TA est venue de sources très différentes, avec des besoins différents et dans des langues différentes. La demande porte désormais sur des systèmes de traduction automatique rentables. Ces derniers sont capables de traiter la documentation commerciale et technique dans les principales langues du commerce international.

Les années 80

Les années 80 ont vu l’émergence d’une grande variété de types de systèmes de TA, et d’un nombre croissant de pays. Il y a d’abord eu un certain nombre de systèmes sur ordinateur central, dont l’utilisation se poursuit encore aujourd’hui. Outre Systran, qui fonctionne dans de nombreuses paires de langues, il y avait Logos (allemandanglais et anglais-français). Il y avait aussi des systèmes développés en interne par l’Organisation panaméricaine de la santé (espagnolanglais et anglaisespagnol) , le système Metal (allemandanglais). N’oublions pas non plus les principaux systèmes de traduction anglais-japonais et japonais-anglais des sociétés informatiques japonaises.
La grande disponibilité des micro-ordinateurs et des logiciels de traitement de texte a créé un marché pour des systèmes de TA moins chers. Ils ont été exploités en Amérique du Nord et en Europe par des sociétés comme ALPS, Weidner, Linguistic Products et Globalink. Puis de nombreuses sociétés japonaises, par exemple Sharp, NEC, Oki, Mitsubishi, Sanyo l’ont exploité. D’autres systèmes basés sur des micro-ordinateurs sont apparus en Chine, à Taiwan, en Corée, en Europe de l’Est, en Union soviétique, etc.
Tout au long des années 1980, la recherche de méthodes et de techniques plus avancées s’est poursuivie. Pendant la majeure partie de la décennie, la stratégie dominante a été celle de la traduction « indirecte ». Ceci s’est opéré par le biais de représentations intermédiaires, impliquant une analyse sémantique, morphologique et syntaxique. Les projets les plus notables de cette période sont GETA-Ariane (Grenoble), SUSY (Saarbrücken), Mu (Kyoto), DLT (Utrecht), Rosetta (Eindhoven). On peut y ajouter le projet de base de connaissances de l’université Carnegie-Mellon (Pittsburgh). Deux projets multilingues internationaux : Eurotra, et le projet japonais CICC avec des participants en Chine, en Indonésie et en Thaïlande peuvent être mentionnés.

Le début des années 1990

La fin de la décennie marque un tournant majeur. D’une part, un groupe d’IBM publie les résultats d’expériences sur un système (Candide) basé uniquement sur des méthodes statistiques. D’autre part, certains groupes japonais ont commencé à utiliser des méthodes basées sur des corpus d’exemples de traduction. Autrement dit ces méthodes consistent à utiliser l’approche appelée aujourd’hui traduction basée sur des exemples. Ces deux approches se distinguent des méthodes antérieures « basées sur des règles » par l’exploitation de grands corpus de textes.
Une troisième innovation a été le début de la recherche sur la traduction vocale. Elle impliquait l’intégration de la reconnaissance vocale, de la synthèse vocale et des modules de traduction. Ces derniers combinaient les approches basées sur les règles et sur les corpus. Citons les projets de l’ATR (Nara, Japon), le projet collaboratif JANUS (ATR, université Carnegie-Mellon et université de Karlsruhe). Toutefois, les projets traditionnels fondés sur des règles se sont poursuivis.
Une autre caractéristique du début des années 90 a été le changement d’orientation de l’activité de TA. En effet, cellci est passée de la recherche « pure » à des applications pratiques. Par exemple, citons le développement de postes de travail pour traducteurs professionnels, les travaux sur des systèmes à langage contrôlé et à domaine restreint.

La fin des années 1990

Ces tendances se sont poursuivies à la fin des années 90. En particulier, l’utilisation de la TA et des outils d’aide à la traduction par les grandes entreprises a connu une croissance rapide. Une augmentation particulièrement impressionnante est observée dans le domaine de la localisation des logiciels. Ces derniers concernent l’adaptation et la traduction des équipements et de la documentation pour de nouveaux marchés. Les ventes de logiciels de TA pour ordinateurs personnels à destination de non-traducteurs ont connu une croissance énorme. Plus important encore, on constate la disponibilité croissante de la TA à partir de services en ligne en réseau.
La traduction automatique s’est développée encore plus rapidement pour les applications directes d’Internet (courrier électronique, pages Web, etc.). Ces applications apportent des réponses en temps réel doit être rapide et la qualité moins importante. Avec ces développements, les logiciels de TA sont en train de devenir des produits de masse, aussi familiers que le traitement de texte et la publication assistée par ordinateur.