Chapitre 1

Le film fait voir et entendre

1. Phénoménologie de l’image de film

1.1 L’analogie

1.1.1 L’image de film est une image analogique

Regarder une image, c’est en général y reconnaître quelque chose du monde : l’image, dans la plupart de ses usages sociaux, est faite pour figurer un référent, réel ou non. Cela est vrai quel que soit son mode de fabrication : qu’elle ait été faite par une main déposant des pigments sur une surface, par l’action de la lumière sur des sels d’argent (comme dans les films qu’on dit désormais argentiques), ou par son action sur des photocapteurs qui la transformeront en information numérisée, exploitable ensuite sur divers appareils. De grandes confusions règnent sur ce dernier point, surtout depuis que, à l’imitation de la langue anglaise, on tend à opposer « numérique » (ou, en anglais, digital) et « analogique ». Or c’est là mélanger deux ordres de considérations, l’une génétique, l’autre phénoménale : « numérique » désigne un traitement particulier de l’information visuelle, différent du dessin, de la peinture ou de la photographie argentique, mais ce traitement aboutit en fin de compte, pour nos yeux, à une image analogique, c’est-à-dire ressemblante, comme le savent les millions d’utilisateurs quotidiens d’appareils de photo ou de vidéo, qui ne cherchent pas à produire des pixels ni des chiffres, mais des vues de leur environnement.

On ne saurait trop insister, dans ce livre consacré aux principales approches du film de cinéma dans ses définitions successives, sur le fait que le numérique, s’il a changé énormément les modes de production, n’a pas changé la relation fondamentale de l’image à la réalité, qui est une relation de ressemblance (ou analogie). Cette relation ne signifie pas que nous sommes devant l’image comme devant la réalité ; voir une image de film n’est pas un double de la perception naturelle, mais une expérience perceptive particulière (Zernik, 2010), qui demande un apprentissage (désormais accompli dans la petite enfance, en même temps que celui du langage). En outre il existe des degrés de ressemblance, comme le sait n’importe quel spectateur de film, qui ne confond pas un dessin animé avec un documentaire et s’avère capable de reconnaître la réalité dans un film en noir et blanc, en Technicolor ou en couleurs numérisées. Il existe aussi des images qui, par une décision de leur auteur (ou parfois, parce qu’elles sont « ratées »), ressemblent peu ou pas du tout à un aspect du monde réel ; c’est le cas, typiquement, des films dits « abstraits », tels les derniers films de Stanley Brakhage, composés en disposant des pigments (solides ou liquides) sur un support pellicule, ensuite refilmé ; ce peut être aussi le cas de montages d’images très brèves que l’on aura à peine le temps d’identifier, ou d’images raturées, ou extrêmement sombres… Bref, l’analogie a des limites, qui tiennent à la variabilité de ses divers paramètres (lumière, couleur, forme, vitesse…), et bien des films en ont joué, sans que cela annule sa présence essentielle.

1.1.2 L’idéologie de la trace

Si l’avènement du numérique a suscité tant de réactions, c’est qu’il semblait contredire une conception de l’analogie filmique, longtemps en faveur (et même dominante dans certains milieux) et qui voulait que l’image de film soit non seulement très ressemblante, mais qu’elle conserve « quelque chose » de la réalité même de ce qu’elle enregistre. Comme l’a dit frontalement André Bazin, « la photographie [donc aussi le cinéma] bénéficie d’un transfert de réalité de la chose sur sa reproduction » (Bazin, 1945) : si nous voyons un dessin, nous comprendrons aussitôt qu’il représente une certaine chose, mais devant une photographie, nous sommes en outre persuadés que cette chose a vraiment existé dans la réalité. La photographie, et après elle le cinéma, ne sont pas seulement, dans cette approche, des représentations, mais des traces , des empreintes :

« L’image peut être floue, déformée, décolorée, sans valeur documentaire, elle procède par sa genèse ontologique du modèle : elle est le modèle. » (Bazin, 1945)

Ou, pour le dire dans le vocabulaire de la sémiotique de Peirce, les images sont des indices (Schaeffer, 1987 ; Le Maître, 2004).

Pour Peirce, un signe peut avoir trois grand types de relations avec ce à quoi il renvoie (son référent) : soit une relation purement conventionnelle (symbole ), soit une relation de similitude (icône), soit une relation de co-naturalité (indice). L’approche dont nous parlons postule que l’image de film est à la fois icône et indice ; ce fut celle de tous les théoriciens « réalistes » du cinéma, nombreux dans la génération critique de l’après-guerre. Nous avons cité Bazin, il faut au moins y ajouter Kracauer (1960), qui, ayant reconnu que le cinéma pouvait aussi bien transformer que reproduire telle quelle la réalité, choisit cette seconde option comme plus spécifiquement cinématographique : « les films peuvent revendiquer une validité esthétique s’ils s’appuient sur leurs propriétés fondamentales ; comme les photographies […] ils doivent enregistrer et révéler la réalité physique ». « Transfert de réalité » ou « révélation » : Bazin comme Kracauer accordent à l’image de film une vertu presque surnaturelle, qui en fait bien plus qu’une image, un index de vérité. On trouve des intuitions comparables chez plusieurs cinéastes : Rossellini lançant la fameuse et provocatrice formule « les choses sont là, pourquoi les manipuler ? » (1990) ; Pasolini affirmant que « le cinéma représente la réalité à travers la réalité » (1966) ; Vertov prônant le filmage de « la vie à l’improviste » (1923) ; voire, sous des formes un peu différentes, Straub ou Tarkovski. Dans tous les cas on met en avant l’analogie filmique, mais pour l’interpréter dans un sens maximaliste : ce n’est pas seulement une figuration fidèle des apparences, c’est une espèce de duplication de la réalité, à laquelle on peut attacher une croyance, irrationnelle comme toute croyance, en un pouvoir spécial du cinéma (« révélation »).

Il faut donc ici rappeler deux choses : d’abord, une image, quelle qu’en soit la genèse, est toujours un artefact, et ne contient que ce qui résulte de l’usage concret de procédures matérielles ; on peut accorder une valeur particulière à certains procédés, entre autres en raison de leur automatisme (voir chap. 1.2 § 2.1), mais même une caméra de surveillance (degré zéro de l’intervention) donne une image fabriquée, qui ne coïncide pas avec la réalité filmée (elle en témoigne, ce qui est différent). D’autre part, l’image de film, comme toute image, possède une « double réalité » visuelle : c’est une surface plane, délimitée, et c’est aussi la représentation d’une réalité tridimensionnelle ; c’est à cette seconde réalité de l’image que nous avons affaire spontanément, et nous devons en général faire un effort pour percevoir sa « première » réalité, bidimensionnelle ; il n’en reste pas moins que l’image existe sur ces deux modes, et que, le plus souvent, loin d’y voir uniquement un indice véridique, nous la recevons sur un mode dialectique, qui tient compte de ses deux réalités. En termes phénoménologiques, on pourrait dire que le film – comme, de manière encore plus accentuée, le jeu vidéo – provoque un « conflit de perceptions » (Boyer, 2015) entre « la réalité effective actuellement présente » et « l’apparition d’un non-maintenant dans le maintenant ».

1.1.3 L’idéologie du simulacre

Symétriquement à l’idéologie indicielle, il a existé dès les débuts une conception de l’image de film comme pure construction : comme simulacre et non comme index. L’image, même automatiquement analogique, n’est pas un donné du monde mais une fabrication, et par conséquent, elle ne coïncide pas avec la réalité mais la représente. (Rappelons ici que, contrairement à une fausse évidence, « représenter » ne signifie pas « présenter une seconde fois », mais « rendre présent en remplaçant ».) L’image de film, quand nous la regardons, tient lieu d’une certaine réalité – le plus souvent organisée en fiction – mais elle n’est que cela : un tenant-lieu. En outre, du fait de sa double réalité visuelle, elle manifeste son statut de simulacre par toutes sortes de différences, plus ou moins importantes, avec la perception de la réalité. C’est ce qu’Arnheim (1932) avait appelé les « facteurs de différenciation », où il rangeait la projection des corps sur une surface plane, la diminution de la profondeur spatiale, l’absence de couleurs et l’éclairage artificiel, la limitation de l’image, la disparition de la continuité spatiotemporelle, enfin la disparition de la sensorialité non optique. C’est une liste datée (on peut maintenant rendre la couleur – encore qu’elle ne soit jamais parfaitement exacte – ou faire des prises extrêmement longues – quoique jamais infinies…), mais elle dit bien qu’entre ce que je vois directement et ce que je vois par l’intermédiaire d’une image mouvante, il existe toujours des différences.

C’est une idée qui a été souvent reconnue, comme un « au-delà de l’analogie » (Metz, 1970), et qui a, comme l’idéologie opposée de la trace, donné lieu à des revendications d’exclusivité à propos du médium cinématographique. La théorie des « facteurs de différenciation » d’Arnheim a influencé de nombreux auteurs, surtout anglophones, de Stephenson & Debrix (1945) qui la reprennent littéralement, au « néo-formalisme » de Bordwell & Thompson (1979-2014) qui en donne une version étendue à toutes les conventions à l’œuvre dans un film. Une défense en règle de la conception de l’image filmique comme simulacre se trouve, à date récente, dans Bertetto (2007), pour qui « comme résultat de la simulation, comme forme visuelle, à la fois ressemblante et différente, l’image filmique a une structure de simulacre qui l’éloigne du modèle réaliste, mimétique et purement reproductif ». Là encore, l’apparition du numérique a suscité un ensemble de discours, souvent unilatéraux, qui mettent en avant le caractère purement arbitraire, artificiel, construit de l’image de film, au détriment de toute relation purement indicielle avec la réalité. On lit par exemple en 2000 ceci :

« The manual construction of images in digital cinema represents a return to 19th century pre-cinematic practices. […] Cinema can no longer be distinguished from animation. It is no longer an indexical media technology but, rather, a sub-genre of painting. » (Manovich, 2000)

L’exagération est patente : bien sûr, l’image numérique est construite, comme toute image, et la procédure numérique permet de la modifier à loisir avec une réelle facilité ; mais la comparer à la peinture , où rien n’est automatiquement reproduit (ou, c’est presque pareil, au cinéma d’animation) est excessif : il reste toujours, dans l’image cinématographique, même numérique et retouchée en postproduction, une base indicielle, qui provient de l’analogie automatique produite à la prise de vues.

Ici deux remarques :

– L’image argentique n’a jamais été exempte de retouches ; elles étaient plus complexes à opérer, moins certaines, et souvent affectaient toute l’image d’un coup (alors qu’aujourd’hui on peut retoucher une image « au scalpel »), mais de même nature. Entre l’étalonnage argentique et l’étalonnage numérique, il n’y a le plus souvent qu’une différence de technique, non de visée (ni même tellement de résultats). Cette opération a d’ailleurs été opérée presque toujours, y compris en photographie ; un photographe comme Cartier-Bresson, inventeur de la notion d’« instant décisif » qui semble valoriser la prise spontanée, réalisait en fait des cadrages très travaillés, et n’hésitait pas à retoucher ses photos.

– Surtout, il faut rappeler que ce qui compte pour une esthétique du film, c’est avant tout la manière dont les images sont perçues et reçues ; or, on ne peut prétendre que des spectateurs confondent un film photographié avec un dessin animé , encore aujourd’hui. Les progrès impressionnants réalisés par la technique numérique en matière de ressemblance à la réalité (progrès très sensibles dans l’univers du jeu vidéo) signifient bien que ce qui est cherché, c’est moins la production de formes purement imaginaires qu’une nouvelle procédure, plus sophistiquée, plus hybride (mêlant prise de vues automates et interventions délibérées) en vue de produire une analogie convaincante. La ressemblance n’est pas une essence, mais une expérience : l’image de film se prête à une double réception, l’une purement réaliste (indicielle) l’autre purement formaliste (simulacre) ; elle favorise tantôt l’une, tantôt l’autre, et souvent laisse le spectateur libre de la dose de chacune des deux.

1.2 L’espace

1.2.1 La double réalité de l’image

L’espèce humaine est habituée depuis un siècle et quelque à ce que les images bougent, et depuis des millénaires, à ce que des images plates figurent des volumes, des espaces creux et habitables, des fuites perspectives et autres phénomènes spatiaux. L’image est capable de représenter des phénomènes mentaux aussi complexes que la perception du mouvement ou celle de l’espace. Il n’en est que plus remarquable qu’elle puisse le faire à partir d’une réalité matérielle intrinsèquement réduite : une surface plane et limitée, où se composent des taches colorées. Nous l’avons rappelé un peu plus haut, devant une image nous voyons une telle surface, et en même temps nous voyons un aspect d’un monde imaginaire. Toutefois, le verbe « voir » n’a pas tout à fait le même sens dans les deux cas : la surface colorée et cadrée appartient au même monde réel que nous, tandis que l’aspect du monde représenté, si convaincant soit-il (jusqu’aux frontières de l’illusion) ne partage pas notre réalité sensible. C’est ce qu’on a parfois appelé la double réalité de l’image (voir notamment Gombrich, 1982), expression suggestive quoique approximative, car si l’image a une double réalité, c’est qu’on prend le mot dans deux sens différents : soit l’objet réel (un tableau, une photo, une vidéo…), soit sa capacité représentative (ce qu’on y voit imaginairement).

L’image filmique, comme les autres, existe selon ces deux sens : elle occupe une surface (rectangulaire), où elle définit une certaine distribution de la lumière (et couleur), et en outre cette distribution est incessamment changeante. D’autre part, et comme avant elle le dessin ou la photographie, elle représente une réalité visible, imaginaire et occupée par des « objets figuratifs » (Francastel, 1951), c’est-à-dire des objets reconnaissables en tant que tels mais en outre chargés de valeurs socio-culturelles. Il y a donc deux grandes façons de comprendre l’image de film : comme surface ou comme profondeur fictive.

1.2.2 La profondeur : perspective, stéréoscopie

Comme nous l’indique notre expérience, c’est le sentiment de l’espace profond qui est premier devant l’image filmique. Un des facteurs importants de ce sentiment est que cette image obéit, par construction, aux principes de la perspective. La notion de perspective, dans son sens actuel, a été inventée par les peintres et théoriciens du xv^e siècle ; sa définition est donc inséparable de la réflexion sur la représentation de l’espace depuis 500 ans. On peut sommairement définir la perspective comme « l’art de représenter les objets sur une surface plane de façon que cette représentation soit semblable à la perception visuelle qu’on peut avoir de ces objets eux-mêmes » – ce qui ne va pas sans problèmes. Cela suppose qu’on sache définir une représentation semblable à une perception directe ; or, nous l’avons dit, les limites de l’analogie sont largement conventionnelles ; entre autres, les arts représentatifs ont longtemps négligé le fait que nous voyons avec deux yeux, et non un seul. Toutefois, cette idée nous semble intuitivement acceptable, pour plusieurs raisons :

– par construction, la perspective imite la production d’une image sur le fond de l’œil (la rétine) ; l’image perspective et l’image rétinienne, quoique de nature très différente (l’une est objective, l’autre n’est qu’un stade non isolable dans le processus de perception), résultent des mêmes lois géométriques ;

– elle est le système dominant depuis des siècles, et nous sommes massivement habitués aux images utilisant la perspective monoculaire ; quoique ce système ne soit pas le seul possible théoriquement, il a été adopté pour sa simplicité et son caractère « naturel » ;

– enfin, cette perspective a eu très vite un caractère « automatique », qui s’est traduit dans l’invention d’appareils divers (de ceux de Dürer ou de Brunelleschi, au xv^e siècle, à n’importe quel appareil de photo aujourd’hui), capable de la produire simplement.

Cette proximité de la perspective monoculaire avec notre mode de perception naturel, et l’habitude culturelle que nous en avons, nous rendent inattentifs à sa présence. Nous remarquons, en revanche, les déviations par rapport à son usage standard, notamment, en cinéma, celles qui résultent de l’emploi d’objectifs à très courte focale (qui creusent l’espace) ou à très longue focale (qui l’aplatissent). Orson Welles fut célèbre, entre autres, pour son amour des objectifs courts (18 mm), donnant à Citizen Kane (1940), Othello (1952) ou La Soif du mal (1958) un style visuel remarquable.

Parmi les moyens imaginés pour rendre la perspective plus proche encore de notre vision, le plus spectaculaire est ce qu’on appelle la stéréoscopie (ou, dans le jargon commercial, « 3D »). Elle vise à rétablir le caractère binoculaire de la perception, en dotant l’image de traits perceptifs qui font jouer les deux yeux ; pour cela on donne une image différente à chaque œil, les images gauche et droite étant déterminées de manière à correspondre aux deux images rétiniennes produites dans nos deux yeux devant une situation réelle. Ce principe n’est pas neuf, et il avait été popularisé dès le xix^e siècle par des dessins et des photographies ; des appareils de prise de vues et de visionnement de photos stéréoscopiques étaient même courants à partir des années 1900. Le cinéma a repris le même principe, la principale difficulté ayant consisté à permettre la sélection de l’image destinée à chaque œil, puisque les deux images sont projetées en même temps sur l’écran (et non pas l’une à côté de l’autre comme pour les photos). On a utilisé pour cela divers procédés, le plus courant aujourd’hui étant de polariser la lumière différemment pour les deux images (horizontalement pour l’une, verticalement pour l’autre) ; la discrimination est alors faite à travers des verres polarisés portés sous forme de lunettes 1.

L’effet stéréoscopique permet effectivement de percevoir des images dotées de relief, parfois de manière impressionnante (d’autant que ce procédé, qui est avant tout un argument de vente, est généralement employé dans des films eux-mêmes spectaculaires). Il reste cependant peu probable que l’image stéréoscopique devienne la norme de l’image filmique, pour plusieurs raisons. Ces images induisent une fatigue visuelle, qui peut être très importante chez certains spectateurs (au point de provoquer un refus de les regarder). De plus, elles sont souvent imparfaites, provoquant des « bavures » dans certaines zones de l’image ; souvent aussi, les deux images ne sont parfaitement accordées que pour certaines places devant l’écran (trop loin de l’axe, la convergence se fait mal). Enfin et plus essentiellement, l’effet obtenu n’est pas le même que celui que produit une scène réelle ; l’image stéréoscopique donne au spectateur le sentiment paradoxal d’être vissé devant la scène, sans pouvoir tourner autour, tout en ayant une sensation de relief qui ne pourrait résulter que de ce mouvement ; contrairement à un argument souvent entendu, elle n’est donc pas plus réaliste, son codage étant tout aussi arbitraire que celui de l’image plate.

1.2.3 La surface : le cadre

L’image de film, comme avant elle la photographie et la peinture, est limitée dans l’espace, par un cadre rectangulaire (elle ne peut pas être infiniment grande). Les proportions de ce cadre ont beaucoup changé au cours de l’histoire du cinéma. Elles furent d’abord de 4/3 (soit 1,33), puis à la fin des années 1920 l’Academy of Motion Pictures Arts les fixa à 1,375 ; dans les années 1950 apparurent des formats de plus en plus larges (de 1,65 à 1,85), puis les formats très larges résultant d’un procédé anamorphotique (CinemaScope et successeurs) et offrant des proportions de 2,20 (Todd-AO) à 2,76 (Ultra-Panavision 70). Ces proportions, définies pour la pellicule, ont été employées jusqu’aux années 1990, et ont survécu à la diffusion de films à la télévision (dont l’écran a longtemps été aux proportions 4/3) malgré les problèmes d’adaptation. Toute la gamme des formats larges perdure à l’époque numérique, sans changement notable 2. (On a vu aussi, à date récente, des films dont le format change en cours de route, tels The Grand Budapest Hotel [Anderson, 2014] ou Au-delà des montagnes [Jia, 2015].)

Le cadre manifeste clairement la double réalité perceptive de l’image : en effet, il peut être considéré, soit comme une sorte d’ouverture mobile à travers laquelle on regarde le monde, soit comme la limite d’une surface où apparaissent des formes et des couleurs. Cette double définition a été apparente dès la photographie (et même en peinture, avec les premiers paysages peints « sur le motif », à la fin du xviii^e siècle). En peinture, en photo, en cinéma, le cadre est à la fois cadrage (c’est-à-dire choix d’une certaine portion de la réalité que l’on donne à voir) et limite. Pour le dire de manière imagée, on peut voir dans le cadre à la fois un cadre-limite et un cadre-fenêtre (voir chap. 1.3 § 3.1).

Le cadre apparaît d’abord comme une ouverture donnant accès au monde (imaginaire) figuré par l’image. Dans toute la tradition représentative issue de la Renaissance, les bords de l’image sont ce qui l’arrête, mais aussi ce qui fait communiquer l’intérieur de l’image – ce qu’on appelle en cinéma le champ – avec son prolongement imaginaire, le hors-champ. Les côtés gauche et droit du cadre, notamment, sont associés à la possibilité pour un personnage de sortir du champ ou d’y entrer ; dans le premier cinéma dramatique, cela donna naissance à une forme de mise en scène élémentaire, mise au point par Griffith, et qui fut longtemps pratiquée (Aumont, 2006). Les bords supérieur et inférieur du cadre correspondent à des mouvements moins habituels dans notre environnement ; en outre, contrairement aux bords latéraux, ils ne sont ni symétriques, ni échangeables. L’apparition ou disparition d’une figure par le bord inférieur, notamment, est généralement utilisée à des fins expressives. Il existe d’ailleurs de nombreux moyens de rendre le cadrage expressif, en rapport avec son contenu représentatif. Par exemple, dans plusieurs films japonais des années 1960 tournés en cinémascope, le cadre est parfois animé d’une rotation sur son axe, ou d’un fort tremblement, qui ne sont pas justifiés par le récit, mais traduisent sous forme visible une émotion associée au contenu narratif (tremblement = trouble du personnage ; rotation = atmosphère bizarre, etc.).

Le mot cadrage, et le verbe cadrer, apparurent avec le cinéma, pour désigner un processus mental et matériel déjà à l’œuvre en peinture et en photographie : la production d’une image contenant un certain champ vu sous un certain angle, avec certaines limites précises (le cinéma a institutionnalisé cette opération, en inventant la profession de cadreur). Dans les tout premiers films, la distance de la caméra au sujet filmé était à peu près toujours la même, permettant aux personnes filmées d’être représentées en pied. Très vite, on eut l’idée de rapprocher ou d’éloigner la caméra, de sorte que les sujets filmés devinrent plus petits, perdus dans le décor, ou au contraire plus grands, et vus seulement en partie. C’est pour rendre compte de ces possibilités, et du lien entre la distance de la caméra au sujet filmé et la grandeur apparente de ce sujet, que l’on a élaboré une typologie empirique, appelée « échelle des grosseurs de plan », du plan d’ensemble et du plan général au plan rapproché et au gros plan. Par métonymie, le mot « cadrage » en est venu à désigner certaines positions particulières du cadre par rapport à la scène représentée. C’est ainsi qu’on parle de « cadrage en plongée » (quand le sujet est filmé d’en haut), « en contre-plongée » (quand il est pris d’en bas), de cadrage oblique, serré, frontal, etc. Il existe aussi tout un vocabulaire relatif aux effets produits par les mouvements de la caméra par rapport au sujet filmé : le travelling est un déplacement du pied de la caméra ; le panoramique est un pivotement de la caméra, horizontalement, verticalement, ou dans toute autre direction, tandis que le pied reste fixe ; il existe toutes sortes de mixtes de ces deux mouvements (on parle alors de pano-travellings). À partir de 1940, on a introduit l’usage du zoom, ou objectif à focale variable. Pour un emplacement de la caméra, un objectif à focale courte donne un champ large et creuse la perspective ; le passage à une focale plus longue, resserrant le champ, le « grossit » par rapport au cadre, et donne l’impression qu’on se rapproche de l’objet filmé (à noter qu’en même temps que ce grossissement se produit une diminution de la profondeur de champ). Enfin, à date plus récente, des dispositifs robotisés ont permis de filmer une scène en faisant varier à peu près tous les paramètres – distance, angle de prise de vues, focale – de manière programmée (dans Le Direktør [2007], Lars von Trier a même utilisé un logiciel aléatoire pour déterminer ces paramètres pour chaque plan).

Toutefois le cadre est loin de se réduire toujours à cette fenêtre imaginaire. On a même pu soutenir qu’il n’existe aucun prolongement imaginaire de l’image au-delà de ses bords, même au cinéma (Seguin, 1999). De toute manière, dans la mesure où sa forme est presque toujours une forme géométrique simple, le cadre sollicite notre perception pour son propre compte. En particulier, il induit des effets de champ et de surface, notamment un centrement de l’image. Ce phénomène n’est pas à proprement parler perceptif, car il met en cause d’autres capacités psychiques que la perception – mais son effet est suffisamment immédiat pour qu’on ait pu le décrire comme relevant des lois générales du visuel, en particulier, dans le cadre de la Gestalttheorie (Arnheim, 1981). Plus généralement, on associe toujours le cadre à ce qu’on appelle la composition de l’image , terme un peu vague qui recouvre la part purement plastique de l’apparence du cadre : lignes de force plus ou moins visibles, répartition des masses claires et sombres, équilibre des couleurs, etc. Toutefois, une telle composition, essentielle dans l’image fixe, ne joue un rôle en cinéma que dans le cas où le cadre reste suffisamment stable (un panoramique filé ne paraîtra pas très composé en ce sens).

Il existe plusieurs procédés qui ont pour effet de marquer la surface du cadre (et de diminuer l’effet de profondeur imaginaire). Certains affectent toute la surface, comme la surimpression (deux images au moins sont données à voir en même temps, ce qui rend plus difficile la perception de la profondeur) ou la transparence : une scène est filmée devant la projection d’une image enregistrée préalablement, et qui, du moins dans un film argentique, a une matière suffisamment différente pour être perçue (ce n’est plus le cas en numérique, bien entendu). D’autres consistent plutôt à partager la surface en zones juxtaposées, soit expressément comme le split screen, soit de manière plus subtile par la mise en scène et/ou le recours à des éléments faisant cadre dans le cadre (on parle alors parfois de « surcadrage »).

Fenêtre Une image plate et profonde. L’image de film est perçue à la fois comme plate et comme profonde, mais il existe de nombreux moments où cette double réalité est dissociée. Trois exemples : • « », c’est régler l’optique de manière que seule l’image des objets à une certaine distance de l’objectif soient nets. Dans ce plan du (Mann, 1986) , on passe d’une mise au point sur les deux personnages distants à une autre sur le personnage proche, forçant le spectateur à prendre conscience de ces deux choix successifs. — Fenêtre **1.1** Une image plate et profonde.

L’image de film est perçue à la fois comme plate et comme profonde, mais il existe de nombreux moments où cette double réalité est dissociée. Trois exemples :

• « **Faire le point** », c’est régler l’optique de manière que seule l’image des objets à une certaine distance de l’objectif soient nets. Dans ce plan du *Sixième sens* (Mann, 1986), on passe d’une mise au point sur les deux personnages distants à une autre sur le personnage proche, forçant le spectateur à prendre conscience de ces deux choix successifs.

• On peut jouer sur la tension entre surface et profondeur avec une image uniformément nette (avec une grande « »). Dans ce plan de (Welles, 1958) , les deux figures humaines sont nettes, mais la disproportion entre elles et le creusement de l’espace dans la partie gauche donnent l’impression d’un collage ; lorsque, par la suite, le personnage de gauche se rapproche, c’est l’éclairage qui distingue les deux figures et produit le même effet de collage : — • On peut jouer sur la tension entre surface et profondeur avec une image uniformément nette (avec une grande « **profondeur de champ** »). Dans ce plan de *La Soif du mal* (Welles, 1958), les deux figures humaines sont nettes, mais la disproportion entre elles et le creusement de l’espace dans la partie gauche donnent l’impression d’un collage ; lorsque, par la suite, le personnage de gauche se rapproche, c’est l’éclairage qui distingue les deux figures et produit le même effet de collage :

• Le procédé de la « » consiste à filmer une scène devant un fond préalablement filmé, qui est projeté derrière cette scène. Cela permet notamment de tourner en studio une scène censée se dérouler en extérieurs ; très tôt, le cinéma s’en est aussi servi de manière ironique, pour « mettre à nu le procédé » de tournage, comme dans cette scène de (Potter, 1941) où les deux héros s’aperçoivent tout à coup qu’ils ne sont plus dans le bon film. (Avec le film numérique, ce trucage devient imperceptible, la matière du fond et celle de la scène en premier plan étant identiques.) De même, (ici dans [Astruc, 1955] ) « aplatit » l’une sur l’autre deux images différentes, souvent pour marquer une transition ou pour indiquer une relation métaphorique. — • Le procédé de la « **transparence** » consiste à filmer une scène devant un fond préalablement filmé, qui est projeté derrière cette scène. Cela permet notamment de tourner en studio une scène censée se dérouler en extérieurs ; très tôt, le cinéma s’en est aussi servi de manière ironique, pour « mettre à nu le procédé » de tournage, comme dans cette scène de *Hellzapoppin* (Potter, 1941) où les deux héros s’aperçoivent tout à coup qu’ils ne sont plus dans le bon film. (Avec le film numérique, ce trucage devient imperceptible, la matière du fond et celle de la scène en premier plan étant identiques.) De même, **la surimpression** (ici dans *Les Mauvaises Rencontres* [Astruc, 1955]) « aplatit » l’une sur l’autre deux images différentes, souvent pour marquer une transition ou pour indiquer une relation métaphorique.

On peut s’en prendre plus directement à la surface en la « découpant » en deux (ou plusieurs) surfaces autonomes, reliées au plan sémantique. Ce plan de (De Palma, 1973) montre en des actions simultanées mais distantes ; dans (2002), Avi Mograbi dédouble le personnage par un effet similaire (en numérique). — On peut s’en prendre plus directement à la surface en la « découpant » en deux (ou plusieurs) surfaces autonomes, reliées au plan sémantique. Ce plan de *Sœurs de sang* (De Palma, 1973) montre en ***split screen*** des actions simultanées mais distantes ; dans *Août (avant l’explosion)* (2002), Avi Mograbi dédouble le personnage par un effet similaire (en numérique).

1.3 Le temps

1.3.1 Analogie temporelle : le mouvement

Ce n’est pas hasard si les deux premières formes de ce qui deviendrait le cinéma (le Kinetoscope d’Edison et le Cinématographe des Lumière) portaient l’une et l’autre un nom tiré du mot grec signifiant « mouvement ». Elles apportaient en effet une seule nouveauté essentielle : ce sont des images mouvantes. En matière de représentation de l’espace et des figures, elles sont très proches de la photo (et des arts plastiques), mais le mouvement n’avait, auparavant, jamais été reproduit.

Il faut insister sur le fait qu’il s’agit bien d’une reproduction, et pas seulement d’une représentation : la représentation suscite un signe d’un objet ou d’un phénomène absent, alors que le mouvement perçu sur l’écran de cinéma est bel et bien présent. Pour être plus précis, il est présent dans notre perception de spectateur. On a souvent remarqué que la cinématographie, « écriture du mouvement », consistait à fixer ce mouvement sous forme d’images fixes imprimées sur une pellicule ; de là on a parfois conclu que le mouvement perçu en projection n’était pas réel, et on l’a souvent nommé « mouvement apparent ». Il est exact que l’écran qui reçoit l’image est lui-même immobile, et que ce n’est que l’image projetée – non tangible, donc souvent considérée (à tort) comme immatérielle – qui est dotée de mouvement.

Il est assez vain de se battre sur une définition essentialiste de ce mouvement, ou pour savoir s’il est réel ou apparent. Comme dans beaucoup de questions relatives aux images, il est certainement préférable de considérer l’usage et l’effet plutôt que l’essence. Quelle que soit celle du mouvement des images de film, notre appareil perceptif le perçoit comme un mouvement réel ; on a même pu montrer que sa perception mettait en jeu les mêmes zones corticales que la perception du mouvement d’un objet réel 3, et que par conséquent l’un et l’autre sont indistinguables. Il est donc inutile de parler d’illusion à propos du mouvement de l’image de film.

1.3.2 Analogie temporelle : la durée

Étrangement, on a mis beaucoup plus longtemps à s’apercevoir que l’image de film était aussi une image analogique de la durée. Celle-ci est souvent définie comme la qualité subjective et vécue du temps (par opposition au temps mesurable et objectif), et devant les bandes des Lumière il était assez naturel de ressentir le passage du temps comme « normal ». Il y a donc, entre le temps dans un plan de film et le temps de son référent, un rapport pleinement indiciel, du moins si l’on filme sans procédé spécial (ni ralenti, ni accéléré, notamment). De nombreux auteurs ont été sensibles à cette évidence de l’inscription du temps dans un morceau de film, souvent pour en tirer des conclusions excessives sur le « réalisme inné » du cinéma : il est clair que, tant que la caméra tourne, elle enregistre une durée ininterrompue et continue, mais d’une part, un film est le plus souvent fait d’assez nombreux plans successifs et d’autre part, la durée dans un plan est en fait modulée, plus ou moins ostensiblement, par la nature et la mise en scène des événements.

Aussi la réflexion sur le temps a-t-elle surtout été intéressante lorsqu’elle a visé à dépasser l’idée trop simple de la reproduction à l’identique . Déjà Epstein, dans les années 1930-1940, s’était passionné pour tous les moyens dont dispose le cinéma pour produire un temps inédit, plutôt que reproduire le temps réel :

« Le temps ne contient rien qu’on puisse appeler temps en soi, pas plus que l’espace ne renferme d’espace en soi. Ils ne se composent, l’un et l’autre, que de rapports, essentiellement variables, entre des apparences qui se produisent successivement ou simultanément. C’est pourquoi il peut y avoir trente-six temps différents et vingt sortes d’espaces, selon les positions infiniment diverses des objets et de leur observateur. » (Epstein, 1946)

Un demi-siècle plus tard, un autre cinéaste, Tarkovski, parlait, lui, de « sculpter le temps » (1986). On peut aussi penser à la fameuse formule de Schefer (1980) : « le cinéma est la seule expérience dans laquelle le temps m’est donné comme une perception », qui signale le caractère visible que prend le temps cinématographique, justement parce qu’il n’est pas la simple reproduction d’un temps ordinaire.

1.3.3 Continuité et successivité : le plan, le montage

Nous avons utilisé le terme « plan », qui est devenu d’usage courant et qui peut sembler ne pas avoir besoin de définition. Pourtant ce terme, qui n’existait pas lorsque les Lumière ou Edison présentèrent leurs vues, n’est pas dénué d’ambiguïté. Jusqu’aux années 1910, l’unité de film était assimilée à une scène ou un « tableau » (au sens du théâtre) ; le film était un bout à bout de ces unités, relativement autosuffisantes. Un plan se définit, lui aussi, par un contenu dramatique et par un point de vue cadré, mais il représente une invention spécifiquement cinématographique, en ce que son contenu est partiel (une partie de la scène) et sa durée est arbitraire. Un plan peut coïncider avec une action dramatique, de son début à sa fin, mais c’est un choix rare, et la même action sera plus souvent rendue par deux, cinq, dix plans, dont chacun aura alors sa forme, sa logique, sa durée propres.

Sur ce point s’est concentrée une grande partie de la réflexion théorique sur le montage depuis un siècle : quelle est la relation entre un plan unitaire (une prise de vues en continu, avec un début, une fin, une durée et un cadrage, éventuellement variable) et la suite de plans dont il fait partie ? Pour l’un des tout premiers à s’être posé la question, Poudovkine (1926), la réponse est simple : le plan est un point de vue momentané, choisi pour véhiculer une information factuelle, sensorielle et affective ; après quoi un autre point de vue lui succèdera, pour donner une autre information qui vient compléter et modifier la première. Cette conception du plan est celle que l’on trouve dans la plupart des traités théoriques et des manuels pratiques, et elle se fonde sur l’idée centrale que le montage « reproduit le processus mental par lequel (dans la vie réelle) notre attention se porte successivement sur tel ou tel point » (Lindgren, 1948) ; ou, dans les termes de deux professionnels : « le monteur ne reproduit pas les conditions physiques qui règnent lorsque j’observe une scène, il interprète le processus mental par lequel je la vois » (Reisz & Millar, 1968).

L’outil de base du montage est ce qu’on appelle, d’un terme commode mais un peu vague, le raccord. Comme le mot le dit, le raccord est d’abord pensé comme une continuité. Sans abolir la discontinuité essentielle du changement de plan ni chercher à la faire oublier (elle reste visible à qui veut la voir), il s’agit de la rendre secondaire par rapport à une continuité sémiotique : je vois que j’ai changé de plan, mais je sais que je suis resté dans la même séquence, que les choses se suivent et que ma compréhension des événements ne doit pas trop s’attarder sur le saut produit au changement de plan. Le raccord est toujours un geste double et contradictoire : il fait passer d’un bloc d’espace-durée à un autre bloc, et provoque donc un changement soudain de ma perception ; mais il le fait en produisant un rapport entre les deux blocs qu’il réunit – rapport visuel ou sémantique, ou les deux.

Fenêtre Comment deux images de film s’enchaînent. Deux plans peuvent se suivre selon de nombreuses logiques, narratives et causales ou figuratives et métaphoriques (et aussi se suivre sans logique apparente). • Ce qu’on appelle vise à assurer une relation causale claire entre deux plans, même s’il prend une forme inhabituelle. Dans cette scène d’ (Stevens, 1951) , on passe du près au loin au moment crucial où la barque verse et où la jeune femme tombe à l’eau. Ce petit choc perceptif accompagne un brusque recul sur la scène jouée, et met le spectateur à distance de l’événement pathétique (la noyade). — Fenêtre **1.2** Comment deux images de film s’enchaînent.

Deux plans peuvent se suivre selon de nombreuses logiques, narratives et causales ou figuratives et métaphoriques (et aussi se suivre sans logique apparente).

• Ce qu’on appelle **raccord** vise à assurer une relation causale claire entre deux plans, même s’il prend une forme inhabituelle. Dans cette scène d’*Une place au soleil* (Stevens, 1951), on passe du près au loin au moment crucial où la barque verse et où la jeune femme tombe à l’eau. Ce petit choc perceptif accompagne un brusque recul sur la scène jouée, et met le spectateur à distance de l’événement pathétique (la noyade).

• Une façon plus rare, mais expressive, d’enchaîner des plans consiste à maintenir leur relation en termes de contenu, mais en accentuant le moment formel du passage, sous forme d’une brusque , comme dans cette scène de (Bigelow, 2009) . — • Une façon plus rare, mais expressive, d’enchaîner des plans consiste à maintenir leur relation en termes de contenu, mais en accentuant le moment formel du passage, sous forme d’une brusque **saute**, comme dans cette scène de *Démineurs* (Bigelow, 2009).

• Deux plans peuvent aussi se succéder selon une logique plus intellectuelle, de l’ordre de la ou de la , comme dans la célèbre scène de (1924) où Eisenstein met sur le même pied le massacre des manifestants et celui des bœufs à l’abattoir. — • Deux plans peuvent aussi se succéder selon une logique plus intellectuelle, de l’ordre de la **métaphore** ou de la **comparaison**, comme dans la célèbre scène de *La Grève* (1924) où Eisenstein met sur le même pied le massacre des manifestants et celui des bœufs à l’abattoir.

Le cinéma est une expérience du temps, mais il s’agit d’un temps modulé et modelé par des événements représentés, et en outre, d’un temps composé par le montage, qui ajoute de la discontinuité à la continuité inhérente à chaque plan. L’expérience temporelle que propose le film est donc singulière. Il montre un événement par fragments enchaînés, selon un régime de temps pleins (plans) et de sautes ou d’ellipses (passage d’un plan à l’autre), conçues de telle sorte que le spectateur ait les moyens de les interpréter (parfois cela est difficile, arbitraire ou hypothétique). Mais il offre tout cela dans une forme qui elle-même possède une qualité temporelle – le rythme , qui a obsédé la réflexion des avant-gardes historiques à propos du cinéma, sans toutefois qu’elles en donnent jamais une définition satisfaisante. Selon l’un et l’autre de ces aspects et ce, quel que soit le film (documentaire ou fiction, film expérimental ou grand public) le montage est l’outil mental qui gère cette donnée essentielle : le rapport entre le visible et l’invisible. Le raccord, dans son ambiguïté constitutive, est ce rapport.

1.4 Le sonore

1.4.1 L’analogie sonore

Durant la plus grande partie de son histoire, le cinéma a été sonore ou parlant, c’est-à-dire que le film, tel qu’il est vu en projection ou en diffusion vidéo, est à la fois visible et audible. L’audition est un phénomène temporel, prêtant à une reproduction analogique plus poussée que la vue, jusqu’au leurre éventuel ; il est possible de prendre un enregistrement sonore pour la réalité, alors que cela ne peut s’envisager d’un enregistrement visuel que dans des conditions exceptionnelles. Il existe cependant, comme pour l’image, des degrés d’analogie, de la reproduction quasi parfaite à la déformation absolue, et, comme pour l’image, c’est le projet figuratif et sémiotique du film qui détermine le type de représentation sonore qu’on adopte – le même son pouvant être affecté de valeurs, d’une présence et d’une « matière » différentes, selon le contexte. Les cris des freux dans Les Oiseaux (Hitchcock, 1963) ou ceux des corbeaux dans Nouvelle Vague (Godard, 1990) sont peut-être réalistes, mais leur volume, une violence calculée qui provient de leur montage abrupt, les rendent très différents des cris des mêmes oiseaux dans un documentaire animalier. Dans un autre registre, on pourrait faire un intéressant catalogue des bruits d’armes à feu dans l’histoire des films, depuis les plus réalistes (Godard se vantant de n’avoir utilisé que le son des armes figurées dans Les Carabiniers [1962]) jusqu’aux plus fantaisistes (par exemple Mars Attacks ! [Burton, 1996]).

Parmi les principales différences entre la réception de l’image et celle du son, il y a la position imaginaire occupée par le spectateur : devant un film, nous pouvons avoir un point de vue, mais l’idée d’un point d’écoute n’est pas évidente. La technologie ici est intéressante dans son évolution : à la source unique des débuts (un son monophonique dans un seul haut-parleur) a succédé une série de procédés visant à spatialiser le son dans la salle de cinéma ; à l’heure actuelle, en France, une salle standard est équipée de cinq sources sonores : trois haut-parleurs au niveau de l’écran, dont un caisson de graves au centre, et deux autres haut-parleurs derrière les spectateurs. Ce dispositif est surtout utilisé à plein dans des films voulus sensationnels, mais même le mixage du plus simple documentaire est réalisé en fonction de cette disposition. Pour autant, le spectateur n’a pas dans cet univers sonore exactement le même repérage que dans la réalité (pas plus qu’au plan visuel) : le son d’un film est un artefact, et ne le laisse pas oublier. Si l’image filmique est, nous l’avons vu, capable d’évoquer un espace semblable au réel, le son est à peu près totalement dénué de cette dimension spatiale. Ainsi, nulle définition d’un « champ sonore » ne saurait se calquer sur celle du champ visuel, ne serait-ce qu’en raison de la difficulté à imaginer ce que pourrait être un hors-champ sonore (un son non perceptible, mais rattaché aux sons perçus : cela n’a guère de sens).

1.4.2 Le son dans son rapport à l’image

Le cinématographe inventa une forme d’image mouvante, inscrite dans le temps, mais purement visuelle. C’est l’invention, qui s’est jouée en même temps, du spectacle cinématographique qui amena très vite à accompagner ces images de divers événements sonores. Durant plusieurs années, ce fut essentiellement de la musique , jouée en direct par des instrumentistes ; dans les salles qui en avaient les moyens, il pouvait y avoir en outre un commentateur, qui expliquait les événements et aidait à lever les ambiguïtés de leur représentation. Ce spectacle, articulé le plus souvent autour d’un ou plusieurs films de fiction et/ou documentaires, représentait donc des êtres humains, et le désir de ne pas seulement les voir, mais aussi les entendre, a été souvent exprimé, dès les débuts – même si, durant une bonne vingtaine d’années, l’art du cinéma exprima à peu près toute la gamme des situations et des sentiments sans recourir à des dialogues audibles (Altman, 2004).

Nous vivons depuis près d’un siècle avec l’idée que le cinéma, c’est une image mouvante accompagnée d’un son , et l’absence, durant trente ans, d’un tel son, nous apparaît comme un manque, et c’est pourquoi on a parlé, rétrospectivement de cinéma muet : il semblait handicapé. On a pu (Chion, 2003) proposer de considérer que ce cinéma était plutôt sourd que muet, mais même si cela déplace de façon intéressante la question (du spectacle achevé à sa réalisation), ce n’est jamais que remplacer un handicap par un autre. Que le cinéma soit « sourd » ou « muet », cela veut dire qu’il n’est pas capable de reproduire un son qui, pourtant, existait (au moment du tournage du film). On peut noter ici qu’il existe, depuis l’invention du cinéma sonore et parlant, des films qui ont renoncé à produire une bande son ; on a revendiqué pour eux (dans les années 1970 ou 1980) l’étiquette de « film silencieux », pour bien marquer qu’ils avaient choisi ce silence ; c’est le cas par exemple du Révélateur (Garrel, 1968) ou de nombre de films dits « expérimentaux » tel Echoes of Silence (Goldman, 1964).

La relation d’accompagnement entre image et son est tout sauf égalitaire et symétrique. Rien n’oblige, en principe, un film à avoir une bande son qui soit le complément littéral de la bande image (les paroles des gens qui parlent, les bruits de leur environnement figuré, etc.) – mais c’est de loin le cas le plus ordinaire, tout autre usage étant d’emblée marqué ; le son est le plus souvent considéré comme un adjuvant de l’analogie scénique offerte par les éléments visuels. On a parfois proposé (Chion, 2003) de considérer le son filmique comme un son acousmatique, c’est-à-dire entendu sans qu’on voie sa source ; c’est là une idée intéressante, mais à condition de bien voir qu’elle ne décrit pas l’expérience spontanée du spectateur de film, lequel au contraire a le plus souvent tendance à recevoir l’image et le son comme coextensifs. À vrai dire, le seul cas imaginable où l’on reçoit un son comme « acousmatique », c’est lorsqu’il est proposé seul, sans image, ce qui est rare ; il existe quelques cas de films qui proposent, pendant un certain temps, un écran noir accompagné de musique, de bruits et/ou de dialogues, mais ils passent tous pour expérimentaux (parmi les plus notables : L’Homme atlantique de Duras [1981] et Blanche-Neige de Monteiro [2000]).

Tout le travail du cinéma mainstream a visé à spatialiser imaginairement les éléments sonores, en leur offrant des correspondants dans l’image – et donc à assurer entre image et son une liaison bi-univoque, « redondante ». C’est dans des films d’auteur, à visée plus ou moins théorique, qu’on trouve, à toutes les époques, une recherche d’autonomie du son, comme élément expressif pouvant entrer dans des combinaisons diverses avec l’image. Cela a été particulièrement net autour de 1970, avec des films comme ceux de Robbe-Grillet sur lesquels travailla Michel Fano (Trans-Europ Express [1966], L’Homme qui ment [1968], etc.), et où l’usage des bruits, notamment, était aussi déréalisant que possible, ou les films de Werner Schroeter (Eika Katappa [1969], La Mort de Maria Malibran [1972]) pratiquant une dissociation systématique de la bande son (souvent, de la musique ou des airs d’opéra) et de l’image. Dans une voie opposée, mais aux effets stylistiques également marqués, c’est aussi l’époque où l’on a souvent vu des cinéastes accorder une grande importance au « son direct » ; dans Othon (Straub & Huillet, 1969) ou L’Amour fou (Rivette, 1968), la présence de bruits « parasites » ne passe pas inaperçue.

2. Genèse de l’image de film

2.1 L’image automate

2.1.1 Automatisme de l’analogie

Non seulement l’image de film est une image analogique , mais elle l’est automatiquement, dans sa variante numérique comme dans sa variante argentique. Il ne s’agit pas d’une analogie construite à chaque fois, manuellement et ad hoc, mais d’une analogie générique, garantie dans toutes les circonstances de prise de vues, par construction de l’appareil. Cette analogie, qui a justifié le développement d’une conception du cinéma comme technique intrinsèquement réaliste , concerne plusieurs aspects de la réalité : elle reproduit la durée réelle de l’événement ; elle produit une image en perspective qui permet, dans certaines limites, de percevoir un arrangement spatial ; elle donne un équivalent acceptable du relief des objets ; elle donne aussi, depuis les années 1930, des équivalents acceptables de leurs couleurs. Toutefois, cela n’en fait pas une analogie parfaite : elle n’a pas de vrai volume, ses couleurs sont différentes des couleurs réelles, l’effet de perspective dépend de l’objectif utilisé, etc. ; en outre, elle peut être travaillée, durant le tournage et encore davantage ensuite, depuis la simple interposition d’un filtre coloré (ou d’une substance semi-transparente) jusqu’à l’usage de logiciels plus ou moins sophistiqués. Surtout, cette reproduction « mécanique » du monde, qui a frappé les théoriciens des premières décennies, donne des sensations analogues à celles qui affectent nos organes des sens (nos yeux surtout), mais elle le fait sans le correctif des processus mentaux qui sont les nôtres dans la vie réelle : le film a affaire à ce qui est matériellement visible, et non pas vraiment à la sphère (humaine) du visuel .

L’automatisme de l’analogie (visuelle) filmique a donc une valeur ambiguë : d’un côté, il assure que « ça ressemble », puisque c’est une machine, sans humeurs ni états d’âme, qui l’a produite ; mais cette réalisation « mécanique » et cette absence d’intentions en font une analogie toujours incomplète, qu’il faut à chaque fois interroger (ce n’est pas toujours le même aspect de l’expérience qui manque). C’est là la source des deux grands courants théoriques et critiques sur la question du « réalisme » du cinéma. D’une part, des approches qui valorisent l’automatisme comme garantie de justesse, comme celles de deux auteurs déjà cités (chap. 1.1 § 1.1.1), le « réalisme ontologique » de Bazin et la « rédemption de la réalité physique » de Kracauer. Pour l’un et l’autre, l’image filmique idéale, non truquée, sans qualités expressives marquées, possède une vertu essentielle non seulement de reproduction du visible, mais de garantie d’existence (et, tendanciellement, de garantie de vérité), parce qu’elle est le résultat d’un enregistrement opéré par une machine, conçue pour donner une image mimétique fidèle. C’est un point de vue incomplet, qui néglige le fait que toute machine est conçue en fonction de certaines intentions (en l’occurrence, répondant à une conception particulière de la mimésis, celle qui provient de l’histoire de l’image plane en peinture et photographie).

C’est ce que souligne un autre type d’approche du réalisme, théorisé de manière plus disparate mais toujours autour d’un souci de la valeur – culturelle, sociale, idéologique voire politique – des êtres et des événements filmés. Chez Vertov, le culte de la machine cinématographique comme « super-œil », plus objectif que l’œil humain, s’accompagne d’une conviction qu’on peut rendre compte de la réalité de manière juste, en lui étant fidèle mais surtout en en dégageant la signification, à la lumière de la « science » marxiste. Près d’un demi-siècle plus tard, Comolli reprend un thème analogue : la technique cinématographique, inventée dans un contexte social et politique bien déterminé (la domination de la bourgeoisie), n’est pas neutre, et le filmage de la réalité ne peut se fier à cette seule technique ; le cinéaste doit introduire, par tous les moyens, un point de vue critique et conférer du sens à ce qu’il filme.

2.1.2 Automatisme du mouvement

L’automatisme de l’image cinématographique n’est donc pas une garantie absolue qu’elle rend « la réalité ». Toutefois le mouvement, lui, est reproduit – toujours automatiquement – avec une fidélité absolue. Comme nous l’avons déjà dit, le mouvement « apparent » de l’image de film est, pour nos yeux, identique à un mouvement réel, notre cerveau n’étant pas capable de faire la différence entre le mouvement continu des objets du monde et celui que restitue le film. Or, le film lui-même, sur support argentique, est composé d’une grande quantité d’images fixes, défilant selon un certain rythme devant la fenêtre du projecteur ; cette contradiction apparente entre la fixité de chaque image unitaire (chaque photogramme) et le mouvement perçu a longtemps constitué une énigme et un point de discussion. En fait, il est à peu près impossible de comprendre ce phénomène en partant de la notion abstraite de mouvement, qui ne distingue pas entre un mouvement ressenti (mon corps touche et/ou se déplace) et un mouvement aperçu (mon corps voit un objet se déplacer), ce dernier seul concernant le cinéma.

Ce thème a été étudié dans deux directions principales :

– Une voie d’inspiration phénoménologique, constatant la parfaite similitude, pour notre système perceptif, entre mouvement réel et mouvement filmé. C’est la position de Metz (1965), qui fait du mouvement apparent l’un des principaux facteurs de ce qu’il nomme l’« impression de réalité » au cinéma. Cette similitude a été étudiée en laboratoire dès 1912, par des psychophysiologues allemands autour de Wertheimer, qui ont mis en évidence des propriétés du cortex visuel donnant lieu à la perception d’un mouvement à partir de stimuli immobiles se succédant rapidement. Parmi ces phénomènes, il en est un qui concerne assez directement le film, et qui a été à l’époque baptisé « effet phi » (Münsterberg, 1916 ; Guillaume, 1937) : lorsque des spots lumineux, espacés les uns des autres, sont allumés successivement, on « voit » un trajet lumineux continu et non une succession de points espacés. La perception a rétabli mentalement une continuité et un mouvement là où il n’y avait que discontinuité et fixité ; c’est à peu près ce qui se produit au cinéma entre deux photogrammes fixes où le spectateur comble l’écart existant entre les deux attitudes d’un personnage fixées par les deux images successives. Cette propriété du cortex a été, depuis, étudiée plus en détail, mais sans produire une explication nouvelle. (Notons au passage qu’il ne faut pas confondre l’effet phi avec la persistance rétinienne. Le premier tient au comblement mental d’un écart réel, quand la seconde est due à la relative inertie des cellules de la rétine qui gardent, pendant un court temps, la trace d’une impression lumineuse. La persistance rétinienne ne joue pratiquement aucun rôle dans la perception cinématographique, contrairement à ce qu’on a souvent affirmé, et en tout cas, elle ne saurait intervenir dans la perception du mouvement.)

– Une voie d’inspiration bergsonienne – fût-ce par la négative (car Bergson, on le sait, se méfiait du cinéma). On s’est souvent interrogé dans les années 1970 sur la nature exacte du photogramme filmique. Considérée à l’unité, en dehors du ruban filmique où elle s’inscrit, cette image ressemble à une petite photographie, et n’apparaît pas dotée de mouvement ; mais elle provient d’une chaîne de photogrammes de même nature, dont l’ensemble est susceptible de produire ce mouvement. On retrouve l’idée de Bergson, reprise par Deleuze (1983) au début de son enquête sur le cinéma, selon laquelle le mouvement ne peut se recomposer qu’à partir d’instants quelconques – non plus des « poses » mais des « coupes ». C’est cette nature de « coupe mobile de la durée » qu’explorèrent plusieurs réflexions voyant dans le photogramme une espèce de virtualité ou de potentialité de mouvement (Pierre, 1970). Le risque est alors d’oublier que le photogramme unitaire représente un instant quelconque, et non une pose ; ainsi, décrivant des films d’Eisenstein à partir de reproductions de photogrammes, Barthes (1970) voit dans le photogramme le lieu même où se manifeste le filmique (ce qui est défendable), mais du coup, il y lit tout un jeu de symbolisation qui, lui, n’existe qu’à l’arrêt, dans la pose.

Le film numérique ne comporte plus de photogrammes, ni rien qui y soit équivalent. On peut noter toutefois une tendance à reproduire à son propos les discussions essentialistes sur mouvement et immobilité qui ont occupé les théoriciens de 1970, avec le même défaut consistant à confondre une supposée essence de l’image (invisible, seulement pensable) et l’image telle qu’elle nous apparaît . Ainsi lorsque John Belton (cité in Rodowick, 2011) affirme que

« dans tout film numérisé, des données spatiales et temporelles ont été supprimées lors du processus d’échantillonnage qu’impliquent la quantification et la compression. Toute partie de l’image qui ne change pas d’une fraction de seconde à l’autre nous est présentée une première fois, puis est remplacée par un code numérique qui renvoie à cette première apparition »,

il tient un discours brouilleur, car l’image « présentée une première fois » est déjà codée numériquement, et notre œil est bien incapable de distinguer entre ce codage et le codage successif « qui renvoie à cette première apparition », de même qu’en argentique notre œil ne voyait pas le passage d’un photogramme au suivant.

2.1.3 Automatisme des effets du médium

Enfin, l’image de film emporte avec elle, tout aussi automatiquement, une qualité de matière, qui tient au procédé par lequel elle est produite. Durant tout le règne du procédé argentique, on a établi une équivalence entre cette qualité de matière et des effets dus à la structure intime de la pellicule – au moins deux :

– le grain : on désigne par là, en cinéma comme en photographie, le fait que la pellicule sur laquelle s’enregistre l’image est revêtue d’une substance (originairement, des sels d’argent) qui n’est pas homogène, mais composée de corpuscules ou « grains » de matière. Lorsque la taille de ces grains est suffisamment faible, elle est invisible dans l’image (c’est la situation recherchée comme normale). Mais il peut arriver qu’elle devienne visible, soit parce que les particules en question sont relativement grosses (c’est le cas par exemple dans les photos autochromes des Lumière), soit parce qu’on a voulu ou accepté qu’elles apparaissent. Cela était plus souvent le cas dans les formats « substandards » (8 mm, 9,5 mm, voire 16 mm), mais a pu être produit en 35 mm, pour un effet esthétique. Un exemple démonstratif est la fin d’Une passion (Bergman, 1969), dont le plan final, d’abord filmé de loin, est grossi peu à peu, jusqu’à faire apparaître ostensiblement les grains de l’image ;

– l’idée de « couche », liée, elle, à l’invention de procédés de cinéma en couleurs utilisant deux, puis trois images primaires superposées (Martin, 2013). C’est notamment le cas du premier grand procédé industriel, le Technicolor, dont ce n’est pas hasard si la première grande réalisation fut un dessin animé (Flowers and Trees, Disney, 1932), plus propice à la mise en évidence des trois primaires. Comme le grain, la couche pelliculaire n’est normalement pas destinée à être perçue par le spectateur durant la projection du film, et ne le devient qu’en fonction d’un projet esthétique bien précis : par exemple, banalement, lorsqu’on filme avec un filtre coloré, ou, de manière plus marquée, dans certains films expérimentaux (Fihman, Trois couches suffisent, 1977-1979). Cette impression de « couches » d’image superposées est obtenue, tout différemment, par un procédé également banal, la surimpression (voir chap. 1.1 § 1.2.3). En superposant deux images (ou davantage), surtout très différentes, on ne peut manquer de faire sentir à la fois la planéité de l’image et sa matière, toujours particulaire.

Ces effets ont été passablement transformés par les procédés numériques. La superposition d’images (que l’on continue d’appeler surimpression bien que rien ne soit plus imprimé) est restée un moyen expressif fréquent, qui conserve ses propriétés visuelles (mélange d’images) et sémantiques (conjonction de données), mais ne renvoie plus aussi fortement à l’imaginaire de la couche plane. Quant à la couleur, elle reste, dans les tournages professionnels, obtenue par le principe de la trichromie, impliquant la séparation en trois couleurs primaires (RVB) au tournage, grâce à un prisme derrière l’objectif ; mais le traitement, vidéographique et numérique, de ces primaires, n’a plus rien à voir avec les trois couches des procédés argentiques : leur enregistrement séparé, qui sert à améliorer le rendu de la couleur, est une base pour un calcul élaboré (dans la caméra), et disparaît en tant que tel dans l’image finale. Celle-ci sera d’ailleurs ensuite revue et retouchée lors de l’étalonnage, étape que le numérique a rendue plus complexe mais aussi infiniment plus fine dans ses résultats (nous y revenons brièvement ci-dessous).

Fenêtre Effets esthétiques de la nature de l’image. En règle générale, on s’efforce de dissimuler la nature et la structure matérielles de l’image, mais il arrive qu’au contraire on les fasse apparaître, toujours en vue d’un résultat expressif. • L’image argentique résulte d’un processus chimique, et c’est ce qu’ont voulu mettre en évidence certains films « expérimentaux », qui exhibent des pellicules décomposées : — Fenêtre **1.3** Effets esthétiques de la nature de l’image.

En règle générale, on s’efforce de dissimuler la nature et la structure matérielles de l’image, mais il arrive qu’au contraire on les fasse apparaître, toujours en vue d’un résultat expressif.

• L’image argentique résulte d’un processus chimique, et c’est ce qu’ont voulu mettre en évidence certains films « expérimentaux », qui exhibent des pellicules décomposées :

• Dans un cadre restant représentatif et narratif, cette mise en évidence aboutit souvent à souligner le de l’image, comme dans le finale d’ (Bergman, 1969) ; le personnage, filmé de loin dans une image « normale », est grossi peu à peu, mais la pellicule l’est en même temps, exhibant sa structure granulaire : — • Dans un cadre restant représentatif et narratif, cette mise en évidence aboutit souvent à souligner le **grain** de l’image, comme dans le finale d’*Une passion* (Bergman, 1969) ; le personnage, filmé de loin dans une image « normale », est grossi peu à peu, mais la pellicule l’est en même temps, exhibant sa structure granulaire :

• En vidéo (ou en numérique), la structure de l’image apparaît encore différemment, soit sous forme de granulation semblable à celle de l’argentique, soit sous forme de . — • En vidéo (ou en numérique), la structure de l’image apparaît encore différemment, soit sous forme de granulation semblable à celle de l’argentique, soit sous forme de *pixellisation*.

• Une autre manière de faire sentir la présence matérielle de l’image est de la figer (« »). En argentique, cela s’accompagne le plus souvent d’une apparition de grain, due au fait que l’image arrêtée provient d’un refilmage au banc-titre – conséquence qui n’a pas lieu d’être en numérique. — • Une autre manière de faire sentir la présence matérielle de l’image est de la figer (« **arrêt sur image** »). En argentique, cela s’accompagne le plus souvent d’une apparition de grain, due au fait que l’image arrêtée provient d’un refilmage au banc-titre – conséquence qui n’a pas lieu d’être en numérique.

• Enfin, la (déjà vue fenêtre ) peut aussi avoir comme effet secondaire de faire prendre conscience de la nature de l’image, surtout avec le procédé argentique, plus propice au fantasme de matérialité, comme dans ces photogrammes de (Gance, 1927) , où le sujet figuré se noie dans la matière visuelle. — • Enfin, la **surimpression** (déjà vue fenêtre **1.1**) peut aussi avoir comme effet secondaire de faire prendre conscience de la nature de l’image, surtout avec le procédé argentique, plus propice au fantasme de matérialité, comme dans ces photogrammes de *Napoléon* (Gance, 1927), où le sujet figuré se noie dans la matière visuelle.

Quant au « grain », il n’a pas vraiment disparu des films en numérique, mais là encore, c’est désormais un effet expressif sans rapport immédiat avec la structure intime de la matière d’image. On peut l’imiter (on peut, en numérique, imiter à peu près tout, comme le savent bien les amateurs d’Instagram), mais cela ne relève plus d’aucun hasard – alors que c’est précisément le caractère souvent inattendu et parfois immaîtrisable de son apparition qui fascinait et séduisait avec la pellicule. L’effet propre au numérique qui pourrait lui être comparé est la « pixellisation », c’est-à-dire l’apparition dans l’image d’une structure de petits carrés, assez gros pour être perçus et perturber l’analogie iconique ; ce phénomène, généralement considéré comme un défaut ou une gêne (notamment dans la réception de la télévision), a parfois été retourné en effet esthétique, mais plutôt dans des productions d’artistes (voir par exemple, en France, certaines œuvres de Jacques Perconte).

2.2 L’enregistrement sonore

2.2.1 Une analogie retravaillée

Le son résulte lui aussi d’un enregistrement analogique : tel est le principe général de la bande sonore des films. Toutefois 1°, comme l’analogie iconique, cette analogie sonore n’est pas parfaite, elle a ses degrés ; 2°, elle est retravaillée postérieurement, à des fins sémantiques et expressives ; 3°, enfin, elle ne caractérise pas également tous les éléments de la bande son.

Le cinéma, redisons-le, a d’abord existé sans que la bande image soit accompagnée d’un son enregistré ; le seul son accompagnant la projection du film était fourni par un pianiste ou un violoniste, parfois un petit orchestre . Cette solution parut satisfaisante durant les années 1910-1920, quoique les problèmes techniques de l’enregistrement aient été résolus pour l’essentiel dès 1912, peut-être parce que l’industrie cinématographique ne voyait pas d’intérêt à hâter le changement. On explique généralement l’apparition du cinéma parlant par des considérations économiques (selon Gomery [2005], elle traduirait une stratégie industrielle de baisse des coûts et d’augmentation des marges, d’abord par les frères Warner et leurs banquiers), mais cela reste une hypothèse. Au reste la chaîne d’enregistrement, dans ses premiers états, était d’une grande lourdeur, nécessitant, pour les tournages en extérieurs, un matériel imposant, transporté dans un « camion sonore ». Dès les années 1930 fut utilisée la bande magnétique, qui remplaça les lourds, fragiles et peu précis enregistrements sur disque, et resta le support privilégié de l’enregistrement sonore jusqu’aux années 1980 et à son remplacement par la technique numérique 4. La principale caractéristique de l’enregistrement, durant les premières décennies, est son manque de fidélité, au sens où l’a entendu l’industrie du disque avec la « haute-fidélité » (une analogie très poussée). Durant une ou deux décennies, la qualité sonore des films, comme celle des émissions de radio, donna lieu à d’innombrables critiques, portant sur l’étroitesse de la bande passante (pas assez de graves, pas assez d’aigus), sur sa distorsion (reproduction inégale selon les fréquences) et surtout sur l’importance du bruit de fond, inévitable avec les techniques d’enregistrement analogique et qui ne fut véritablement maîtrisé que dans les années 1950 (voir par exemple Schafer, 1977).

Les progrès de l’enregistrement sonore sont surtout dus à l’industrie du disque, mais le cinéma en suscita également certains, entre autres pour ce qui est des matériels portables. L’apparition du Nagra III (1958) représente une date quasi mythique, dans la mesure où cet appareil léger et très performant permit des tournages en extérieurs avec une équipe réduite et dans de bonnes conditions, et surtout, en son synchrone. Dans un autre domaine, celui du rendu du « relief sonore » (stéréophonie), les progrès vinrent de l’industrie du microsillon et de la radio, où les enregistrements à deux voies commencèrent dès la fin des années 1950 ; en cinéma, il n’y eut semble-t-il guère d’intérêt pour la stéréophonie à deux canaux, les systèmes proposés ayant d’emblée 4 ou 6 pistes (du Todd-AO de 1954 au Dolby SR de 1977). Depuis, les appareils d’enregistrement et de diffusion sont devenus numériques, mais la situation reste toujours celle d’un « environnement sonore » (voir chap. 1.1 § 1.4.1).

L’autre grand domaine de transformation de l’analogie sonore se joue dans les retouches qu’on lui fait subir après tournage. Peu après l’invention du parlant, on développa le doublage des voix, afin de pallier les difficultés de leur enregistrement en direct, qui obligeait les acteurs à rester près des micros ; cette technique permit de remplacer la voix d’un acteur par une autre voix, soit pour obvier à des défauts de prononciation (ou pour remplacer un acteur par un chanteur), soit pour changer la langue du film ; elle permit aussi de transformer tous les autres éléments de la bande son, notamment les bruits. Très tôt, ces derniers ont été fabriqués de toutes pièces, ou rapportés à la bande sonore à partir d’enregistrements pris dans des sonothèques ; quant à la musique, elle a bien sûr très vite été enregistrée séparément, selon des modalités et des techniques très proches de celles de l’enregistrement sur disque, puis sur bande et enfin sous forme de fichier numérique.

2.2.2 « Rendu sonore » et matière du son filmique

Il est traditionnel de décrire la bande sonore comme comprenant des voix, de la musique et des bruits, mais c’est une classification discutable. La notion de « bruit » est vague (elle désigne tout ce qui n’est identifiable ni comme voix ni comme musique) ; la musique peut être enregistrée avec les voix et les bruits, dans une prise de son en direct de toute une scène, mais elle est plus souvent enregistrée séparément et ajoutée au mixage ; enfin, comme l’a bien noté Chion (1982), « il n’y a pas des sons, parmi lesquels, entre autres, la voix humaine. Il y a les voix, et tout le reste », et en effet ce privilège de la voix , y compris dans les documentaires, reste fort encore aujourd’hui.

Toutefois, la construction de la bande son, si elle reste soumise au privilège de principe de la voix (qui véhicule une partie essentielle des significations et des effets de présence), vise à un effet global analogue à celui de l’image, d’ordre sensoriel, intellectuel et affectif :

« Les sons entendus dans les films traduisent rarement le son réel (moins fort, plus mou) d’un coup ou d’une porte claquée, mais plutôt l’impact physique, psychologique voire métaphysique de l’acte, sur l’envoyeur ou le destinataire. » (Chion, 2003)

Il s’agit donc à la fois, dans la bande son, de représenter une situation réelle sur le mode imaginaire qui est celui de toute représentation, mais en même temps, de la caractériser par une certaine mise en forme du médium sonore ; c’est un art de la représentation mais aussi du « rendu sonore ».

Le plus frappant est la déconnexion quasi totale, dans cette construction, entre les moyens techniques employés et la qualité du résultat. Il est quasi impossible, à l’audition du son d’un film, de savoir avec certitude, par exemple, s’il résulte d’un enregistrement en direct ou a été entièrement fabriqué en studio ; Chion (1982) donne l’exemple de deux films tournés à la même époque, Voyage au bout de l’enfer (Cimino, 1978) et Apocalypse Now (Coppola, 1979), l’un en son direct, l’autre postsynchronisé, sans que l’oreille soit capable de décider lequel est lequel (il faut recourir au making of pour le savoir). Inutile de dire que, dans ces conditions, toute notion de « réalisme » sonore est purement conventionnelle (des bandes-son fabriquées pourront paraître plus réalistes que des sons directs non retouchés).

Très tôt, certains films ont démontré que la bande sonore ne valait pas uniquement par son plus ou moins grand réalisme (ou son irréalisme, dans certains genres), mais aussi par des qualités proprement sonores. Un son peut être brillant ou mat, il peut avoir plus ou moins de résonance (ou être étouffé), son volume peut être important ou très faible ; il peut être plus ou moins musical (même s’il ne comporte pas de musique : les bruits et la voix peuvent avoir un débit, un rythme musicaux), ou au contraire sembler chaotique ; il peut dégager une impression charmante, apaisante, ou rugueuse, déplaisante. Bref, le « rendu sonore » joue sur des qualités sensorielles et affectives innombrables, qui sont souvent pour beaucoup dans la réception d’un film. Aussi bien, certains cinéastes se caractérisent par un univers sonore autant que visuel : c’était le cas, bien connu, de Tati (dont l’univers se définit avant tout par le fait d’abolir le privilège des voix en en faisant des bruits), c’est aussi celui de Godard (qui cultive la discrépance et la rupture brusque), de Straub (fanatique du son direct jusqu’à l’irréalisme) ou de Sokourov (chez qui la voix est toujours centrale et toujours expressive).

2.3 Le montage : un processus

2.3.1 De la prise au film

Nous l’avons vu plus haut (chap. 1.1 § 1.3.3), un film est généralement composé de plans – terme qui (depuis 1919 selon le DHLF) désigne un morceau de film unitaire, donnant l’impression d’un déroulement ininterrompu. Comme on l’a souvent remarqué (Mitry, 1963 ; Bonitzer, 1982), cette définition est peu précise, et souvent menacée de tautologie (un plan est le morceau de film compris… entre deux changements de plans !). Malgré cela elle reste utilisable, en raison même de son origine génétique. Un film n’est pas réalisé en un seul geste mais résulte de prises de vues, effectuées au long d’une période de temps, et dont l’assemblage lors du montage détermine ensuite la durée unitaire et l’ordre. La notion de plan est donc d’emblée frappée d’ambiguïté, sa définition à l’issue du tournage n’étant pas la même qu’après le montage . D’une part, le plan tel qu’il apparaît dans le film terminé n’est qu’une partie du plan tourné ; il faut en ôter le début (annonce, clap, temps de latence souvent respecté par prudence…) et la fin (la caméra s’arrête de tourner après que l’action est achevée). Plus fondamentalement, il y a une différence de nature entre ce qui est enregistré au tournage, et qui reste encore très proche d’une simple traduction visible de ce que prévoyait le découpage, et le plan monté, qui se définit autant par ses relations aux plans qui l’entourent que par son contenu propre.

Même si on lève cette ambiguïté en réservant le nom de plan à ce qui apparaît dans le film terminé, il est bien des cas où un tel plan n’est pas facile à délimiter et à percevoir pour lui-même. Certains films comportent des plans ultra-brefs (moins d’une seconde, parfois, en pellicule, deux ou trois photogrammes seulement) ; c’est le cas typiquement de films poétiques comme ceux de Brakhage ou de Mekas mais aussi, désormais, d’assez nombreux films mainstream, par exemple dans des séquences censées représenter le souvenir ou l’hallucination. Dans d’autres cas comme la surimpression, le plan ne peut être vraiment isolé ni délimité clairement. Dans un même ordre d’idées, il arrive que le passage d’un plan à un autre soit « illisible » ; c’était le cas dans La Corde (Hitchcock, 1948), où les plans occupaient toute une bobine de 35 mm (environ 11 minutes) et où certains changements de plans, opérés alors qu’un vêtement remplissait tout l’écran, étaient dissimulés ; plus banalement, c’est aussi l’effet du « panoramique filé » (au début de Hiroshima mon amour [Resnais, 1959], on passe sans voir la moindre coupure du musée de Hiroshima à un plan d’actualités reconstituées). Même dans des films montés de manière plus standard, le changement de plan peut être très peu visible (raccord dans un mouvement très rapide, plans très proches visuellement…). Le film est une construction, dans laquelle l’individualité de chaque prise se perd au bénéfice de l’ensemble.

2.3.2 Plan et raccord

Dès qu’on réalisa des films qui ne visaient plus à être de simples vues comme celles des Lumière, mais à organiser un récit, on s’aperçut qu’il suffisait de coller deux morceaux de pellicule pour provoquer, en projection, la succession de deux images mouvantes enchaînées. C’est sur cette base élémentaire qu’on a, par approximations successives, inventé diverses règles destinées à rendre ces passages de plan à plan plus acceptables pour l’œil et pour l’esprit (Aumont, 2015). La technique est restée la même dans ses grandes lignes tant qu’on utilisa la pellicule : celle-ci était impressionnée dans la caméra, développée et tirée, puis le monteur en découpait des morceaux et les collait. Les problèmes de manipulation furent résolus par un ensemble d’appareils de grande précision, conçus pour effectuer ces coupes et collages de manière impeccable. Pour déterminer l’endroit où l’on allait couper, et le plan auquel on allait coller, on procédait empiriquement, en regardant au fur et à mesure le résultat sur une visionneuse (les tables de montage professionnelles comportaient les outils de coupe et de collage et un dispositif d’entraînement du film et de projection sur un petit écran). Le problème du montage « argentique » était donc d’ordre mental : il fallait faire sans cesse l’aller et retour entre les mains, coupant et collant, et l’œil, vérifiant et modifiant les assemblages en fonction d’une idée préalable (mais évolutive). Beaucoup de cinéastes – du moins ceux qui ont effectivement supervisé le montage de leurs films – ont eu alors le sentiment que le montage comportait une part manuelle importante, comme on le voit par excellence avec Godard et sa métaphore de la monteuse aveugle (dans JLG/JLG, autoportrait de décembre, 1995) : elle n’a plus d’yeux mais des mains, et c’est l’essentiel.

La technique numérique a largement changé la donne. Plus de ciseaux, plus de lame de rasoir, plus de pinceau ni de colle, plus de presse et plus de projection : toute la procédure du montage se déroule, de A à Z, sur l’ordinateur (même s’il peut y avoir deux écrans). Le rôle de l’œil est accru, et surtout, le rôle de l’idée. La monteuse (ou la cinéaste) peut faire se dérouler un plan, mais elle en a aussi une vision en quelque sorte synchronique sur l’écran. Avec des logiciels répandus comme Final Cut ou Premiere, le plan devient une petite zone le long d’une ligne horizontale qui représente le déroulement temporel du film ; libre alors au monteur de placer un index de début et un index de fin, pour déterminer la longueur du plan. Quant à l’assemblage, il reste linéaire une fois achevé, mais le choix du plan qui succèdera à un plan donné est plus ouvert : aller chercher un morceau de pellicule sur le chutier requérait un exercice de mémoire constant, alors que sur l’ordinateur les plans potentiels sont disponibles en permanence et il suffit de les « appeler ». Cela ne supprime pas l’intelligence indispensable du montage, mais donne à l’opération une allure moins linéaire et plus « tabulaire » (certains vont jusqu’à affirmer qu’on peut repérer selon ce critère un film monté en numérique).

Le numérique a aussi permis, avec l’allongement indéfini de la longueur possible d’une prise de vues unique, la réalisation de films « en un seul plan » – une seule coulée continue, construite et articulée de manière calculée en vue d’effets de sens et de production d’affects, mais sans recourir à un montage de plans séparés. Le prototype le plus connu (et le plus souvent étudié) de ces « one-take films » est L’Arche russe (Sokourov, 2002), un film en costumes de 96 minutes, qui suit un personnage central (le Français Custine) visitant le musée de l’Ermitage à Saint-Pétersbourg, et rencontrant des personnages historiques de diverses époques. Inutile de souligner la performance que représente un tel tournage (il faut que tout tombe en place et au bon moment durant plus d’une heure et demie sans le moindre incident 5 – expérience qui étend celle de La Corde de près de dix fois), mais le résultat, que chacun reçoit comme un film, n’est pas aussi évidemment un plan. Certes, la continuité la plus absolue semble observée, mais la question est celle des interventions postérieures à la prise de vues, notamment tout ce qui relève du compositing. On a pu aller jusqu’à dire (Rodowick, 2011) que cette œuvre est un gigantesque travail de montage. Nous y reviendrons (chap 1.3 § 3.2.1), à propos du plan-séquence.

2.4 L’idée de « trucage »

2.4.1 Le « truc » (au tournage)

La notion de « trucage », employée à propos du cinéma dès 1907, avait à l’époque une connotation négative : le truqueur était un tricheur qui voulait tromper. Il est remarquable qu’on ait dès les origines tenu à distinguer entre le film « de bonne foi » (la vue Lumière, censée enregistrer le monde et le restituer sans tromperie) et le film « à trucs », qui propose une version altérée de ce monde, ou un monde inexistant. Le plus célèbre des réalisateurs de films à trucs de cette période primitive, Méliès, était prestidigitateur et familier des disparitions et apparitions truquées. Toutefois, lorsqu’il réalisa des films, il n’eut plus recours aux procédés du spectacle de magie, mais à un autre registre de trucage, reposant sur les propriétés du cinéma. Un exemple frappant est le film Escamotage d’une dame au théâtre Robert-Houdin (1896) : ce tour était accompli tous les soirs sur la scène du théâtre, et la « dame » disparaissait par une trappe dissimulée dans le sol ; dans le film, son escamotage résulte du montage de deux prises au cadrage identique : dans la première, elle est là, dans la seconde, non. Tout l’art consiste alors à rendre le raccord aussi invisible que possible (le prestidigitateur, joué par Méliès, doit veiller à adopter la même position de part et d’autre). C’est ce qu’on appela le « trucage par substitution » ; Méliès raconta, dans une anecdote célèbre, qu’il l’avait découvert par hasard un jour que sa caméra s’était arrêtée puis avait redémarré lors d’une prise de vues devant l’opéra de Paris, et qu’au développement il avait ainsi eu la surprise de voir un corbillard succéder à un fiacre. Cette histoire est sans doute inventée (Méliès ne tournait guère en dehors de son studio), mais le mythe était constitué : la machine cinématographique est, par nature, une machine à produire du trucage, et son outil majeur pour cela est le montage.

L’image de film, souvent louée pour sa valeur indicielle, est toujours un simulacre ; en un sens, elle relève donc toujours plus ou moins du trucage, puisqu’elle présente une réalité qui est autre que celle à laquelle elle réfère ; en outre, le film de fiction feint que les lieux et événements montrés sont réels, quand ils sont inventés et construits (cela était spécialement apparent dans le cinéma primitif, où bien des décors étaient peints). Toutefois, en pratique on ne parle de trucage que pour désigner les interventions qui atteignent le cœur de l’indicialité de l’image de film : changer un élément de la figuration pour le remplacer par un autre, produire des phénomènes impossibles, déformer les objets et les êtres filmés, etc. Un premier ensemble de trucages consiste à s’en prendre au profilmique (ce qui est devant la caméra), en filmant par exemple des personnages représentés par des marionnettes, ou des objets en carton. Le singe du premier King Kong (Cooper & Schoedsack, 1933) était une grande marionnette, filmée image par image, selon le procédé du cinéma d’animation ; encore en 1960, dans Le Tombeau hindou, Fritz Lang filme lors de la danse devant la déesse un serpent en tissu, animé par des fils invisibles ; quant aux objets, on peut penser au revolver géant construit pour le plan subjectif de la fin de La Maison du docteur Edwardes (Hitchcock, 1945). On continue d’utiliser de tels êtres ou objets totalement artificiels, mais le numérique permet de les fabriquer de manière, sinon plus simple (c’est un long travail), en tout cas plus homogène au reste de l’image. Le King Kong de Peter Jackson (2005), par exemple, est infiniment plus « réaliste » que son ancêtre en noir et blanc.

L’autre grand type de trucage au tournage est celui qui joue sur le rapport entre figure et fond. Le premier procédé utilisé (dès 1907) pour situer visuellement un personnage ailleurs que là où il est réellement (le studio) fut le matte painting, une peinture sur verre de grandes dimensions située derrière les acteurs – procédé encore utilisé pour figurer la ville d’Oz dans Le Magicien d’Oz (Fleming, 1939) ; une variante en est le procédé Schüfftan, où on peint, à petite échelle, sur une plaque de verre devant la caméra, le haut du décor. À partir des années 1930 6, on recourut plutôt à la « transparence », une prise de vues cinématographique projetée derrière les acteurs. On l’utilisa fréquemment pour des plans tournés à l’intérieur d’une voiture (où l’on aperçoit par le pare-brise ou la lunette arrière un paysage changeant), mais parfois aussi de manière moins banale ; ainsi, l’avion qui attaque Thornhill (Cary Grant) dans La Mort aux trousses (Hitchcock, 1959) est filmé en transparence – ce que beaucoup de spectateurs ne perçoivent pas. À partir de la fin des années 1960, on utilisa des écrans réfléchissants permettant de projeter non pas par l’arrière mais par l’avant, ce qui donnait un effet plus réaliste ; la transparence, en effet, n’a presque jamais la même « matière » visuelle que le premier plan, et pour les spectateurs d’aujourd’hui, elle apparaît comme un défaut.

Mais l’idée de trucage, en cinéma, excède ces interventions relativement simples dans leur principe (et d’autres de même nature, telle la pratique du body double, ou doublure corporelle, rendue célèbre par la scène de la douche de Psychose et ses avatars ultérieurs). Pour citer Metz (1971), le trucage peut être aussi bien une machination (plus ou moins avouée) qu’un processus de diégétisation, et ce, en fonction de l’attitude et des habitudes du spectateur. Par exemple, la figure de l’homme invisible, relevant chez Méliès d’un truc de substitution très extérieur à tout récit, était davantage intégrée à une fiction (fantastique) dans le film de James Whale (L’Homme invisible, 1933), qui utilisait le tournage sur fond noir ; dans Hollow Man (Verhoeven, 2000), les trucages en numérique font l’objet de nombreuses scènes spectaculaires, et deviennent un des facteurs d’intégration du récit. Au total, comme le souligne Metz, le trucage est l’une des manifestations de la possibilité fondamentale du cinéma de « diviser la croyance du spectateur » (voir chap. 4.3).

2.4.2 La postproduction

Il est un peu artificiel de séparer les trucages au tournage et après le tournage, car la plupart d’entre eux, en fait, sont travaillés lors des deux étapes. Néanmoins, il existe depuis toujours, dans la conception courante du cinéma, une différence entre le moment de la prise de vues, moment indiciel par excellence, et le moment du montage, où au contraire apparaissent à l’évidence la manipulation et l’imposition d’un sens. À l’une et l’autre de ces étapes il y a une tendance au trucage, depuis les manipulations temporelles au tournage (ralenti, accéléré) jusqu’à l’étalonnage et au mixage, qui changent, parfois considérablement, le résultat des enregistrements visuel et sonore. L’étalonnage , rappelons-le, consiste à modifier les couleurs, selon leurs trois paramètres (teinte, saturation, luminosité), de manière à obtenir un résultat plus plaisant et plus homogène ; le critère de l’homogénéité est relativement objectif, mais celui de l’agrément ne l’est pas, et il existe donc, en étalonnage, des tendances individuelles (en général, celles du chef opérateur, principal responsable de cette étape du film) et des modes, variables comme toutes les modes. Le numérique n’a pas changé la nature de cette pratique, mais il l’a rendue plus souple et a augmenté la capacité d’intervention sur l’image produite au tournage ; on peut, même avec des logiciels grand public comme Final Cut, modifier tous les paramètres de n’importe quelle zone de l’image, et avoir sous les yeux immédiatement le résultat, ce qui permet de travailler par approximations successives. On peut dire des choses comparables du mixage, qui consiste à retravailler les sons synchrones enregistrés au tournage (s’il y en a, ce qui n’est pas toujours le cas), et le plus souvent à les mélanger avec des sons provenant, soit du tournage (des « sons seuls »), soit d’une sonothèque. Il n’est pas rare, ainsi, qu’on entende en voyant un plan tout autre chose que ce qui était entendu au tournage de ce plan – même dans les documentaires, où très souvent on « nourrit » la bande sonore de bruits (cris d’animaux, moteurs…) parfois issus du tournage, parfois non, et introduits au bon vouloir du mixeur, en vue d’un plus grand « confort » et d’un plus grand vraisemblable (deux notions également variables, subjectivement et en fonction des modes dominantes).

En dehors de ces trucages élémentaires et omniprésents, le plus spectaculaire est toute la part de trucage qui consiste à transformer l’image après son tournage. Les outils numériques actuels permettent de faire à peu près tout : changer une partie de l’image pour enlever une figure ou en ajouter une, changer les qualités d’une vaste zone du fond, etc. De très nombreux films des vingt dernières années ont eu recours à des expansions de l’ancien procédé de la transparence, utilisant des tournages spéciaux, sur un fond monochrome (vert, en général), ensuite remplacé par un décor qui peut, soit provenir d’un autre tournage cinématographique, soit d’un travail infographique. Les making of omniprésents montrent abondamment de tels tournages sur fond vert, notamment pour des films du genre merveilleux (voir ceux, très didactiques, des séries Harry Potter ou Le Seigneur des anneaux).

Plus généralement, le numérique a amplifié l’importance de la notion de composition (on utilise souvent le mot anglais, compositing). Cette notion par elle-même existait déjà auparavant ; un exemple historique célèbre en est Qui veut la peau de Roger Rabbit ? (Zemeckis, 1988), dont la réalisation eut lieu en deux étapes successives, le tournage en studio (avec des marionnettes en plastique représentant les futurs personnages dessinés), et l’animation (utilisant la vieille technique du rotoscope) ; la composition a consisté ensuite à superposer les deux couches d’images résultantes, ce qui a été un travail long et minutieux. Le numérique a simplifié ce genre d’opération, puisqu’il n’existe désormais plus aucune différence de structure entre l’image cinématographique et l’image animée, et qu’elles peuvent être mélangées à loisir (et retouchées ou transformées au passage). Il est par exemple instructif de comparer l’image de Qui veut la peau de Roger Rabbit ? à celle de films plus récents comme la série Le Monde de Narnia (2005-2010) ou L’Odyssée de Pi (Ang Lee, 2012), qui comportent des animaux créés de toutes pièces en numérique et bien intégrés au milieu des acteurs en chair et en os. Le compositing est devenu un stade essentiel de la réalisation de films ; notons qu’il n’est pas réservé aux blockbusters pour adolescents comme ceux que nous avons cités, mais est employé également dans des films « d’auteur » ; L’Arche russe, par exemple, a été copieusement modifié après tournage : des objets ont été ôtés, des couleurs corrigées, certains moments ont été recadrés et le déroulement temporel de certains autres a été modifié… Il faut s’y faire : le trucage règne désormais, dans une image cinématographique dont la nature de simulacre s’est absolument affirmée.

Fenêtre Le trucage est consubstantiel à l’image filmique. L’image de film est souvent manipulée pour perdre son caractère purement indiciel, et présenter une réalité refaite, recomposée, arrangée – bref, « truquée ». • Ce trucage peut jouer dans la successivité : c’est le cas du premier de tous les trucages inventés, la « substitution » par laquelle Méliès remplaçait une figure par une autre au prix d’un arrêt de la caméra. Dans (1903) , le personnage qui vient de lancer sa tête sur la portée la récupère aussitôt (on voit la trace de la collure en haut du photogramme). — Fenêtre **1.4** Le trucage est consubstantiel à l’image filmique.

L’image de film est souvent manipulée pour perdre son caractère purement indiciel, et présenter une réalité refaite, recomposée, arrangée – bref, « truquée ».

• Ce trucage peut jouer dans la successivité : c’est le cas du premier de tous les trucages inventés, la « substitution » par laquelle Méliès remplaçait une figure par une autre au prix d’un arrêt de la caméra. Dans *Le Mélomane* (1903), le personnage qui vient de lancer sa tête sur la portée la récupère aussitôt (on voit la trace de la collure en haut du photogramme).

• Le trucage peut affecter l’objet filmé. Hitchcock utilise tout simplement des modèles réduits pour filmer un chemin de fer emballé ( , 1932 ) ; plus finement, Lang utilise le procédé Schüfftan (le haut du décor, peint sur verre, est ajusté au décor praticable où évoluent les acteurs) pour (1926) . — • Le trucage peut affecter l’objet filmé. Hitchcock utilise tout simplement des modèles réduits pour filmer un chemin de fer emballé (*Numéro 17*, 1932 ) ; plus finement, Lang utilise le procédé Schüfftan (le haut du décor, peint sur verre, est ajusté au décor praticable où évoluent les acteurs) pour *Metropolis* (1926).

• Le corps humain est aussi l’un des objets privilégiés du trucage, depuis les nombreuses versions de l’homme invisible jusqu’aux humanoïdes de la science-fiction. Voici deux exemples de transgressions figuratives par lesquelles le cinéma nous permet d’imaginer l’intérieur d’un corps humain : (Haskin, 1952) — • Le corps humain est aussi l’un des objets privilégiés du trucage, depuis les nombreuses versions de l’homme invisible jusqu’aux humanoïdes de la science-fiction. Voici deux exemples de transgressions figuratives par lesquelles le cinéma nous permet d’imaginer l’intérieur d’un corps humain :

• Le cinéma récent, même et surtout , n’hésite pas à dévoiler tous les trucs : dans (Lawrence, 2014) , l’héroïne tourne un petit film de propagande ; on voit alternativement le tournage, devant un fond neutre, et le résultat, devant le fond « habillé » : — • Le cinéma récent, même et surtout *mainstream*, n’hésite pas à dévoiler tous les trucs : dans *Hunger Games 3* (Lawrence, 2014), l’héroïne tourne un petit film de propagande ; on voit alternativement le tournage, devant un fond neutre, et le résultat, devant le fond « habillé » :

3. Le film comme représentation

3.1 Représentation de l’espace

3.1.1 Figure et mise en scène

Nous l’avons vu plus haut (chap. 1.1 § 1.1.1 et chap. 1.2 § 1.2.1), le cinéma a été inventé, et continue d’exister, principalement pour offrir à ses spectateurs des images mouvantes dans lesquelles ils peuvent reconnaître un monde semblable au nôtre, au moins sous certains aspects. Même dans le cas de films fantastiques ou merveilleux, le monde imaginaire que nous présente un film possède les catégories fondamentales de l’espace, du temps, de la causalité, et le plus souvent, met en jeu des êtres et des choses semblables à ceux qui peuplent notre univers humain. Autrement dit, la plupart des films sont faits pour figurer une réalité imaginaire, et ce faisant, représenter certains aspects de la réalité vécue.

Il existe une longue tradition théorique de la notion de figure, mais elle a surtout été appliquée aux images faites à la main, celles de la peinture au premier chef. Une première définition, concernant la perception visuelle, souligne l’opposition entre figure et fond, désignant un partage du champ visuel en deux zones, séparées par un contour (bord visuel fermé). À l’intérieur du contour se trouve la figure ; elle a une forme, elle est perçue comme étant plus près, comme ayant une couleur plus visible ; elle est plus aisément repérée et nommée, plus aisément rattachée à des valeurs sémantiques, esthétiques ou émotionnelles. Le fond, au contraire, est plus ou moins informe, plus ou moins homogène, et est perçu comme s’étendant derrière la figure. Pour la Gestalttheorie, la séparation figure/fond est une propriété organisatrice spontanée du système visuel, mais cette conception est critiquée par les théories analytiques, pour lesquelles cette séparation n’est pas un processus premier par rapport à d’autres comme l’exploration visuelle, la vision périphérique ou les attentes du spectateur, et les critères de profondeur peuvent être insuffisants ou ambigus.

Une tout autre approche notionnelle insiste sur la valeur de fabrication de la figure. Le terme français est issu du latin figura, venant du verbe fingo, qui signifie initialement modeler ou façonner, et qui a donné des termes comme effigies (portrait) et fictio (façonnage, création, action de feindre). La figure est initialement le résultat d’une action exercée sur une matière inerte ; son histoire ultérieure l’a tirée vers plusieurs registres de sens : la forme plastique, la copie, le semblant (Auerbach, 1944). C’est donc une notion qui ressortit à l’art, au corps, et au langage ; elle touche au concret (modelage, façonnage) mais aussi à l’abstrait ; elle touche à la fois à l’imitation et à l’écart (ressemblance et dissemblance [Didi-Huberman, 1990]). Le terme « figuratif » désigne ce qui relève de la mimesis, surtout depuis que le xx^e siècle lui a inventé des antonymes (non figuratif, abstrait) ; par ailleurs, un important courant d’étude de l’image à la fin du xx^e siècle a mis en avant le sens actif de la figuration, définissant l’image comme le site d’une activité permanente, que le regard de son spectateur ou de son analyste n’a plus qu’à rencontrer ou à déclencher.

L’image de cinéma est une image figurative dans ces deux sens. Ce qu’on y voit se présente la plupart du temps comme des actualisations du principe figure/fond ; c’est même l’un des ressorts les plus constants de la mise en scène de cinéma, qui joue en général de la situation d’une ou plusieurs figures humaines dans un lieu (un décor) donné. La mise en scène, en effet, c’est d’abord la mise en place des corps dans un espace, puis leur gestion – en termes d’expressions, de postures, de mimiques –, qui reprend les gestes de la mise en scène de théâtre (Aumont, 2006), mais les traduit ou les importe dans le rectangle de l’image, par un cadrage fixe ou mobile, et en outre, dans une suite de plans montés ensemble. La mise en scène ne se réduit pas à l’art de disposer des figures devant un fond, et sa relation intime au montage est toujours complexe ; mais il s’agit presque toujours de distinguer entre des êtres (plus rarement, des choses) mobiles et leur « fond » immobile, et cette ségrégation perceptive est toujours là dans un film narratif.

Parallèlement, l’image de film est figurative, au sens ordinaire du mot – proche de celui d’« analogique » que nous avons commenté plus haut (chap. 1.1 § 1.1.1) – comme au sens plus spécialisé où on l’entend dans la théorie de l’art. Toutefois la réflexion sur cette dimension figurative de l’image filmique bute aussitôt sur une évidence : alors qu’en peinture, l’action sur un matériau inerte (le pigment coloré, la surface peinte) est immédiatement sensible, en cinéma l’image se forme automatiquement et ne peut jamais se toucher (même plus au montage). Parler de « figure » et de « figuration » est donc toujours plus ou moins métaphorique à propos de l’image de film. C’est un vocabulaire qui est avant tout celui d’un certain type d’analyses de film, voulant mettre en évidence une dimension plastique (autre terme connotant la mise en forme d’un matériau) dans le film. Un exemple particulier mais révélateur serait le cas de la couleur (et, dans une moindre mesure, de l’ombre et de la lumière) ; ainsi, dans plusieurs de ses films du début des années 1990, Ferrara produit des figures humaines entièrement noyées dans une lumière bleue, qui les colore (King of New York, 1990 ) ou les noie (Snake Eyes, 1993 ) : dans l’un et l’autre cas, la figuration perd en réalisme ce qu’elle gagne en expressivité.

3.1.2 Cadre et champ

Analogique, figurative, l’image de film est aussi représentative, c’est-à-dire qu’elle nous offre une image plausible d’une réalité imaginaire et nous donne suffisamment d’indications pour saisir cette réalité, en termes perceptifs et cognitifs. C’est ce qu’on a parfois appelé, d’un terme peu précis, l’impression de réalité produite par le film (Metz, 1965). Cette impression est suffisamment effective pour nous faire accepter de voir un espace réaliste dans une image plane, aux couleurs fausses (surtout en noir-et-blanc !), et en outre, délimitée par un cadre (voir chap. 1.1 § 1.2.3).

La convention du cadre a été reprise telle quelle à la photographie et à la peinture, et n’a donc sans doute jamais posé de problème particulier, du moins dans les pays industriels 7. Toutefois le cadre reste une donnée perceptive constitutive du spectacle cinématographique (et de ses dérivés), et il continue d’avérer une double valeur :

– d’une part, il représente dans le film terminé la trace d’un cadre analogue produit au tournage ; c’est parce que l’image enregistrée par la caméra est cadrée qu’elle l’est aussi lors de la projection. Il est donc naturel que l’on ait l’impression, en projection, de ne percevoir qu’une portion d’espace, et qu’on imagine que cet espace se continue, invisible, au-delà des limites du cadre ;

– d’autre part, il est la limite de la surface (plane) de l’image ; dans ce sens, il peut devenir, et devient souvent, une des données plastiques de base de l’image filmique, celle par rapport à laquelle s’apprécie la composition de l’image (les équilibres plastiques, les directions principales, etc.).

Dans la première de ces valeurs, le cadre est ce qui définit la portion d’espace imaginaire qui est donnée à voir, et qu’on appelle le champ. Comme nombre des éléments du vocabulaire cinématographique, ce mot est d’un usage très courant, sans que sa signification soit toujours fixée avec grande rigueur. Sur un plateau de tournage, en particulier, il arrive fréquemment que les mots « cadre » et « champ » soient pris comme à peu près équivalents, sans que cela soit très gênant. En revanche, dans une perspective théorique, critique ou analytique, il importe d’éviter toute confusion entre les deux notions. Le champ est habituellement aperçu comme inclus dans un espace plus vaste, dont il serait la seule partie visible, mais qui n’en existerait pas moins tout autour de lui. C’est cette idée que traduit de façon extrême la fameuse formule qualifiant le cadre de « fenêtre ouverte sur le monde » : si, comme une fenêtre, le cadre laisse voir un fragment de monde (imaginaire), pourquoi ce dernier devrait-il s’arrêter aux bords du cadre ? C’est là faire la part trop belle à l’illusion ; mais cela a le mérite d’indiquer la présence toujours potentielle de cet espace, invisible mais prolongeant le visible, que l’on appelle le hors-champ. Le hors-champ est lié au champ, puisqu’il n’existe qu’en fonction de celui-ci ; il pourrait se définir comme l’ensemble des éléments (personnages, décors, etc.) qui, n’étant pas visibles dans le champ, lui sont néanmoins rattachés imaginairement, pour le spectateur, par un moyen quelconque.

Le cinéma a su très tôt maîtriser un grand nombre de ces moyens de communication entre le champ et le hors-champ, ou plus exactement, de constitution du hors-champ depuis l’intérieur du champ. Les trois principaux sont :

– les entrées dans le champ et sorties du champ, qui se produisent le plus souvent par les bords latéraux du cadre, mais peuvent également avoir lieu par le haut ou le bas, voire par l’« avant » ou l’« arrière » du champ, ceci montrant que le hors-champ n’est pas restreint aux côtés du champ, mais peut aussi se situer en profondeur par rapport à lui ;

– les diverses interpellations directes par un élément du champ, généralement un personnage. Le moyen le plus couramment utilisé est le « regard hors-champ », mais on peut inclure ici tous les moyens qu’a un personnage du champ de s’adresser à un élément du hors-champ, notamment par la parole ou le geste ;

– enfin, le hors-champ peut être défini par des personnages (ou d’autres éléments du champ) dont une partie se trouve hors-cadre ; pour prendre un cas très courant, tout cadrage rapproché sur un personnage implique quasi automatiquement l’existence d’un hors-champ contenant la partie non vue du personnage.

Ainsi, bien qu’il y ait entre eux une différence considérable (le champ est visible, le hors-champ ne l’est pas), on peut considérer que champ et hors-champ appartiennent l’un et l’autre à un même espace imaginaire homogène (l’espace filmique). Il peut paraître un peu étrange de qualifier également d’imaginaires le champ et le hors-champ, malgré le caractère plus concret du premier, que nous avons en permanence sous les yeux ; d’ailleurs certains auteurs réservent le terme d’imaginaire au hors-champ, et même, dans le cas de Burch (1969), seulement au hors-champ qui n’a jamais encore été vu, qualifiant de concret l’espace qui est hors-champ après avoir été vu. Nous préférons insister, 1°, sur le caractère imaginaire du champ (qui est visible, « concret » si l’on veut, mais nullement tangible) et 2°, sur l’homogénéité, la réversibilité entre champ et hors-champ, qui sont l’un et l’autre aussi importants pour la définition de l’espace filmique.

Cette importance égale a d’ailleurs une autre raison, à savoir, le fait que la scène filmique ne se définit pas uniquement par des traits visuels ; d’abord, le son y joue un grand rôle : or, entre un son émis « dans le champ » et un son émis « hors champ », l’oreille ne fait pas la différence ; cette homogénéité sonore est un des grands facteurs d’unification de l’espace filmique tout entier. D’autre part, le déroulement temporel de l’histoire racontée, du récit, impose la prise en considération du passage permanent du champ au hors-champ, donc leur mise en communication immédiate. Nous reviendrons sur ce point à propos de la notion de diégèse (chap. 2.3 § 3.3).

3.1.3 Cadrage et point de vue

Dans cette relation entre champ et hors-champ, le cadre joue ainsi un rôle fondamental. C’est lui qui, à chaque instant, définit la portion d’espace qu’il est possible de voir, et on comprend qu’il ait très tôt été compris comme la trace visible d’un point de vue sur la réalité. Comme, au tournage, ce sont les réglages et l’emplacement de la caméra qui définissent le cadrage, on a assimilé, par une métaphore assez naturelle, cette caméra à un œil et le cadrage à l’effet de son regard. Cette assimilation est sensible dans des expressions comme « mouvement de caméra », qui caractérise un plan obtenu en déplaçant le « regard » de la caméra dans l’espace filmé ; cette expression est spontanément compréhensible par tous, mais elle mêle des considérations génétiques (le tournage) et spectatorielles (ce qu’on voit sur l’écran) qui ne coïncident pas (Vernet, 1988). Il ne manque pas de cas où le spectateur, d’ailleurs, est en peine de savoir exactement comment un plan a été tourné. Par exemple, dans Ordet (Dreyer, 1955), un long plan montre Johannes assis sur une chaise et la petite fille debout derrière lui, tandis que la caméra les enveloppe d’un mouvement circulaire ; à la vision du film, on a l’impression que les deux personnages flottent dans l’espace et tournent lentement, en lévitation. Une telle ambiguïté perceptive n’est pas rare, et les appareils successivement inventés pour fluidifier les mouvements de la caméra (Steadicam, Louma…) l’ont encore augmentée. Le cadrage est donc l’activité du cadre, sa mobilité potentielle, le glissement interminable de la fenêtre à laquelle il est assimilé et la manifestation du point de vue du regard imaginaire qu’il incarne.

Le point de vue, comme le dit l’expression elle-même, est un point depuis lequel on regarde, mais c’est aussi le résultat de ce regard. Comme nous l’avons vu (chap. 1.2 § 1.2.3), il se définit à la fois en termes d’angle et de distance, et il existe tout un vocabulaire pratique, distinguant les cadrages en plongée , en contre-plongée, de face, de profil ou de trois quarts, et établissant une « échelle de plans » : plan général, plan d’ensemble, de demi-ensemble, plan rapproché, gros plan… Ces appellations courantes sont peu précises, et ont surtout pour effet de conforter le fantasme d’une caméra ubiquitaire, qui se déplace pour filmer de plus ou moins loin – fantasme particulièrement fort devant un film documentaire, où l’on a des raisons de croire à la réalité du monde représenté. En même temps et plus fondamentalement, le cadrage , et le point de vue qu’il manifeste, ont pour effet essentiel de « mettre de l’ordre dans le chaos incoordonné de la présence au monde pour lui substituer une représentation claire et distincte » (Zernik, 2010). C’est l’outil premier de la représentation, qui la fait fonctionner et en même temps la désigne ; devant un film, je sais qu’on me donne le monde par signes interposés, et c’est d’abord le cadre qui le dit.

Fenêtre Cadrage, point de vue. Les images ont le plus souvent été destinées à rendre compte de la façon dont un être humain voit le monde (et se voit lui-même). Les images de film ne font pas exception, et leur cadrage est le plus souvent rapporté à une idée générale du corps humain comme mesure de l’univers visible. • . Il existe de nombreux gros plans d’objets, mais lorsque le cadre isole un fragment de corps (ou de visage) l’effet est toujours déroutant. — Fenêtre **1.5** Cadrage, point de vue.

Les images ont le plus souvent été destinées à rendre compte de la façon dont un être humain voit le monde (et se voit lui-même). Les images de film ne font pas exception, et leur cadrage est le plus souvent rapporté à une idée générale du corps humain comme mesure de l’univers visible.

• **Étrangeté du très gros plan**. Il existe de nombreux gros plans d’objets, mais lorsque le cadre isole un fragment de corps (ou de visage) l’effet est toujours déroutant.

• . Le point de vue le plus normal (celui de la vie quotidienne) est à hauteur d’œil. Montrer des figures humaines en forte contre-plongée ou en plongée verticale est une bizarrerie, toujours remarquée. — • **Inversion du point de vue**. Le point de vue le plus normal (celui de la vie quotidienne) est à hauteur d’œil. Montrer des figures humaines en forte contre-plongée ou en plongée verticale est une bizarrerie, toujours remarquée.

• . Même dans des plans censés représenter un regard, on évite en général de montrer le corps d’où émane ce regard ; d’où l’effet d’étrangeté de l’apparition dans le plan d’un morceau de ce corps (effet acclimaté par le jeu vidéo, surtout le ). — • **Point de vue hypersubjectif**. Même dans des plans censés représenter un regard, on évite en général de montrer le corps d’où émane ce regard ; d’où l’effet d’étrangeté de l’apparition dans le plan d’un morceau de ce corps (effet acclimaté par le jeu vidéo, surtout le *first person shooter*).

• . Inversement, on peut vouloir marquer un point de vue comme n’étant celui d’aucun être humain, mais d’une machine. C’est exemplairement le cas dans (Snow, 1971) , où la caméra était attachée au bras d’un appareil robotisé complexe, qui lui faisait prendre les positions les plus acrobatiques. — • **Point de vue asubjectif**. Inversement, on peut vouloir marquer un point de vue comme n’étant celui d’aucun être humain, mais d’une machine. C’est exemplairement le cas dans *La Région centrale* (Snow, 1971), où la caméra était attachée au bras d’un appareil robotisé complexe, qui lui faisait prendre les positions les plus acrobatiques.

Le microphone est tout aussi mobile que la caméra, et le « point d’écoute » aussi variable que le point de vue. Toutefois, notre oreille n’est pas apte à distinguer aussi clairement que l’œil les distances et les angles de prise de son, et il n’existe pas, en matière sonore, d’équivalent du plan général ou du gros plan, encore moins de la plongée ou du filmage de trois quarts. Cependant, le son joue un rôle important dans la construction de l’espace filmique, en particulier par sa distribution entre le champ et le hors-champ. Ces deux notions ressortissent pleinement à l’ordre du visuel (il n’y a pas de hors-champ sonore : ce qu’on n’entend pas n’est pas imaginable comme l’est ce qu’on ne voit pas), et le son y joue un rôle secondaire mais important. Une distinction traditionnelle est opérée entre son in et son off ; un son in est un son dont la source est dans le champ (visuel), un son off a sa source dans le hors-champ. On voit aussitôt que cela pose le problème de l’attribution d’un son à une source visible, qui le plus souvent est résolu devant un film comme dans la réalité, par un travail (automatique) d’inférences liées à nos habitudes. Si l’on voit un chat ouvrir sa gueule et qu’on entend un miaulement, il sera logique de penser qu’on voit un chat miauler (expression qui, prise à la lettre, n’a pas de sens : on ne voit pas les sons). Telle est notre situation permanente devant l’image de film : nous attribuons les sons à leur source visible la plus probable, quitte à nous tromper ou à ce qu’on nous trompe – d’autant qu’en cinéma, il existe des sons qui ne proviennent pas du monde de la fiction, et au premier chef, la musique. Un gag assez souvent répété, par exemple, consiste à faire entendre durant une scène une musique qu’on prend pour un accompagnement sonore, jusqu’à ce qu’un personnage éteigne un appareil (de radio ou autre) et que la musique s’arrête : nous comprenons alors qu’il aurait fallu l’attribuer, non à la bande musique du film, mais à une source diégétique.

Les relations scéniques entre son et image sont donc assez difficiles à étudier rigoureusement. Dans les années 1970-1980, diverses classifications ont été proposées (Chateau, 1976 ; Daney, 1977), en vue de dépasser la simplification du partage en in et off ; malgré leur intérêt, et parfois leur sophistication, elles butent toutes sur la même question de la source sonore et de la représentation de l’émission d’un son. Quelle que soit la typologie proposée, elle suppose en effet qu’on sache reconnaître un son « dont la source est dans l’image » – ce qui, aussi fin soit le classement, déplace sans la résoudre la question de l’ancrage spatial du son filmique.

3.2 Représentation du temps

3.2.1 Continu et discontinu ; le rythme

Une scène de film résulte de la représentation d’un espace, par le cadrage et l’institution d’un champ. Mais elle résulte aussi de la représentation d’un temps. L’espace est représenté selon la convention perspectiviste, depuis un point de vue, changeant et relativement arbitraire (c’est l’art de la mise en scène de le choisir habilement). Le temps est moins représenté que reproduit : il n’y a pas de point de vue sur le temps, il est ou n’est pas, du moins si l’on identifie le temps à la durée . Sauf trucage, l’image d’un événement a la même durée que cet événement ; ce fut un des éléments du succès immédiat des vues Lumière, et cela reste à la base de nombreux travaux d’artistes contemporains (Laurent Grasso, Mark Lewis, Adrian Paci et bien d’autres), qui utilisent l’image mouvante analogique (cinéma ou vidéo) pour produire cet effet d’identité temporelle. Pour les tenants de l’indicialité absolue de l’image de film, celle-ci est, à la limite, identifiable à une image du temps (ou à un temps-image) :

« Le temps du cinéma est toujours le présent : celui des fragments du monde captés, celui du spectateur qui regarde le film. La présence réelle qui habite la représentation cinématographique ouvre au spectateur la porte du présent réel. » (Green, 2009)

Nous l’avons vu plus haut (chap. 1.1 § 1.3.3), l’unité de film est habituellement le plan (au sens temporel), c’est-à-dire un morceau de film résultant d’une seule prise de vues, et inséré entre deux unités analogues. Soulignons de nouveau le caractère tautologique de cette définition et ses difficultés : en dehors de considérations génétiques (sa continuité et le fait que rien ne l’interrompt sinon le passage à un autre plan) il n’est guère possible de définir en général ce qui fait un plan. En projection, il est parfois difficile de dire avec certitude où il s’arrête et commence. Plus largement, un film narratif (c’est-à-dire l’immense majorité des films, incluant les documentaires) représente le temps en jouant à la fois de la continuité du plan et de la discontinuité du montage. Bazin (1952) avait envisagé, à propos du « néoréalisme », l’utopie d’« un film continu avec quatre-vingt dix minutes de la vie d’un homme à qui il n’arriverait rien », mais cela ne signifiait pas qu’un tel film ne comporterait pas plusieurs plans. En effet, comme l’a noté Pasolini (1967), un plan-séquence infini ne serait pas une représentation satisfaisante de la réalité. Ce sont de tels plans que produisent journellement les caméras de surveillance, et on voit bien que, en dehors de leur exploitation éventuelle comme témoignage, ils n’ont aucun sens et n’expriment rien. La représentation délibérée et significative commence lorsque la continuité du plan doit se confronter à son contraire, la discontinuité du passage à un autre plan, introduisant un autre point de vue et d’autres objets.

C’est l’enjeu de la notion de raccord (chap 1.1 § 1.3.3 et chap. 1.2 § 2.3.2) qui dit bien qu’il s’agit, par le montage narratif, de créer un lien entre deux plans successifs, là où a priori il n’y en avait pas. On comprend que ce travail paradoxal (rendre continu ce qui est discontinu) ait été très souvent considéré. Ainsi, Deleuze (1987) soulignant le rôle de la main dans la connexion de « blocs de durée/mouvement » ou, dans une perspective différente mais au fond assez proche, l’éloquente métaphore de Tarkovski (1970-1986), d’une « sculpture » du temps, jouant à la fois sur le déroulement temporel dans chaque plan et le passage à d’autres morceaux de temps avec le montage. Pour l’un comme pour l’autre, le temps n’est pas assimilé à une simple durée mesurable ; c’est une donnée vécue, intériorisée, corporelle, que le film offre au spectateur. En outre, chez Tarkovski, dans l’expérience cinématographique, le rapport au temps passé (la mémoire) et au temps qui passe est simultané, et le premier détermine le second ; la tâche du cinéaste est donc de traiter le temps (de le « sculpter ») : le recueillir, en le reproduisant tel qu’il existe dans la vie (tel que le temps est vivant) et, contradictoirement, lui donner forme . Cela le mène à une conception singulière du montage, qui n’est pas pour lui un outil expressif, mais le moyen d’une modulation du temps dans son cours même (une idée que l’on retrouve, élargie, avec la notion d’« image-temps » de Deleuze [1985]).

Avec la conception de Tarkovski, on est proche d’une notion importante, malgré son vague et les confusions qu’elle suscite, celle de rythme . Ce terme désigne l’agencement des phénomènes temporels (la musique avant tout), et son origine (le verbe grec rhein, couler) indique bien qu’il s’agit d’une modulation du temps. Toutefois, il est aujourd’hui compris spontanément comme synonyme de « rythme marqué », « scansion » ; les théories qui ont envisagé un « montage rythmique » (Koulechov, Poudovkine), l’ont défini comme montage de plans dont les longueurs seraient dans des rapports simples (1/2, 2/3, 3/4…) ; Eisenstein (1929) proposa de baptiser « métrique » cette forme de montage, et de réserver le terme « rythmique » pour un montage qui tiendrait compte de la longueur des plans, mais « pondérée » par leur contenu (à durée égale, un gros plan paraît plus long qu’un plan moyen). L’idée du montage métrique est reparue chez les cinéastes « structuraux » autour de 1970 (Kubelka, Gidal notamment), sans être davantage interrogée dans ses fondements perceptifs. La perception du rythme temporel au cinéma reste en effet assez grossière, d’une part, parce que l’œil – à la différence de l’oreille – apprécie mal les rapports de durée (Mitry, 1965), d’autre part, parce que le contenu de l’image joue un rôle trop important pour qu’on puisse facilement calculer et déterminer des rythmes en ce sens. Tout le monde est sensible à la vitesse du montage dans les scènes de fusillade du Cuirassé « Potemkine », de La Horde sauvage (Peckinpah, 1969) ou d’Antonio das Mortes (Rocha, 1969), mais cela ne veut pas dire qu’on perçoit des rapports de durée très précis, a fortiori quantifiables. La notion de rythme reste capitale en cinéma, y compris comme métaphore musicale (André, 2007), mais le plus souvent elle n’est que la traduction vague d’un certain souci du temps des gestes dans la mise en scène (Zernik, 2010).

3.2.2 La continuité sonore

De même qu’en matière spatiale (champ et hors-champ), le son a en matière de continuité temporelle un statut différent de l’image. Comme la bande image, la bande son est à la fois discontinue et continue. Elle est composée d’éléments variés, qui commencent, finissent et se succèdent, mais en général elle ne cesse jamais d’être présente, sauf exceptions notables. C’est un tissu sonore, parfois un peu décousu mais très rarement troué.

L’apparition du cinéma sonore et parlant, nous l’avons dit, a coïncidé, aux États-Unis mais aussi en Europe (en Allemagne surtout) avec le développement de la radio et en particulier, des dramatiques radiophoniques. Pendant quelque temps, le cinéma parlant apparut comme un médium hybride, à la fois cinéma et drame radiophonique ; aux yeux de théoriciens comme Arnheim (1938), le cinéma parlant bouleversait le partage classique entre arts de l’espace et arts du temps, dû à Lessing dans son traité Laocoön (1766-1768) (ce pourquoi Arnheim parle d’un « nouveau Laocoön ») ; il s’agissait pour lui d’un médium hybride, mêlant la photographie animée et le drame sonore, et il fallut quelque temps avant que l’habitude des films dramatiques fasse oublier cette nouveauté radicale. (On a vécu une situation analogue à la fin du xx^e siècle, avec l’apparition de l’installation comme forme hybride d’œuvre d’art, relevant de plusieurs médiums.)

La radio, on le sait, comme la télévision, ne supporte pas le « blanc », le silence. C’est largement sous l’influence des habitudes d’écoute qu’elle amena que les bandes sonores des films parlants devinrent si bavardes et si constamment « meublées », et dans les films classiques, il est fort peu de moments vraiment silencieux. Au reste, de grands réalisateurs comme DeMille ou Welles (et d’autres) furent aussi des hommes de radio, réalisant de nombreuses dramatiques radiophoniques ; outre l’habitude de la continuité sonore, celles-ci leur donnèrent aussi le sens du jeu sur l’énonciation, car souvent, dans les « pièces radiophoniques », la voix du narrateur est à égalité avec celles des personnages, comme s’il participait à la scène (un effet plus rare, et plus étrange, en cinéma).

Au total, comme le souligne bien Chion (2003), l’élément sonore est en cinéma le premier facteur de temporalisation ; il crée spontanément un temps très proche du ressenti de la durée ordinaire. Le travail du temps (sa « sculpture ») consiste justement à s’écarter de ce sentiment trop proche de la perception spontanée, et c’est pourquoi on a tant cherché à l’exprimer par un jeu sur l’image, sa durée propre et son montage – qui a priori s’y prêtent moins.

3.3 Le montage (seconde approche)

3.3.1 Idéologies du montage

Le montage, nous l’avons vu à plusieurs reprises, est l’outil essentiel de la mise en forme du film, de ses effets sémantiques et expressifs, de la gestion d’un temps proprement filmique et de la production d’affects. Il n’est pas surprenant que, pratiquement à toutes les époques, il ait été considéré, avec l’enregistrement réaliste de la durée, comme le principal objet théorique du cinéma.

La première grande théorie du montage, celle de Poudovkine (chap. 1.1 § 1.3.3), donnait les principes généraux du montage le plus courant, celui qui, correspondant au découpage technique, se soucie de donner à voir et à comprendre des scènes narratives. Avec sa fiction théorique de l’observateur extérieur, Poudovkine rapportait à un œil omnivoyant la responsabilité de rendre cohérent le regard porté en plans successifs sur une réalité ; c’est en gros la conception implicite qui est à l’œuvre dans le montage classique, en particulier hollywoodien (chez Hawks ou Ford, par exemple). Il est intéressant de noter que, au même moment, un proche de Poudovkine, le cinéaste Lev Koulechov, élaborait une théorie du montage qui mettait en valeur, moins sa capacité à reconstruire un événement cohérent que sa capacité à forger de toutes pièces un lieu ou un événement ; la « géographie créatrice » assigne au montage la tâche de truquer la réalité pour fabriquer de l’imaginaire : l’exemple de Koulechov est une poignée de mains commencée en plan rapproché sur le bord de la Neva à Saint-Pétersbourg et achevée en plan éloigné devant la Maison blanche à Washington. Ce genre de tricherie est banal en cinéma, par exemple lorsqu’on tourne en studio les gros plans d’une scène de western tournée en décors naturels, mais Koulechov y voit plus qu’une commodité technique : une loi essentielle.

Koulechov fut aussi l’auteur d’une autre idée sur le montage, encore plus connue et qui porte son nom (« effet Koulechov »). Il s’agit de mettre en évidence la capacité du montage de deux plans à créer un affect par la mise en relation imaginaire d’un regard et d’un objet de regard : le même plan d’acteur, inexpressif par lui-même, acquiert une coloration différente selon le plan qui suit, et qui représente cet objet (le regard est gourmand devant un repas, attendri devant un enfant, etc.). La vérification expérimentale de cet effet n’a jamais été bien convaincante (Aumont, 1986), mais l’idée est assez frappante pour avoir été reprise souvent (très consciemment par Hitchcock, dans Fenêtre sur cour [Truffaut, 1966]). De manière moins mécanique, c’est cette coloration affective du montage que rechercha Eisenstein (1929), sous le nom de « montage tonal » : il s’agit cette fois, non de ce que peut produire presque automatiquement le passage d’un plan à l’autre, mais de la recherche d’une tonalité esthétique et affective à l’échelle de tout un morceau de film (de l’ordre d’une séquence) ; l’exemple donné par Eisenstein, de la scène de brume dans Le Cuirassé « Potemkine » (1925), repose sur un certain effet du gris et du flou, mais on peut évidemment imaginer des colorations plus subtiles. L’idée a été reprise plus récemment par Pelechian (1971-1972), pour qui dans le montage de certains de ses films « ce n’était pas tant le contenu factuel des scènes qui importait, mais leur résonance imagée ».

Eisenstein était d’ailleurs plus soucieux de souligner un autre pouvoir du montage, son pouvoir sémantique, auquel il consacra plusieurs textes programmatiques. En 1928, c’est l’idée provocante d’« attraction intellectuelle », où il tente de marier l’idée d’« attraction », c’est-à-dire de « moment fort du spectacle », et la production d’un sens maîtrisé et raisonné. L’année suivante (1929), il pose le « montage intellectuel » comme stade supérieur d’une hiérarchie des modes de montage qui va du plus fruste (montage « métrique ») au plus élaboré. Après l’arrivée du parlant, il cherche divers modèles pour cette idée d’un montage producteur de sens ; l’épisode le plus connu est celui du « monologue intérieur », souvent référé au finale de l’Ulysse de Joyce, et qui dans son état le plus avancé amène à considérer le montage comme une imitation des « lois de la pensée » :

« [Le] cinéma […] reproduit les phénomènes selon tous les traits de la méthode qui produit le reflet de la réalité dans le mouvement du processus psychique. » (1933)

Avec le « montage intellectuel », le cinéma n’est plus une machine à regarder le monde, ni même à l’interpréter, mais carrément une machine à penser grâce au montage. Eisenstein jusqu’à la fin de sa vie tournera autour de cette utopie, sans jamais pouvoir traduire cette position de principe dans un film.

Construction d’espace, production d’affect et d’idées : le montage est crédité de nombreux pouvoirs. Il reste encore un quatrième grand ensemble de théories qui en valorisent la productivité, à savoir, celles qui soulignent sa vertu de créateur de temps. L’exemple le plus célèbre (sinon le plus limpide) est celui de Deleuze (1985), avec la notion d’image-temps. L’essentiel de cette notion est qu’elle traduit le souci, caractéristique du cinéma de la modernité, d’explorer directement le temps et non seulement le mouvement. Deleuze en propose une classification, ou plus exactement, des classifications opérées depuis plusieurs points de vue et se recoupant, sans donner un tableau simple. Une idée importante est celle de l’image-cristal (« coalescence » d’une image actuelle et d’une image virtuelle), qui rend compte du caractère essentiel, selon le philosophe, du cinéma de l’après-guerre : le présent n’est pas l’unique temps du cinéma (et corrélativement, le temps n’est plus seulement représenté comme une chronologie : il est en quelque sorte donné à voir). Un cran plus loin encore, During (2010) propose carrément de renoncer à l’idée classique du temps et de l’espace, au profit d’une idée relativiste (au sens d’Einstein), aboutissant à une théorie du montage qui en quelque sorte le spatialise, non pour nier que le film soit un médium temporel, mais pour en souligner des effets de topologie imaginaire.

Enfin, à l’opposé de toutes ces approches, diverses dans leur visée mais qui toutes confèrent au montage une vertu créatrice, il faut rappeler la théorie, radicale à sa manière, du « montage interdit » (Bazin, 1953-1957). Le cinéma, pour Bazin, est voué à la reproduction fidèle de la réalité ; celle-ci étant continue, revêtue d’une « robe sans couture », c’est le plan, dans son déroulement continu, qui exprime la réalité, pas le montage, et ce dernier doit être cantonné au rôle minimal d’assurer les transitions inévitables entre blocs de durée (les raccords). Cette conception a trouvé sa forme extrême avec le théorème suivant : « Quand l’essentiel d’un événement est dépendant d’une présence simultanée de deux ou plusieurs facteurs de l’action, le montage est interdit. » Notons que cette « interdiction » est conditionnelle : le montage n’est à éviter que lorsqu’il s’agit de rendre un certain type d’événements ; il ne faut pas utiliser la facilité du montage pour faire croire que le chasseur a attrapé le gibier, ou que Charlot est bien dans la même cage que le lion, il faut le prouver en filmant en un seul plan. La question est celle des limites de cette « loi esthétique » : quels sont les critères qui permettent de décider de ce qui est « l’essentiel » d’un événement particulier, et de ce que sont ses « facteurs » ? En outre, cette proposition esthétique est également éthique (comme on le voit nettement lorsque Rohmer [1960] la reprend à propos du filmage des exploits sportifs). L’idéal du montage interdit, c’est la donation au spectateur d’une réalité non retouchée, dont le sens n’est écrit nulle part dans l’image (pas dans le cadre, pas dans le montage), et qu’il pourra dès lors travailler à découvrir, ou à inventer, par lui-même.

Fenêtre Pouvoirs du montage. Le montage peut être utilisé pour souligner le passage de plan à plan, ou au contraire pour l’effacer ; il peut recoudre soigneusement une réalité décomposée au tournage, et c’est en ce sens qu’il est utilisé le plus souvent dans les films de fiction. (Voir la fenêtre 1.2, à propos des enchaînements de plans.) • « ». Un cas remarquable est celui où le montage opère la « couture » d’un espace qui n’avait aucune unité dans la réalité, et qui n’a d’existence qu’imaginaire (ce que Koulechov appelait « géographie créatrice »). C’est le cas du montage d’ (1952 ), où Welles « bouleverse la topographie de la partie chypriote, raccordant avec audace des fragments d’espace prélevés ici ou là, au Maroc et en Italie, et dont l’assemblage récuse tout cohérence spatiale d’ensemble » (Berthomé, 2003). Ainsi, en peu de temps, Othello et Desdémone, censés être à Chypre, se rencontrent sur les remparts de Mogador (Maroc) et dans la crypte de l’église de Viterbe (Italie) : — Fenêtre **1.6** Pouvoirs du montage.

Le montage peut être utilisé pour souligner le passage de plan à plan, ou au contraire pour l’effacer ; il peut recoudre soigneusement une réalité décomposée au tournage, et c’est en ce sens qu’il est utilisé le plus souvent dans les films de fiction. (Voir la fenêtre 1.2, à propos des enchaînements de plans.)

• « **Géographie créatrice** ». Un cas remarquable est celui où le montage opère la « couture » d’un espace qui n’avait aucune unité dans la réalité, et qui n’a d’existence qu’imaginaire (ce que Koulechov appelait « géographie créatrice »). C’est le cas du montage d’*Othello* (1952 ), où Welles « bouleverse la topographie de la partie chypriote, raccordant avec audace des fragments d’espace prélevés ici ou là, au Maroc et en Italie, et dont l’assemblage récuse tout cohérence spatiale d’ensemble » (Berthomé, 2003). Ainsi, en peu de temps, Othello et Desdémone, censés être à Chypre, se rencontrent sur les remparts de Mogador (Maroc) et dans la crypte de l’église de Viterbe (Italie) :

• . Un autre cas notable est celui où deux espaces disjoints dans la réalité sont également montrés comme disjoints dans le film fini, mais en établissant entre eux un rapport de simultanéité (montage alterné) ou une comparaison (montage parallèle). Le montage devient alors un moyen d’énonciation, comparable à ceux dont use la littérature (mais toujours plus implicite : le spectateur le rapport établi entre plans). — • **Montage parallèle**. Un autre cas notable est celui où deux espaces disjoints dans la réalité sont également montrés comme disjoints dans le film fini, mais en établissant entre eux un rapport de simultanéité (montage alterné) ou une comparaison (montage parallèle). Le montage devient alors un moyen d’énonciation, comparable à ceux dont use la littérature (mais toujours plus implicite : le spectateur *doit comprendre* le rapport établi entre plans).

Dans ce raccord de (Bergman, 1984) , le spectateur comprend aisément que, tandis que la grand-mère reçoit, dans sa splendide maison de campagne, leur ancienne gouvernante qui s’inquiète pour les enfants, ceux-ci sont enfermés dans leur chambre chez leur méchant beau-père. Mais en outre, cette alternance suscite un parallèle (une comparaison) entre le monde bon enfant et luxueux de la famille et le monde sévère de l’évêché. • « ». Dans l’histoire des théories du montage, on a souvent considéré celui-ci comme un principe général, qui pouvait s’étendre à d’autres cas que le raccordement d’un plan à un autre plan (voir par exemple, § 3.3.1, les propositions d’Eisenstein). On peut, ainsi, s’attacher à « calculer » l’effet global de toute une séquence, ou à l’inverse, faire jouer ce principe de montage à l’intérieur d’un seul plan. Dans ce plan (à gauche) de (1931), Eisenstein obtient un effet expressif singulier en accolant un agave au premier plan et la minuscule figure des deux humains et de leur monture ; l’esprit peut comprendre que ces personnages sont dans le lointain, mais l’œil est cependant dérouté par la disproportion entre les deux éléments, et le sens de leur confrontation n’est pas évident. En jouant sur la différence d’éclairage des deux parties de l’image, Sokourov ( , 2007) obtient aussi un effet de défamiliarisation, donnant l’impression que la vieille femme, qui pourtant regarde les soldats attablés, est une image « collée » au fond du plan. — Dans ce raccord de *Fanny et Alexandre* (Bergman, 1984), le spectateur comprend aisément que, tandis que la grand-mère reçoit, dans sa splendide maison de campagne, leur ancienne gouvernante qui s’inquiète pour les enfants, ceux-ci sont enfermés dans leur chambre chez leur méchant beau-père. Mais en outre, cette alternance suscite un parallèle (une comparaison) entre le monde bon enfant et luxueux de la famille et le monde sévère de l’évêché.

• « **Montage dans le plan** ». Dans l’histoire des théories du montage, on a souvent considéré celui-ci comme un principe général, qui pouvait s’étendre à d’autres cas que le raccordement d’un plan à un autre plan (voir par exemple, § 3.3.1, les propositions d’Eisenstein). On peut, ainsi, s’attacher à « calculer » l’effet global de toute une séquence, ou à l’inverse, faire jouer ce principe de montage à l’intérieur d’un seul plan.

3.3.2 La question du plan-séquence et le flux des images

Les théories du montage ont, pour les plus marquantes, été élaborées entre 1920 et 1950, et presque toujours en fonction d’un état de la technique qui supposait des films faits de plans relativement courts (la durée moyenne des plans, dans le cinéma hollywoodien, était de 8 à 10 secondes durant les années 1930 et 1940). L’apparition de procédés et de technologies permettant d’allonger considérablement cette durée moyenne des plans a amené une nouvelle réflexion sur le montage, et d’abord autour de la notion de plan-séquence. Cette expression désigne un plan suffisamment long pour contenir l’équivalent événementiel d’une séquence (c’est-à-dire d’une suite de plusieurs événements distincts) ; elle fut initialement forgée par Bazin pour rendre compte, entre autres, de la scène de la cuisine dans La Splendeur des Amberson (Welles, 1942), un long plan fixe où le centre de l’action passe d’un personnage à l’autre à mesure de leurs déplacements dans le champ. Très vite, l’idée de plan-séquence fut associée, non seulement à la durée, mais au mouvement, entre autres à partir de la célèbre expérience de Hitchcock avec La Corde (1946), où chaque plan dure une bobine de film 35 mm (environ 11 minutes) et où la caméra est si mobile qu’il fallut construire un décor avec des murs escamotables. On ne compte plus, par la suite, les plans très mobiles et/ou très longs , dont certains cinéastes se sont fait une spécialité (par exemple, dans le cinéma récent, Tsai Ming-Liang : le dernier plan des Chiens errants [2014] dure près d’un quart d’heure, et en outre ne comporte aucun événement). Par ailleurs, le progrès de la technologie a augmenté presque indéfiniment la durée enregistrable d’une seule traite, au point qu’il existe désormais des films ne comportant qu’un seul plan (chap. 1.2 § 2.3.2).

La question théorique que pose le plan-séquence a été aperçue très tôt (Mitry, 1965) : si ce « plan » contient plusieurs événements, il est l’équivalent d’un montage de plusieurs plans, découpant cette suite événementielle. S’il est formellement un plan (il est délimité, comme tout plan, par deux « collures »), il sera cependant considéré dans bien des cas – entre autres pour un découpage en « syntagmes » narratifs (Metz, 1966) – comme interchangeable avec une séquence ; sa valeur changera selon qu’on cherche à simplement délimiter et dénombrer les plans, à analyser le déroulement du récit, ou à caractériser le montage. Au plan purement théorique, il a longtemps joué le rôle d’une espèce d’idéal (irréaliste) de cinéma sans montage, que ce soit pour exalter la capacité d’un tel cinéma à reproduire la réalité sans y intervenir (c’est la tendance chez Bazin, Rohmer ou Rivette) ; ou au contraire pour marquer l’incapacité d’un plan « infini » à signifier quoi que ce soit (c’est la fameuse métaphore déjà citée de Pasolini [1967], « la mort accomplit un fulgurant montage de notre vie » : de même que notre vie n’acquiert son sens définitif qu’à notre mort, le film n’acquiert son sens qu’une fois monté ; le « plan-séquence infini » ne signifie rien) ; ou pour relever que le plan-séquence n’est pas aussi « réaliste » et « transparent » que l’avait cru Bazin, sa valeur dépendant des normes esthétiques en vigueur (Comolli, 1971-1972).

En fait, cette discussion a longtemps été un peu artificielle, le plan-séquence, même très long et systématique (comme dans les films de Jancsó des années 1960-1970), étant toujours pensé, dans l’optique d’un tournage sur pellicule, comme l’équivalent sémantique d’un montage de plans, et cette forme étant choisie pour des raisons principalement expressives. La situation a changé avec le numérique , qui rend simple et quasi naturel le tournage en plan très long, comme le savent bien les millions d’amateurs qui utilisent leurs appareils (smartphones, tablettes, caméras GoPro, drones…) pour se filmer en continu. Ici d’ailleurs il est probable que la question du montage et de la longueur des images mouvantes enregistrées est inséparable de celle de la consommation de ces images. Le plan-séquence visait un spectateur de cinéma, placé dans une certaine situation (assis, concentré, etc. – voir chap. 4.3 § 3.1) et devant un certain type de construction (avec début, fin, développement, etc. – voir chap. 2.3 § 3.2 et § 3.4.1) ; les images mouvantes dont nous parlons sont prises, elles, dans un flux d’images assez instructuré, comprenant potentiellement toutes celles qu’on peut trouver sur Internet (y compris d’innombrables fragments de films, donnés dans le désordre et sans logique). Si l’on ajoute la tendance très marquée, dans l’art contemporain , à la production d’œuvres d’image mouvante filmées « en longueur », la nature du plan long et du plan-séquence, sans avoir changé phénoménologiquement, a pris de tout autres valeurs aux plans sémantique et esthétique.