Accueil > Les pratiques > L’évaluation > La notation de la compétence philosophique

La notation de la compétence philosophique

Intervention de Pierre MERLE aux Journées d’étude d’octobre 2009

samedi 24 octobre 2009, par Acireph

SPÉCIFICITÉS DE LA PHILOSOPHIE ET SPÉCIFICITÉS DE L’ÉVALUATION

(article paru dans Côté-Philo n°14)

[ Sociologue, professeur d’université à l’IUFM de Bretagne, Pierre Merle a notamment publié L’élève humilié. L’école : un espace de non-droit ? Paris, PUF, 2005 ; Les notes. Secrets de fabrication, Paris, PUF, 2007 ; La démocratisation de l’enseignement, Repères, La Découverte, 2009. ]

La compétence philosophique est réputée rebelle à la mesure. Massivement, les lycéens accordent un crédit limité à la notation dans cette discipline : elle serait incertaine, quasi aléatoire. A contrario, les mathématiques seraient un parangon d’exactitude. Bachelard offre aux philosophes examinateurs un aphorisme consolant : « l’opinion pense mal, elle ne pense pas, elle traduit des besoins en connaissance (…). On ne peut rien fonder sur l’opinion, il faut d’abord la détruire ».

La démarche de destruction est toutefois ardue. Dans sa logique interne, l’opinion sur la notation en philosophie n’a pas seulement pour argument ordinaire une expérience subjective confondue spontanément avec la connaissance, elle s’appuie aussi sur quelques faits troublants. Par exemple, il y a un quart de siècle, un lauréat au concours général de philosophie, honoré du second prix, a été coiffé d’un bonnet d’âne à l’épreuve du baccalauréat : un calamiteux 1/20. Par une alchimie indécente, l’excellence et la nullité, ces deux extrêmes adulé et blâmé de la hiérarchie scolaire, se sont confondues dans le même candidat. Quel désordre ! Si la notation ne distingue plus le bon grain de l’ivraie, comment fonder les décisions de passage et d’orientation ? Sur quoi reposent les hiérarchies de diplômes, statuts, revenus et pouvoirs ? Dans un univers scolaire où la notation est censée mesurer la quintessence des performances des élèves, la philosophie, suspectée par ses notes, a-t-elle sa place comme discipline d’enseignement ? Le questionnement pédagogique est également inévitable : s’il est si difficile d’évaluer la compétence philosophique d’un lycéen, comment définir ce que cette discipline transmet effectivement ?

Voilà quelques questions susceptibles de justifier une investigation sur la notation en philosophie. La liste n’est pas exhaustive. Centrale dans l’organisation scolaire, la notation mobilise aussi l’énergie des enseignants confrontés à des questions simples et redoutables : comment noter de façon équitable ? Comment assurer une évaluation suffisamment fiable des compétences acquises et des progrès encore à réaliser ? Ces questions sont didactiques mais aussi éthiques. Elles soulèvent des interrogations philosophiques et sociologiques telles que la définition de l’égalité et de la justice. Noter est une responsabilité professorale de premier ordre pour une autre raison. Les élèves attachent une grande importance à leurs notes. Leurs expériences subjectives de l’évaluation, valorisantes ou humiliantes (Merle, 2005), contribuent de façon essentielle à l’amour de l’école ou à son rejet, à la passion pour une discipline ou sa détestation. Les professeurs sont moralement engagés par de telles implications de leurs pratiques évaluatives.

Une investigation sur la notation doit d’emblée questionner un a priori tenace : la notation de la compétence philosophique et, par assimilation la philosophie elle-même, serait particulière. Particulière par rapport à quoi ? Son objet, sa méthode, son projet ? Mais les autres disciplines n’ont-elles pas tout autant leurs spécificités ? L’investigation scientifique tire sa pertinence d’une approche comparative. Elle a été menée de longue date sur les épreuves du baccalauréat. Une recherche pionnière, édifiante, sera présentée. Incontournable, elle est loin d’épuiser la question de la notation comme l’attestent les recherches sur les « biais sociaux d’évaluation ». Ceux-ci favorisent une interprétation de la notation conceptualisée en termes d’« arrangement ». Enfin, dans une dernière partie, les connaissances accumulées par les recherches sont sollicitées pour cerner les principes et pratiques d’une notation centrée sur l’équité et les progrès des élèves.

La docimologie ou l’impossible exactitude évaluative

Les approches docimologiques – du grec dokimé « épreuve » - reposent sur des expériences de multi-correction. La première recherche a été réalisée sur la session 1930 du baccalauréat (Laugier et Weinberg, 1936). Pour chacune des disciplines retenues par l’étude, cent copies de bac ont fait l’objet de cinq autres notations. Les auteurs ont calculé l’écart maximum entre les notes, la moyenne des écarts, les écarts les plus fréquents (voir tableau ci-dessous). Résultat accablant pour la philosophie : 13 points de différence pour la même copie entre le correcteur le plus indulgent et le plus sévère. Au-delà de cette situation extrême, les écarts les plus fréquents sont de cinq et sept points (à égalité) et l’écart moyen de 3,4 points. L’incertitude de la notation est élevée. Mais le résultat est tout aussi troublant pour la correction des épreuves de français pour laquelle l’imprécision est quasi équivalente. Aussi étonnante, sinon plus, la situation des mathématiques. Cette discipline n’honore pas sa réputation d’infaillibilité. Tout comme les autres disciplines, la championne de la démonstration rigoureuse échoue à garantir à ses élèves une mesure exacte de leur compétence disciplinaire. Les évaluations en mathématiques et philosophie ne présentent pas une différence de nature mais de degré. Après l’objectivation statistique, il faut revenir à Bachelard : « L’opinion pense mal ». Non qu’elle se trompe sur l’incertitude de la notation en philosophie, mais la croyance dans l’exactitude de la note pour les disciplines dites scientifiques est erronée : « Ce que l’on croit savoir occulte ce que l’on devrait savoir »…

Tableau 1 : Écarts maximums, écarts moyens et écarts les plus fréquents lors d’une expérience de multi-correction menée sur 100 copies du baccalauréat (session 1930)

Disciplines	Écartmaximum	Moyenne des écarts	Écartsles plus fréquents
Français	13	3,3	6 et 7
Anglais	9	2,2	4
Mathématiques	9	2,1	4
Philosophie	12	3,4	5 et 7
Physique	8	1,9	4

Lecture : les écarts les plus fréquemment rencontrés lors de la multi-correction de copies de français sont 6 et 7 points. Source : Laugier et Weinberg (1936, p.78).

Depuis cette recherche fondatrice de 1930, l’incertitude de la notation d’une copie a été régulièrement confirmée, notamment en mathématiques, même lorsqu’il existe un barème précis de notation, question par question (Aymes, 1979). Tout l’intérêt de l’étude détaillée de la notation de copies est de montrer que pour une même question, par exemple notée sur 2 points, la note peut varier de 0,5 point à 2. Quelle que soit la discipline, le travail de correcteur est un travail d’expert, d’interprétation de la réponse de l’élève. La formule des élèves - « en math, c’est bon ou c’est pas bon » - est une simplification abusive. La connaissance mathématique n’est pas équivalente aux Saintes Écritures. Elle se présente sous des formes variées, démonstrations limpides ou laborieuses, illustrations bien conçues ou malheureuses, chaînons argumentaires judicieux ou discutables, conclusions claires ou confuses… Autant de raisons, identiques à celles évoquées par le philosophe examinateur, qui amènent les correcteurs de mathématiques à porter des appréciations divergentes sur les mêmes réponses en fonction des pondérations accordées à tel ou tel critère. La recherche la plus récente (Suchaut, 2008) débouche sur le même résultat. Six copies de bac de sciences économiques et sociales - deux faibles (notées 9/20 au bac), deux moyennes (11/20) et deux bonnes (15/20) - ont fait l’objet d’une trentaine de corrections. Les écarts maximums de notation pour chaque copie sont de 9 à 11 points (tableau 2).

Tab 2 : Expérience de multicorrection de copies du bac en sciences économiques et sociales (années 2006 et 2007)

	Copie 1	Copie 2	Copie 3	Copie 4	Copie 5	Copie 6
Note au bac	9	11	15	9	15	11
Note minimum	5	5	8	3	8	4
Note maximum	15	16	18	13	17	14
Ecart max.	10	11	10	10	9	10
Moyenne	8,8	9,0	13,0	8,8	12,9	8,0
Ecart-type	2,4	2,7	2,5	2,1	2,1	1,8
Mode	7	8	14	9	13	8

Lecture : La copie 1, notée 9/20 au bac, a pour moyenne, corrigée par 34 correcteurs, 8,8/20. La notation la plus fréquente (le mode) est 7/20.

Source : Suchaut (2008)

La philosophie, le français, les sciences économiques et sociales, disciplines évaluées essentiellement par des dissertations ou commentaires, sont particulièrement soumis aux incertitudes de la notation. En ce sens, l’expérience de l’évaluation par les élèves n’est pas totalement infondée. Pour les cinq disciplines de la recherche de Laugier et Weinberg, les écarts égaux ou supérieurs à cinq points entre les correcteurs se présentent d’ailleurs avec des fréquences différentes selon les disciplines et leurs modalités d’évaluation : 2.5% en physique, 4.6% en mathématiques, 5.7% en anglais, 20.1% en français et... 23% en philosophie (Laugier et Weinberg, p. 80). Laugier et Weinberg ont calculé que pour obtenir la ’note vraie’ (avec 5% de risque d’erreur), il fallait recourir à la moyenne de 13 correcteurs en mathématiques, 78 en composition française et… 127 en philosophie. Les auteurs concluaient que “dans la dispersion des notes [particulièrement en philosophie], la diversité propre des correcteurs intervient pour une part plus importante que la diversité des copies’ (cité p.126).

De nombreuses études se sont donné pour objet d’expliquer les écarts de notation. La note résulte d’un processus de comparaison. La même copie est surévaluée lorsqu’elle vient après une copie faible et sous-évaluée lorsqu’elle vient après une copie forte. Les qualités ou insuffisances de la (ou des) copie(s) antérieurement corrigée(s) influencent l’appréciation de la copie en cours d’évaluation. Produit par la correction précédente, l’“effet d’ancre”, pour reprendre le terme technique, s’exerce aussi lorsque deux ou trois bonnes copies sont placées au début d’un paquet. La moyenne globale des copies est alors plus faible. L’effet inverse s’exerce dans le cas de mauvaises copies. Ces données éclairent en partie les modalités d’évaluation des copies. Le correcteur établit au début de sa correction un ensemble d’exigences à partir de la lecture des premières copies et ces exigences servent de références dans la suite de son travail de correction.

Autre constat. Même avec des critères de notation bien définis, leurs mises en œuvre par le même correcteur sont inconstantes. Dans la cadre d’une correction anonyme, les notations de 26 versions anglaises selon l’ordre de correction (du n°1 au n°26 et du n°26 au n°1) ont été comparées (Bonniol cité par Noizet et Caverni, 1978). Outre les effets d’ancre, les copies placées dans le premier tiers du paquet sont en moyenne notées de façon plus indulgente. Corrigées dans l’ordre inverse, ces copies sont notées plus sévèrement. Chaque correcteur trouvera, dans l’examen critique de sa pratique, quelques interprétations à ce phénomène troublant...

Le baccalauréat est-il pour autant une loterie ? Nullement. Pour deux raisons. La première tient au fait que le bac ne repose pas sur une seule épreuve mais sur plusieurs. La multiplication des épreuves diminue l’aléatoire : les corrections sévères sont généralement compensées par des corrections indulgentes. Une autre raison aboutit à différencier épreuves du bac et loterie. Les élèves tangents, n’ayant pas obtenu la moyenne après les écrits, font l’objet d’une seconde forme d’évaluation, orale cette fois. L’incertitude de l’évaluation est donc une nouvelle fois tempérée, de façon avantageuse pour l’élève de surcroît puisque celui-ci bénéficie de la meilleure de ses deux prestations écrite et orale. Enfin, au moment des délibérations finales, les membres du jury disposent du livret scolaire de l’élève et doivent réglementairement tenir compte des performances scolaires obtenues par l’élève pendant l’année de terminale. Le résultat de ces arrangements internes au jury, cette cuisine évaluative, est connu : les bons élèves ont généralement leur bac et les accidents sont rares. En revanche, la non-obtention de la moyenne pendant l’année ne prédit pas forcément l’échec. Le bac fonctionne comme une seconde chance. Cette organisation complexe, parfois critiquée, vouée semble-t-il au dépérissement avec la réforme actuelle du lycée et le recours croissant au contrôle continu, présente l’avantage d’apporter une mesure globalement fiable de la compétence des élèves alors même que chaque épreuve apporte des qualités de fiabilité moindre. Outre que l’organisation actuelle délivre un diplôme national, elle permet aussi de limiter les « biais sociaux » d’évaluation mis en évidence par l’approche sociologique.

L’approche sociologique de la notation : les biais sociaux d’évaluation

L’approche sociologique a mis en évidence des « biais sociaux » d’évaluation, c’est-à-dire des erreurs systématiques de mesures semblables à une erreur de parallaxe. Ces biais sont considérés comme « robustes ». Ils font consensus dans la communauté scientifique. Les recherches sur cette question aboutissent régulièrement aux mêmes résultats. Les principaux biais sociaux d’évaluation concernent l’effet des caractéristiques sociales des élèves.

Le principe des recherches montrant l’existence de biais sociaux d’évaluation est de comparer les résultats des élèves à des tests de compétence anonymes aux moyennes annuelles qu’ils ont obtenues dans le cadre de leur classe, notés par leurs professeurs. A compétences scolaires identiques mesurées par des tests, les élèves ne font pas l’objet de notations en classe indépendantes de leurs caractéristiques socio-scolaires : genre, redoublement, âge, origine sociale. Ces résultats sont établis de façon convergente par de nombreuses recherches tant psychologiques que sociologiques (Noizet et Caverni, 1978 ; Merle, 2007). Les principaux biais sociaux de notation sont les suivants :

– Notées par leurs professeurs, les filles obtiennent en moyenne des notes supérieures à celles des garçons à compétences identiques aux tests.

– À compétences égales, les élèves redoublants sont notés plus sévèrement que les élèves « à l’heure ». Il en est de même des élèves « en retard » qui ne sont pas redoublants.

– Pour un niveau donné de résultats aux tests, les enfants de cadres supérieurs sont mieux notés que les enfants des autres milieux. Dans la recherche de Duru-Bellat et Mingat (1993), ce biais social d’évaluation, estimé à un demi-point, représente presque le quart de la différence moyenne qui sépare les enfants de cadres des enfants d’ouvriers.

Les biais sociaux d’évaluation concernent également les appréciations littérales portées sur les élèves. Zimmermann (1982) a montré le décalage, selon l’origine sociale, entre la notation (chiffrée ou sous forme de lettres) et les appréciations qualitatives portées sur les élèves. Pour les enfants d’origine aisée, les appréciations et notes sont majoritairement concordantes. En revanche, pour les enfants d’ouvriers, les appréciations peu valorisantes par rapport aux notes constituent une situation fréquente. A compétences identiques, les enfants d’origine modeste sont donc plus souvent l’objet d’une sous-notation et d’appréciations littérales moins favorables.

Ces biais sociaux d’évaluation ont fait l’objet d’interprétations non exclusives l’une de l’autre. Le professeur-correcteur subirait l’effet de stéréotypes sociaux. Ainsi les redoublants, systématiquement moins bien notés en classe comparativement à une évaluation anonyme, seraient pénalisés par leur passé scolaire défaillant, preuve de leur insuffisance présente. Inversement, les élèves d’origine aisée seraient crédités de compétences supérieures. Soit le professeur adhère, dans une semi-conscience, à l’idéologie du don et à sa transmission héréditaire ; soit, le crédit accordée à la théorie bourdieusienne de la reproduction inciterait le correcteur à accorder aux élèves d’origine aisée des compétences supérieures à celles qui sont effectivement les leurs. Autre interprétation, dans le quotidien de la classe, les élèves d’origine aisée manifesteraient davantage dans leur participation orale les compétences scolaires attendues, notamment linguistiques et syntaxiques. La notation de leurs copies intégrerait cette plus forte visibilité en classe. Il en serait de même des filles, non en raison d’une participation forcément supérieure, mais d’un comportement plus conformes aux attentes. Les recherches montrent qu’elles sont jugées moins bavardes en classe bien qu’elles soient peut-être seulement plus discrètes dans leurs discussions clandestines, ce qui demeure une qualité appréciable pour l’enseignant...

La découverte des biais sociaux d’évaluation est loin d’expliquer l’ensemble des aléas de la notation et justifie le développement d’une théorie de la notation fondée sur la notation d’arrangements évaluatifs (Merle, 2007).

Arrangements évaluatifs et mesures des performances scolaires

Dans une perspective interactionniste, telle qu’elle fut initialement pensée par Simmel (1981), la société est “quelque chose que les individus font et subissent à la fois” (p.90). Si la notation a toujours pour objet de classer les élèves selon leurs performances scolaires, les incertitudes associées à la note sont expliquées par l’existence d’arrangements, de transactions sociales, qui tiennent au contexte scolaire d’évaluation appréhendé à quatre niveaux : l’établissement, la classe, la relation duale maître-élève et la personne du maître. Ces arrangements ne sont pas forcément explicites pour les professeurs. En forte interdépendance mutuelle, ils sont distingués pour des raisons heuristiques.

Quatre types d’arrangements

Les arrangements évaluatifs propres aux établissements peuvent être mesurés. Dans une recherche réalisée sur 17 établissements (Duru-Bellat et Mingat, 1993), on pouvait s’attendre à ce que les établissements dans lesquels les élèves obtiennent des résultats globalement faibles aux tests de compétence soient ceux dans lesquels les notes moyennes attribuées par les professeurs étaient également basses. Il n’en est rien. Les notations les plus indulgentes en classe sont en moyenne attribuées aux élèves qui ont obtenu les résultats les plus faibles aux tests de compétence standardisés, et inversement. Des approches ethnographiques aboutissent à des conclusions du même ordre. Dans les ’collèges difficiles’, une partie des enseignants sont amenés à des adaptations sensibles de leurs pratiques ordinaires d’évaluation en évitant des contrôles qui aboutiraient à des notes jugées très faibles.

Seconde niveau d’arrangement, la classe. Des arrangements de ce type se réalisent lorsque le professeur, prenant en considération la bonne volonté de ’ses’ élèves, décide de supprimer de la moyenne trimestrielle les notes d’un contrôle peu réussi, ou d’ajouter un devoir ’facile’ en fin de trimestre, etc. Dans la situation inverse - agitation, travail non fait, chahut - le professeur peut avoir recours à une ’interrogation surprise’ ou donner un devoir ’difficile’, sorte de sanction pour montrer aux élèves les conséquences de leur manque d’attention en cours. Le fait que les moyennes annuelles aient tendance à baisser lorsque le nombre moyen d’élèves de la classe augmente tend à montrer que la notation assure indirectement une fonction de récompenses et de sanctions collectives, ces dernières étant d’autant plus nécessaires que le nombre d’élèves augmente. L’évaluation est aussi un moyen de surveiller et punir.

Les arrangements évaluatifs propres à la classe sont dépendants de normes de notation externe et du niveau scolaire des élèves. La notation des compétences se réalise en effet quasi exclusivement dans le cadre de la classe à l’exception des examens blancs et des évaluations nationales. Or les élèves sont regroupés par classe de façon spécifique. La ségrégation urbaine aboutit à une homogénéité sociale et scolaire du recrutement des établissements. A ce premier facteur d’homogénéisation, il faut en ajouter un autre. Par le jeu des séries de baccalauréat en second cycle et des options, notamment avec les classes bilingues et européennes, les élèves sont, dans chaque établissement, regroupés dans des groupes de 20 à 40 dont le niveau de compétences est relativement proche.

Ces modalités particulières de regroupement des élèves ont des incidences sur l’évaluation de leurs compétences. Le professeur élabore son évaluation en fonction d’une exigence ordinaire de l’organisation scolaire, une sorte de “constante macabre”, imposant une évaluation gaussienne : quelques faibles, une majorité de moyens, quelques forts. Cette norme d’évaluation aboutit à constituer des différences de compétences entre élèves pourtant globalement proches. Si on compare les évaluations réalisées par les professeurs aux résultats des élèves à des tests standardisés de compétence, on constate qu’une des spécificités de l’évaluation en classe tend à surestimer les compétences des meilleurs de la classe et à sous-estimer les compétences des plus faibles. Dans les bonnes classes, les élèves désignés comme « faibles » ont un niveau aux tests de compétences standardisés parfois supérieur aux « bons élèves » scolarisés dans les classes faibles. Les arrangements au niveau de la classe tendent à concilier des exigences contradictoires : respecter les normes usuelles de notation (construire une courbe de Gauss), tenir compte des normes de notation disciplinaires (cf. infra), susciter et maintenir la mobilisation scolaire des élèves à l’égard de la discipline enseignée. Une alchimie complexe.

Troisième niveau, la relation duale maître élève. Ces arrangements concernent les élèves considérés individuellement. Outre l’octroi d’une note de participation en cours, l’élève qui accepte de faire un travail supplémentaire, un exposé par exemple, ou de refaire un devoir ’raté’, pourra bénéficier d’une note supplémentaire ou d’une note se substituant à ce devoir, ou bien encore d’une note qui ne sera prise en compte dans la moyenne que si elle dépasse 10/20, etc. La dispersion des comportements des professeurs est grande dans ce domaine. Ceux-ci peuvent être en effet plus ou moins sensibles au sentiment d’iniquité que les élèves faibles ressentent à l’égard de leurs notes lorsque ceux-ci ont le sentiment que la récompense que constitue la note obtenue n’est pas à la hauteur des efforts fournis. Dans ce type de situation, le professeur peut être amené, au nom d’un équilibre nécessaire entre travail et gratification scolaires, à noter davantage les progrès réalisés par l’élève que le niveau atteint et normalement visé à tel ou tel niveau de scolarité. Ces arrangements relèvent parfois de la négociation individuelle, parfois même du marchandage, et sont sous l’influence des comportements des élèves et de phénomènes inévitables d’attirance ou de répulsion maître-élève. Les deux exemples suivants (Merle, 2007) présentent la façon dont des comportements d’élèves particuliers peuvent orienter la dynamique relationnelle des interactions maître-élèves :

’C’est vrai que tu as des élèves qui sont épouvantables aussi, ça arrive : j’avais une classe, il y avait deux mecs, un jour à l’intercours, j’étais seule avec eux parce que les autres étaient sortis, et il y en a un qui a dit en rigolant à son copain : ’on se la coince’. Des mecs comme ça, aucune pitié. Je crois qu’il n’a pas mesuré la distance à laquelle je tenais. Pour lui dans sa tête, ça n’était même pas insultant, parce que c’est comme ça qu’il doit traiter les filles par ailleurs, mais je m’en fous, je n’ai pas non plus une pitié infinie pour ces pauvres petits enfants d’ouvriers’ (professeur femme, philosophie, classe terminale).

’J’ai de bonnes élèves, j’ai trois petites gamines qui ont vraiment une tête d’ange, qui sont vraiment..., qui sont adorables, qui sont bosseuses, qui répondent, qui connaissent plein de trucs. Et c’est sûr que quand j’arrive à leur copie, j’ai un préjugé positif, et je le sens. Alors quelquefois, je me dis, oh là là ! Est-ce que tu ne l’as pas surnotée ? (professeur femme, classe de troisième).

Ces arrangements individuels qui engagent de façon personnelle élève et maître sont indissociables d’une quatrième forme d’arrangement : l’arrangement par rapport à soi. La notation du professeur est orientée par sa propre histoire scolaire et par les diverses significations que celui-ci associe à son activité de notation : ’juger de façon impartiale’, aider, récompenser, sanctionner... Les pratiques particulièrement variées des professeurs concernant leurs notes minimum ou maximum sont révélatrices du statut qu’ils accordent à l’évaluation. Il peut s’agir parfois d’une échelle de notation dans laquelle l’élève ne peut jamais dépasser une note plafond, chaque paquet de copies se référant à une hiérarchie intangible des compétences et des hiérarchies du monde (« 17, c’est le maximum ; 18, c’est moi ; 19, c’est l’écrivain ; 20, c’est Dieu », professeur agrégé de grammaire). Ou bien, certains professeurs ne mettent jamais de notes en dessous de 07 : « un élève ne peut jamais rien savoir ». Les notes trop basses sont jugées décourageantes, voire infâmantes pour l’élève qui fait l’effort d’écouter et de comprendre même si son attention n’est guère couronnée de succès. D’autres enseignants adhèrent à l’idée d’une mesure indiscutable : la copie « vide » n’échappe pas au zéro, ou bien au 01/20, récompense cruelle accordée pour l’effort d’écriture, voire l’encre dépensée...

Les arrangements par rapport à soi, tout comme les arrangements par rapport à la classe précédemment présentés, n’existent pas dans une sorte de vide social. Ils sont aussi dépendants de normes de notation disciplinaires. Tel professeur, dans telle discipline, en l’occurrence en Sciences et vie de la terre, notant au dessus de la moyenne de sa discipline, estime que sa notation est « quasi-pathologique ». Il essaie de « se corriger » mais estime ne guère parvenir au respect de la norme de notation de sa discipline qu’il estime décourageante pour les élèves. En philosophie, la moyenne se situe plutôt à 9/20 ; les notes en dessous de 6 ou au dessus de 14/20 sont peu fréquentes (Dogat, 2004). Un professeur de philosophie dont la moyenne de classe avoisinerait les 13/20, ce qui est possible dans certaines disciplines, serait suspecté par le chef d’établissement, voire ses collègues, de laxisme, d’excentrisme, d’incompétence ou des trois…

Une partie des professeurs ont une conscience aigüe ou diffuse de ces arrangements et celle-ci les incite à être favorables au maintien de l’organisation actuelle du bac qui constitue, dans leur propos, une garantie d’équité scolaire, une mise à distance salutaire, un garde-fou institutionnel à l’égard de dérives possibles auxquelles nul ne peut avoir la certitude d’échapper. Cette position est scientifiquement fondée. Les biais sociaux d’évaluation ont également été constatés en classe terminale. Si l’obtention du baccalauréat était réalisée uniquement par le contrôle continu, les redoublants, les garçons et les enfants d’origine populaire, moins bien notés à compétences égales pendant l’année, seraient moins souvent bacheliers (Oget, 1999).

Les arrangements évaluatifs sont d’une grande variété et sont d’autant plus fréquents que l’enseignant est certes confronté à la question de l’ordre scolaire, à la gestion des relations maître-élèves dans la classe, mais simultanément à la question de la transmission du savoir et de la motivation de l’élève à l’égard de sa discipline. Ces contraintes de l’action enseignante expliquent que les arrangements évaluatifs intègrent inévitablement une dimension didactique. La notation au demi-point près ne doit pas être comprise dans le cadre de la ’note vraie’ espérée par Laugier et Weinberg mais aussi et d’abord comme le résultat d’une ’transaction’ ou d’un contrat de type didactique. Le 9.5/20 n’exprime pas tant la précision de la mesure des performances qu’une sorte d’avertissement symbolique dont l’objet est de signaler à l’élève que celui-ci ne remplit pas les exigences attendues spécifiques à la discipline, la classe et son établissement.

Le modèle de l’évaluation comme arrangement présente un triple avantage : mieux rendre compte de la diversité des situations scolaires appréhendées notamment en termes de différence de sélectivité scolaire et sociale des établissements ; rendre plus intelligible la réussite scolaire en milieu populaire, trajectoires sociales peu compatibles avec la théorie bourdieusienne de la reproduction ; être conciliable avec la diversité des origines socio-professionnelles des enseignants, diversité peu compatible avec des stéréotypes et attentes professorales qui seraient partagées par tous de façon identique.

Arrangements évaluatifs et performances scolaires

Ce serait se tromper sur la signification sociale de ces arrangements évaluatifs que de les juger négativement. Dans les situations les plus ordinaires et les plus fréquentes, ces arrangements constituent une façon de ’tenir’ les élèves et de favoriser leur mobilisation scolaire. Quelques professeurs emploient d’ailleurs le terme de ’notes thérapeutiques’ pour désigner cette pratique (Merle, 2007). Laxisme ? Nullement. G. Felouzis (1997) a montré que ces ’indulgences calculées’ favorisaient les progressions des élèves aussi bien en mathématiques qu’en français. Il s’agit d’une modalité spécifique des ’effets d’attentes’ : la bonne note et la reconnaissance parentale apportée par la réussite aux devoirs sont des sources d’encouragement, redonnent du sens au travail et aux études et, finalement, créent les conditions d’une amélioration des compétences scolaires. A contrario, une notation sévère est plutôt source de découragement et aboutit le plus souvent à freiner le rythme moyen de progression des élèves. Autrement dit, l’évaluation sommative est aussi formative, pas seulement en raison des conseils qui peuvent être apportés lors de la correction et dont on connaît l’effet bénéfique sur les acquis cognitifs des élèves, mais aussi par le niveau même de la note, plus ou moins source de mobilisation scolaire.

Les arrangements internes à la classe sont parfois sous la contrainte de contraintes externes. Ainsi, dans certains ’grands lycées’ des centres villes, des moyennes généralement assez basses sont attribuées à des lycéens de niveau ’moyen’ ou ’juste’ afin d’assurer, via le redoublement ou le changement d’établissement, un taux de réussite au bac proche de 100%. La publication des palmarès des établissements par la presse (les indicateurs bruts de réussite au bac) favorise la concurrence entre établissements et incite les chefs d’établissement à une vigilance accrue lors du passage en classes de première et terminale. Ce contexte scolaire particulier suscite l’élitisme et, par ricochet, des notations plus sévères au détriment des élèves faibles ou moyens... Le projet d’être un ’bon établissement’, au sens réducteur mais commun de l’expression, défini par la publication des taux ’bruts’ de réussite au bac, peut être contradictoire avec des arrangements évaluatifs, internes à la classe et favorables aux progrès des élèves. Cet effet des structures sur les pratiques d’évaluation introduit une réflexion sur les principes et pratiques au fondement d’une notation éthique.

Principes et pratiques d’une notation éthique

Une notation éthique doit satisfaire au moins deux exigences éventuellement concurrentes. Premièrement, respecter le principe juridique de l’égalité de traitement. A compétence égale, la notation doit être identique. Deuxièmement, la notation est aussi un moyen pédagogique et, à ce titre, au service des missions de l’école : favoriser les apprentissages, l’accès aux diplômes et, in fine, l’intégration sociale et professionnelle. Autant ses principes sont simples à énoncer - même en simplifiant excessivement les missions de l’école qui assure aussi un rôle de sélection des élèves -, autant leur application soulève des difficultés.

Recourir à des barèmes de notation et proposer des corrections

Le respect du principe de l’égalité de traitement impose de limiter les aléas de la notation et les biais sociaux d’évaluation. L’aléa de la notation est limité par la multiplication des épreuves, la mise en œuvre d’un barème précis, l’existence de plusieurs correcteurs. Dans le quotidien de la classe, ces pratiques sont difficiles à mettre en œuvre. La multiplication du nombre et des formes des épreuves (interrogations courtes sur les leçons, devoirs longs sur des questions complexes, dissertations) alourdit sensiblement les tâches de correction. Le recours à un barème précis, explicite pour les élèves, est la norme dans certaines disciplines mais est souvent absent dans d’autres. Ce serait pourtant à la fois un guide possible pour le professeur, un moyen d’auto-contrôle, et une garantie d’équité pour les élèves. La notation est jugée moins crédible par ceux-ci dans les disciplines n’ayant pas recours à un barème (Merle, 1998, 2003). Or si le sentiment d’une notation aléatoire ou « à la tête du client » domine chez l’élève, son investissement scolaire est amoindri. Le barème procure du crédit et de la légitimité à la note, au professeur et à la discipline.

Pourquoi un barème n’est-il pas la norme ? Il est difficile à mettre en œuvre pour noter commentaires et dissertations et son application est, de surcroît, une source de contestation potentielle des notes par les élèves. Autant de raisons de rester à des notations globales et intuitives ou d’utiliser un barème général peu contraignant (compréhension du sujet, rigueur de l’argumentation…) au détriment d’une évaluation plus fine, plus intelligible et plus constructive pour l’élève. Qu’un barème soit présent ou non, la correction est toujours utile, notamment sous une forme écrite, y compris pour les dissertations, en raison des obstacles linguistiques et syntaxiques considérables rencontrés par les élèves. Un ou des modèles – et non LE modèle - sont des nécessités pratiques. Les refuser à l’élève sous prétexte que chaque réflexion doit suivre son propre chemin revient à penser qu’un nouveau-né apprendra à parler sans les sons et les mots apportés continument avant même qu’il ne les comprenne. L’élève sans modèle est, mutadis mutandis, l’équivalent de Victor, l’enfant sauvage de l’Aveyron décrit par Jean Itard. Il ne lui est pas donné les clés des portes qu’il pourrait ouvrir.

Adapter les épreuves

Par sa forme particulièrement codée, la dissertation n’entretient qu’un rapport indirect avec le cours qu’il soit magistral ou non. Pour la philosophie - le français et les sciences économiques et sociales sont dans des situations semblables -, est posée la question polémique de la pertinence de l’épreuve. Il faut introduire dans la réflexion un argument lié à l’histoire de la philosophie. La dissertation, forme canonique de l’évaluation dans la discipline, est loin d’avoir toujours été la règle. Au XIXe et jusqu’à l’entre deux guerres, l’évaluation des élèves relève bien davantage de la restitution que de la réflexion (Poucet, 2006). A l’aune des pratiques actuelles, ce mode d’évaluation passé serait jugé pauvre, peu propice à la pensée philosophique, voire antinomique à celle-ci. Une telle pratique, la règle à l’époque des humanités triomphantes, a-elle été un obstacle à la formation de quelques philosophes illustres nés à la fin du XIXe et au début du XXe ? La maîtrise de notions incontournables et la classique “question de cours” ne seraient-elles pas des cheminements possibles pour parvenir à une réflexion élaborée ? La progressivité des apprentissages fondée sur principe de “la zone proximale de développement” proposé par Vygostski n’apporte-t-elle pas des justifications empiriques à une telle démarche pédagogique ?

Il n’existe guère de domaines dans lesquels le principe de progressivité dans l’entraînement et dans les épreuves n’est pas à l’œuvre, aussi bien dans l’apprentissage de la parole, de la lecture que du saut en hauteur... Si la barre est trop haute pour une partie des élèves, il devient impossible d’évaluer les compétences notionnelles qu’ils maîtrisent cependant. La progressivité des épreuves est une des conditions d’une évaluation équitable. Entre l’élève qui a compris le sujet de la dissertation et celui qui peine ou échoue à ce niveau de réflexion, il existe une multitude de niveaux de compétences quasi impossible à évaluer sans un cadre d’évaluation approprié. L’épreuve de dissertation, si difficile, est même une difficulté pour les meilleurs élèves jamais gratifiés des meilleures notes dont ils peuvent bénéficier dans les disciplines scientifiques (Dogat, 2004). Dans cette perspective, le rapport Bouveresse-Derrida (1989) présente des propositions qui redonneraient à une grande part des élèves – et parfois aux professeurs – un sens à l’apprentissage, à l’enseignement et à l’évaluation. Le rapport propose notamment : “une série de questions visant à évaluer l’assimilation du vocabulaire philosophique de base et des distinctions conceptuelles élémentaires, ainsi que la connaissance de points de repères dans l’histoire de la philosophie (par exemple 6 questions proposées dans le cadre du programme général, les élèves en choisissant 3 ; durée : une heure)”.

Mutualiser des épreuves d’évaluation

Autre pratique nécessaire à l’équité : la mutualisation des épreuves. Le recours à des épreuves communes à l’ensemble des classes d’un établissement - souvent organisées en fin de troisième ou en terminale - est lourde à mettre en place mais présente un triple avantage. D’une part, elle permet des comparaisons inter-classes du niveau des élèves et d’éviter une sous-estimation des compétences des élèves étiquetés faibles scolarisés dans les bonnes classes. D’autre part, une évaluation anonyme des compétences supprime les biais de notation inévitablement présents lorsque le professeur note ses propres élèves. Enfin, la conception d’épreuves anonymes nécessite un travail collectif des professeurs, la recherche d’accords sur un barème de notation et/ou des exigences disciplinaires communes. Ce partage d’expériences favorise une convergence des pratiques de notation et parallèlement des contenus d’enseignement. Pour ces raisons, cette mutualisation est favorable à l’équité.

Préserver l’anonymat social et scolaire de l’élève

Éviter les biais sociaux de notation nécessite aussi de limiter la connaissance personnelle des élèves. Des recherches en psychologie sociale ont montré, lors d’expériences de multi-corrections, que la mention de la profession d’un des parents sur des copies aboutissait à augmenter ou diminuer la note selon que la profession soit favorisée ou défavorisée (Noizet et Caverni, 1978). Il faut tirer toutes les conséquences de ces recherches. Au début de chaque année scolaire, les professeurs font majoritairement remplir par leurs élèves une fiche de renseignements sur laquelle figure un certain nombre d’informations : profession des parents, âge, redoublement, niveau antérieur dans la discipline… Or même lorsque les professeurs présentent quelques justifications pour disposer de ces informations (Merle, 2007), celles-ci favorisent les biais de notation. Pour cette raison, l’usage des fiches de renseignements devrait être réglementairement proscrit. Cette démarche est difficile à mettre en œuvre : les professeurs considèrent généralement qu’ils ont légitimité pour demander aux élèves, par le biais de cette fiche de renseignements, toutes les informations qu’ils souhaitent. Cependant, la direction des établissements procure le plus souvent aux professeurs des listes de composition de leurs classes et celles-ci sont suffisantes pour assurer le contrôle des présents. Une sensibilisation des enseignants sur les biais sociaux de notation serait susceptible de faire émerger des pratiques professorales plus exigeantes en termes d’évaluation équitable des élèves.

Préférer la notation encourageante à la croyance en la note vraie

De façon plus générale, l’aléa considérable de la notation, maintes fois démontré, devrait amener les professeurs à considérer avec plus de circonspection leurs notations. Les enquêtes menées auprès des professeurs montrent en effet qu’une partie d’entre eux adhère à l’idée d’une mesure exacte de la compétence des élèves. Ce sont en quelque sorte des croyants. D’autres, plus dubitatifs, ont une connaissance des incertitudes de leurs notations (Merle, 2007). Les premiers, les “croyants”, utilisent toute l’échelle des notes basses et font preuve d’intransigeance en matière de passage dans la classe supérieure. Les seconds, les “dubitatifs”, hésitent à mettre des notes inférieures à 5, voire 6 ou 7/20. Ils conçoivent leurs contrôles en commençant par quelques exercices accessibles aux élèves faibles et limitent les questions croche-pieds. Ils indiquent parfois recourir à des notes « thérapeutiques », c’est-à-dire guidées par le souci d’encourager l’élève en difficulté et de récompenser ses progrès. Cet usage pédagogique de la note délaisse, en partie et momentanément, le principe de l’égalité de traitement - difficile à atteindre en matière d’évaluation - au profit d’un intérêt supérieur : préserver la scolarité de l’élève et sa motivation face aux apprentissages. La notation est un levier psychologique et pédagogique terriblement puissant. Un mauvais usage débouche sur un désastre ; un bon usage sur un cercle vertueux « récompense-apprentissage-récompense ».

* *

Les principes et fondements d’une notation éthique font pleinement partie du métier d’enseignant. L’arrêté du 19 décembre 2006 relatif au cahier des charges de la formation des maîtres précise d’ailleurs que leur formation professionnelle doit notamment permettre la maîtrise des compétences suivantes : « agir de façon éthique » ; « prendre en compte la diversité des élèves » ; « évaluer les élèves ». Le cahier des charges de la formation des maîtres ouvre une réflexion sur la dimension éthique de l’évaluation, sur la justice de la notation, sur les modalités pratiques de mise en œuvre du principe juridique de l’égalité de traitement. Il n’existe pas de raison pour que les professeurs de philosophie se saisissent moins que leurs collègues des autres disciplines de ces questions et notions qui ne sont de surcroît pas étrangères à leurs contenus d’enseignements...

Pierre MERLE

IUFM de Bretagne

Bibliographie

Aymes Jean, « Une expérience de multi-correction », Bulletin de l’Association des professeurs de mathématiques de l’enseignement public, 321, 789-797, 1979.

Bouveresse Jacques & Derrida Jacques, Préambule aux Principes pour une réflexion sur les contenus de l’enseignement, mars 1989.

Dogat Renaud, Des bonnes notes au bac philo, Côté Philo, 4, 2004, 48-52.

Duru-Bellat Marie, Mingat Alain, Pour une approche analytique du fonctionnement du système éducatif, Paris, P.U.F, 1993.

Felouzis Georges, L’efficacité des enseignants. Sociologie de la relation pédagogique, Paris, PUF, 1997.

Laugier Henri & Weinberg Dagmar, Commission française pour l’enquête Carnegie sur les examens et concours. La correction des épreuves écrites au baccalauréat, Paris, Maison du livre, 1936.

Merle Pierre, « Equité et notation : l’expérience subjective des lycéens », Carrefours de l’éducation, 5, p. 60-79, 1998.

Merle Pierre, « Le rapport des collégiens aux mathématiques et au français. La perception des élèves de 6 e et 3e », Orientation scolaire et professionnelle, 32, p. 641-668, 2003.

Merle Pierre, L’élève humilié. L’école : un espace de non-droit ? Paris, PUF, 2005.

Merle Pierre, Les notes. Secrets de fabrication, Paris, PUF, 2007.

Noizet Gérard, Caverni Jean-Paul, Psychologie de l’évaluation scolaire, Paris, PUF, 1978.

Oget David, Efficacité et coûts du baccalauréat général et technologique : quelle alternative à l’organisation des épreuves ? 1999, Doctorat, IREDU, 408 p, 1999.

Poucet Bruno, Histoire de la dissertation de philosophie dans l’enseignement secondaire, Côté Philo, n°9, 2006.

Simmel Georg, Sociologie et épistémologie, Paris, PUF, 1991, (1er éd. 1917).

Suchaut Bruno, La loterie des notes au bac. Un réexamen de l’arbitraire de la notation des élèves,Irédu-CNRS et Université de Bourgogne, 2008.

Zimmermann Daniel, La sélection non-verbale à l’école, Paris, ESF, 1982.