14 avril 2021

Trop de données tuent les données

La mode est à l’accumulation des données, mais encore faut-il bien le faire. Mieux vaut un plus petit nombre de données et exploitables, qu’un grand nombre dont l’analyse sera parfois confuse, voire impossible. Dans quelques cas on aura l’impression d’avoir « aucune » donné faute de pouvoir les exploiter correctement.

L’acquisition de grands lots de données est soumis à l’erreur statistique. Aussi convient-il de dégager les variants : localités éloignées de la moyenne statistique, dates ou effectifs qui sortent de l’ordinaire. De telles données doivent systématiquement être validée, et en l’occurrence de disposer d’éléments probants et vérifiables. Les grandes masses de données se traduisent par une marge statistique supérieure, aussi le lot de données à contrôler sera-t-il supérieur. Dans de tels cas on peut se retrouver avec un pool d’information douteuse à la marge, mais significativement douteux. On a même parfois un effet « boule de neige », une donnée douteuse en appelant une autre.

Autrefois les analyses étaient menées sur un nombre limité de données, mais des synthèses étaient produites. La tendance à l’automatisation des saisies et des rendus écrase la démarche humaine et intelligente des analyses. Par exemple on ne trouve pratiquement plus de Chroniques ornithologiques et ce type de synthèse manque. Quelques analyses actuellement menée sont écrasées par la masse des données qui demande un travail supérieur de distinction des paramètres. De telles analyses manquent alors souvent de pertinence et les points forts à dégager sont souvent écrasés par le trop grand nombre d’information.

De petits lots de données de bonne qualité seront en conséquences plus précises dans les informations qu’ils peuvent dégager car leur intelligence est plus pertinente et que les points clés semblent mieux mis en évidence.

De manière générale il convient d’asseoir les principes de validation des données et savoir trier le bon grain du mauvais ou moins bon. Il s’agit de mettre en évidence des informations naturalistes de qualité et vérifiables, à côte d’informations plus subjectives qui si elles sont dans le rang statistique sont acceptable, mais si elles en sortent devraient être écartées ou nuancées.