Réparation et maintenance informatique PME et particulier
Professionnel depuis plus de dix ans dans le Centre-Var, basé à Brignoles
06.28.07.77.83 ou 
par E-mail

Dans la lignée d’un ancien article, j’ai voulu renettoyer mon fichier contacts, mais cette fois-ci en allant plus loin au regard des connaissances que j’ai acquises, cela devenait nécessaire avec ma liste qui dépasse les 800 coordonnées! Ce que je souhaite faire:

  • Évidemment dédoublonner
  • Encoder mon fichier correctement
  • Noms en Majuscule, Prénoms en Capital
  • Supprimer les caractères accentués (c’est une source de problèmes pour l’interopérabilité, l’export etc..)
  • Supprimer les caractères pouvant tromper le processus d’import/export/extraction
  • Supprimer lignes et colonnes vides du fichier d’export
  • Supprimer les espaces accidentels en trop entre les mots
  • Supprimer les espaces accidentels en fin et début de lignes
 
L’environnement : Outlook 365 sous Windows 10, je souhaite exporter mes contacts Outlook dans un fichier type Excel (plus précisément un *.CSV) pour les retravailler sur un tableur.
 
Sous Outlook: Fichier> Ouvrir et exporter> Importer/Exporter> Exporter les données vers un fichier> Valeurs séparées par une virgule. Ensuite je choisis le dossier contact de ma boite Email et lance l’exportation dans un dossier dans « Mes Documents ».

PS: Si vos contacts sont sur Google Contact; l’opération d’export vers un fichier est similaire: Rendez-vous sur Google Contact depuis un PC: https://contacts.google.com/ Puis sur le panneau de gauche clic sur exporter. Choisir le format Excel CSV.

L'encodage du fichier d'export

Un grand problème dans nos contrées où règne l’accentuation; Pour ne pas me retrouver avec des caractères sibyllins dans mes exports/imports (Ex: prÉOÇnom au lieu de Prénom).

Je choisis l’encodage ANSI; Pour cela j’ouvre le fichier CSV avec Notepad++ et en modifie l’encodage, puis j’enregistre: (PS: Sauvegardez votre fichier d’origine à chaque étape importante!)

Supprimer les espaces inutiles

Toujours sous Notepad++ je vais dans « Recherche> Remplacer » et là l’astuce! : dans « Rechercher » je tape deux espaces, dans « Remplacer par » je ne tape qu’un seul espace, puis je clique sur « Remplacer tout » : Mais que se passe-t’il s’il n’y a pas que deux espaces mais plusieurs? Ex: 4 5 voir plus?

Et bien à chaque fois que je vais cliquer sur « Remplacer tout », ces multiplicités vont se tarir, puis disparaitre avec le message de Notepad++ qui dira « 0 occurrences ont étés trouvées »!

Remplacer les caractères accentués

Facultatif car cela va dénaturer peut être votre fichier, mais de mon côté ça ne me dérange pas de changer dans mes contacts « Mme Régine Du Château l’évêque » par « Regine du chateau l’eveque« , du moment que mon fichier ne craindra plus les erreurs d’encodage de caractère. La manip: Toujours sous Notepad++ restez sur le menu de la capture précédente. PS: version récente de Notepad++ requise.

Dans le champs « Recherche » mettre ceci:

				
					(à|â)|(À|Â)|(è|ê|ë|é)|(È|Ê|Ë|Ê)|(ì|î|ï)|(Ì|Î|Ï)|(ò|ô|ö)|(Ò|Ô|Ö)|(ù|û|ü|û)|(Ù|Û|Ü|Û)|(ç)|(Ç)
				
			

Dans le champs « Remplacer par » taper:

				
					(?1a)(?2A)(?3e)(?4E)(?5i)(?6I)(?7o)(?8O)(?9u)(?10U)(?11c)(?12C)
				
			

Attention de ne pas placer d’espaces avant ou après ces champs. Cocher « Respecter la casse« , « Boucler » et « Expression régulière« . Je ne vais pas expliciter ce code ici mais je mets le lien. Voilà à quoi ressemble la fenêtre de Notepad++ avant exécution du « script ».

NB: Des outils en ligne existent qui font ce travail plus simplement, mais je crains qu’ils ne soient éphémères; Combien de liens cassés j’ai dû corriger sur mes articles! :

Supprimer les espaces avant/après les mots

Je ne trouve pas très « propre » d’avoir un listing qui ressemble à ça:

  • Dupont
  • Durand
  • Lesieur             

 

Supprimer ces espaces inutiles est sans doute possible avec Notepad++ mais je préfère l’ergonomie de Ron’s CSV Editor. En plus il va me servir pour une d’autres étapes de nettoyage. Dans Ron’s CSV Editor, si le fichier contact ne s’affiche pas correctement, Allez dans « Tools> File Separators » Choisir dans « Field Separate » la virgule (au lieu du point-virgule).

Enfin pour l’objet de ce chapitre aller dans « View> Toolbox ». Un panneau bas TOOL BOX se montre où il faut aller dans « Remove> Space ». En vert les cellules affectées, respectez les réglages dans la capture ci-dessous:

Supprimer les sauts de ligne inutiles

Comme vous avez dû remarquer sous Notepad++, c’est la virgule qui sert à délimiter les différentes colonnes, ainsi que les sauts de ligne pour délimiter les lignes. Les laisser dans les champs pourraient nuire aux futurs exports/imports.

Je vais supprimer les sauts de ligne inutiles: rouvrez le fichier Avec Notepad++: Dans « Édition> » Clic sur « Sélectionner tout », puis encore dans « Édition> Lignes> » Choisissez « Enlever les lignes vides (contenant des blancs aussi)« . Personnellement je passe des 16.281 lignes à 12.995 !

Noms en majuscule, Prénoms en capital

Toujours sous Ron’s, je suis obligé d’abord de corriger mes erreurs passées; Quelquefois j’ai inversé nom et prénom… Mais pour ça je ne connais aucun automatisme donc je le fait à la main.

Pour changer la casse des Noms/Prénoms par contre, je reste sur  le panneau bas (Rappel: menu Ron’s puis View> Toolbox). Je vais dans « Other> Change Case » et sélectionne « Title Case »: Cette option permet de capitaliser les Prénoms composés, Ex: jean-marie deviendra Jean-Marie.

Voilà pour les prénoms, et pour mettre en majuscule les noms je procède de la même manière mais en cochant dans « Change case to: Upper Case » . Ci-dessous capture écran pour l’opération sur les prénoms:

Supprimer les colonnes vides et les occurrences inutiles

L’export du fichier est susceptible de contenir beaucoup de colonnes vides qui correspondent à des informations que l’on ne rentre jamais (Ex: N° de FAX).. Dans le menu de Ron’s Editor je clique sur « Colums> Remove Empty ».. C’est tout.

Pour les termes inutiles que j’ai accumulés dans la colonne « Catégorie » issus d’imports/exports croisés entre Google contacts et Microsoft contacts: Je vais sur « Edit> Replace » La Box de Remplacement texte apparaît; Je sélectionne toute la colonne en question et règle ce problème en ne mettant rien en texte de remplacement.

Supprimer les virgules et point-virgules

Comme noté précédemment, les virgules et sauts de ligne sont utilisés pour structurer un fichier d’export .CSV, mais aussi les points-virgules selon le logiciel utilisé. J’ai des contacts chez qui j’ai utilisé ces caractères spéciaux pour, par exemple, renseigner leur adresse postale « Ex: 3, rue des meuniers etc..).

Sous Ron’s Editor je reste dans le panneau « Tool Box« , mais dans « Search for » je tape une virgule, Dans « Replace With » je ne mets rien. Je répète l’opération avec le point-virgule. Attention de bien cocher « Whole document » au lieu de « Selected Cells » par rapport à la capture précédente.

Pas d’inquiétude: Ron’s Editor est assez intelligent pour ne pas supprimer les virgules et points-virgules structurants le fichier!

Dédoublonner les contacts

Enfin! en tout cas ces étapes montrent bien que le nettoyage n’est pas que du dédoublonnage. La fonction dédoublonnage automatique sous Ron’s Editor passe par la version payant mais une méthode manuelle existe. Son Ron’s clic sur « View> Summary ».

Le panneau bas s’ouvre dans lequel je trie par Nom et Prénom. En « Summarize » je choisis « Nom ». Un clic sur « Calculate » et je classe par nombre d’occurrences en cliquant sur « Count »

Sur la colonne « Count », je vois deux Noms qui ont chacun un doublon: Je double-clic directement sur un des noms, ce qui m’ouvre un tableau ne montrant uniquement que les doublons de ce Nom.

Je vérifie les informations en glissant l’ascenseur horizontal (1); Je sélectionne la ligne à retirer (2), clic sur supprimer (3) et referme ce tableau (4).

Me voilà revenu au panneau précédent; J’applique le même process pour le deuxième doublon.

Astuce: Si vous pensez que vous avez bâclé le travail pour placer les noms et prénoms dans les bonnes colonnes, il peut être utile de relancer le « Summarize » en triant par Adresse de messagerie, ou par numéro de Téléphone.

Et si le logiciel ou service en ligne utilise comme caractère structurant des points-virgules, c’est tout bête: Revenez dans Notepad++ et faites un rechercher/remplacer des virgules au profit des points-virgules.