Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
| database:utilitaires-imports [2021/08/03 14:15] – [Extraire les lignes comprenant un nombre de tabulation anormal] jpmilcent | database:utilitaires-imports [2024/09/04 16:13] (Version actuelle) – [Extraction de lignes d'un fichier] jpmilcent | ||
|---|---|---|---|
| Ligne 33: | Ligne 33: | ||
| Compter le nombre de ligne d'un fichier : <code bash> wc -l synthese.csv </ | Compter le nombre de ligne d'un fichier : <code bash> wc -l synthese.csv </ | ||
| + | |||
| + | ==== Visualiser un fichier TSV dans un terminal ==== | ||
| + | Pour afficher les premières lignes d'un fichier TSV sans l' | ||
| + | * Créer un fichier '' | ||
| + | #!/bin/bash | ||
| + | perl -pe ' | ||
| + | </ | ||
| + | * Editer '' | ||
| + | # pretty tsv with first ten lines | ||
| + | alias watch=' | ||
| + | </ | ||
| + | * Vous pouvez lancer la commande '' | ||
| ===== Extraire les lignes comprenant un nombre de tabulation anormal ===== | ===== Extraire les lignes comprenant un nombre de tabulation anormal ===== | ||
| Ligne 80: | Ligne 92: | ||
| ==== Extraire les lignes dupliquées ===== | ==== Extraire les lignes dupliquées ===== | ||
| - | * Extraire les lignes dupliquées : <code bash> sort -T / | + | * Extraire les lignes dupliquées : <code bash> sort -T /data-nvme/jpmilcent/tmp/ synthese.csv | uniq -cd > synthese.duplicates.csv </ |
| * Extraire les lignes dupliquées en se basant seulement sur le contenu de la première colonne (remplacer le chiffre dans '' | * Extraire les lignes dupliquées en se basant seulement sur le contenu de la première colonne (remplacer le chiffre dans '' | ||
| Ligne 102: | Ligne 114: | ||
| Les lignes possédant une valeur dupliquée dans la colonne sélectionnée devraient | Les lignes possédant une valeur dupliquée dans la colonne sélectionnée devraient | ||
| apparaître avec un texte rouge. | apparaître avec un texte rouge. | ||
| + | |||
| + | ===== Trouver les valeurs NULL dans les champs obligatoires ===== | ||
| + | * Vérifier la présence de valeur NULL (='' | ||
| + | * Vérifier que la colonne 33 correspond bien au champ // | ||
| + | * Extraction des lignes contenant " | ||
| + | |||
| ===== Affichage/ | ===== Affichage/ | ||
| Ligne 133: | Ligne 151: | ||
| <code bash> cut --complement -f 36-37 synthese.csv > synthese.cuted.csv </ | <code bash> cut --complement -f 36-37 synthese.csv > synthese.cuted.csv </ | ||
| + | Sélections de colonnes pour réaliser un fichier de corrections. Ex. sélection des colonnes 1, 3 et 5 à 6, les autres sont supprimées : | ||
| + | <code bash> cut --complement -f 2,4,7- synthese.csv > synthese.fix-2022-03-29.csv </ | ||
| + | |||
| + | **NOTES** : préalablement à l' | ||
| + | |||
| + | ===== Remplacer le contenu d'une colonne ===== | ||
| + | Remplacer le contenu de la 33ème colonne dans le fichier // | ||
| ===== Remplacement de chaine ===== | ===== Remplacement de chaine ===== | ||
| Ligne 171: | Ligne 196: | ||
| # Recréation du fichier synthese.csv à partir des 2 fichiers de 2 millions de lignes | # Recréation du fichier synthese.csv à partir des 2 fichiers de 2 millions de lignes | ||
| - | cat synthese.2.csv >> synthese.1.csv ; mv synthese.1.csv synthese.csv | + | cat synthese.2.csv >> synthese.1.csv ; mv synthese.1.csv synthese.csv ; rm -f synthese.2.csv |
| </ | </ | ||