Paramètres pour fichier plat (TXT, CSV)

Cette rubrique décrit comment configurer une nouvelle connexion de fichier plat dans DataSync de Nectari.

  1. Dans DataSync, créez une nouvelle connexion source pour un fichier plat.

  2. Remplissez les champs décrits ci-dessous dans le panneau Propriétés de la connexion.

  3. Cliquez sur Enregistrer.

Propriétés de la connexion Description  
URI

Le paramètre URI vous permet de spécifier un fichier source pour votre nouvelle connexion. Les chemins de fichiers locaux et réseau peuvent être saisis dans le champ URI. Il est à noter que vous pouvez sélectionner un seul fichier CSV ou bien un dossier contenant plusieurs fichiers.

 
Inclure les types Sélectionnez les types de fichiers à inclure : CSV, TXT ou les deux.  
Délimiteur Sélectionnez le format à utiliser pour le traitement des fichiers : Virgule, Onglet, ou Personnalisé.  
Caractère de citation Précisez le caractère qui sera utilisé pour citer les valeurs.  
Principales lignes à ignorer Au besoin, entrez le nombre de lignes à ignorer en partant du haut.  
Exclure l'extension de fichier Si cette option est activée, l'extension du fichier sera supprimée du nom de la table dans l'extraction.  
La première ligne contient l'entête Sélectionnez cette option si la première ligne contient des en-têtes.  
Inclure les sous-répertoires Sélectionnez cette option pour lire les fichiers et schema.ini dans les sous-répertoires.  
Utiliser les numéros de ligne Sélectionnez cette option si vous mettez à jour ou modifiez des fichiers CSV. Cette option va créer une nouvelle colonne appelée RowNumber qui sera utilisée comme clé pour la table.  
Activer la mise en Pool

Ce paramètre active la mise en commun des connexions. Lorsqu'il est sélectionné, les trois propriétés suivantes sont affichées :

  • Délai d'inactivité du Pool : Le temps d'inactivité autorisé pour une connexion avant qu'elle ne soit fermée.

  • Taille maximale du Pool : Le nombre maximum de connexions dans le pool.

  • Délai d'attente du Pool : Le nombre maximum de secondes à attendre pour une connexion disponible.

 

 

Le panneau Autres propriétés de la connexion vous permet d'ajouter des paramètres supplémentaires aux connexions source ou de destination de type fichier plat. Les paramètres supplémentaires que vous ajoutez peuvent être visibles ou chiffrés. Vous trouverez ci-dessous les descriptions et les utilisations des propriétés les plus courantes.

Autres propriétés de la connexion Description
Charset

Si votre fichier source est encodé au format ANSI, vous devez ajouter le paramètre Charset à votre configuration dans le volet des Autres propriétés de la connexion, exactement comme il s'affiche dans l'image ci-dessous (y compris la valeur windows-1252) :

Si votre fichier source est encodé au format UTF-8, aucun paramètre supplémentaire n'est nécessaire.

Culture

Par défaut, DataSync utilise le séparateur décimal des paramètres du format régional Windows de votre ordinateur.

Pour les connexions de type fichier plat, les fichiers source et destination doivent utiliser un séparateur décimal compatible avec votre configuration DataSync.

Si le fichier source ou de destination utilise un séparateur décimal différent (par exemple, un fichier plat qui utilise des virgules comme séparateur décimal alors que vous avez choisi l'anglais américain comme format régional), vous devez ajouter la propriété supplémentaire Culture à votre configuration comme suit :

  • Virgules : fr-FR (ou autre valeur régionale qui emploie des virgules)

  • Points : en-US (ou autre valeur régionale qui emploie des points)

Row Scan Depth

La propriété supplémentaire Row Scan Depth vous permet de définir le nombre de lignes du fichier source qui seront analysées pour déterminer le type de données des colonnes de votre table.

La détection par défaut est de 100 lignes. Si vous souhaitez modifier cette valeur, il suffit d'ajouter une propriété supplémentaire Row Scan Depth et saisir la valeur souhaitée (par exemple, 5000).

Note  

Si vous ajoutez une propriété supplémentaire Row Scan Depth avec une valeur de 0 (zéro), DataSync analysera l'intégralité du fichier plat, quelle que soit sa taille. La détection d'un plus grand nombre de lignes entraînera des temps de traitement plus longs, mais elle sera finalement plus précise.

AggregateFiles

Ce paramètre va rassembler tous les fichiers situés dans le répertoire URI dans une seule table appelée AggregatedFiles.

Par défaut, le premier fichier du dossier est utilisé pour définir le schéma ; cependant, le paramètre MetadataDiscoveryURI peut être spécifié pour utilisé un fichier différent à la place.

IncludeFiles

Ce paramètre vous permet de fournir une liste d'extensions de fichiers, séparées par des virgules, à inclure dans l'ensemble des fichiers modélisés en tant que tables. La valeur par défaut est "CSV,TXT,TAB" ; par exemple, IncludeFiles=TXT,TAB.

Vous pouvez inclure des fichiers sans extension en spécifiant la valeur NOEXT.

Vous pouvez également inclure des fichiers d'archives de ces types : ZIP, TAR et GZ. Lorsque des fichiers d'archive sont trouvés, ils sont téléchargés sur la machine locale afin que le pilote puisse extraire et analyser les fichiers contenus. Les fichiers contenus dans une archive doivent correspondre à une extension répertoriée dans IncludeFiles pour être inclus dans l'ensemble de fichiers modélisés en tant que tables.

Les masques de fichiers peuvent être spécifiés à l'aide d'un astérisque (*) pour améliorer la capacité de filtrage ; par exemple : IncludeFiles=2020*.csv,TXT.

Les fichiers spécifiés dans Schema.ini sont inclus en plus des fichiers spécifiés par cette propriété.

Il est également possible de spécifier des filtres de date et d'heure à l'aide de CreatedDate et ModifiedDate. Tous les filtres d'extension sont évalués en disjonction (en utilisant l'opérateur OR), puis le filtre résultant est évalué en conjonction (en utilisant l'opérateur AND) avec les filtres de date et d'heure.

Exemples :

IncludeFiles="TXT,CreatedDate<='2020-11-26T07:39:34-05:00'"

IncludeFiles="TXT,ModifiedDate<=DATETIMEFROMPARTS(2020, 11, 26, 7, 40, 50, 000)"

IncludeFiles="ModifiedDate>=DATETIMEFROMPARTS(2020, 11, 26, 7, 40, 49, 000),ModifiedDate<=CURRENT_TIMESTAMP()"

ExcludeFiles

Ce paramètre fournit une liste d'extensions de fichiers, séparées par des virgules, à exclure de l'ensemble des fichiers modélisés en tant que tables.

Il est également possible de spécifier des filtres de date et d'heure à l'aide de CreatedDate et ModifiedDate. Tous les filtres d'extension sont évalués en disjonction (en utilisant l'opérateur OR), puis le filtre résultant est évalué en conjonction (en utilisant l'opérateur AND) avec les filtres de date et d'heure.

Exemples :

ExcludeFiles="TXT,CreatedDate<='2020-11-26T07:39:34-05:00'"

ExcludeFiles="TXT,ModifiedDate<=DATETIMEFROMPARTS(2020, 11, 26, 7, 40, 50, 000)"

ExcludeFiles="ModifiedDate>=DATETIMEFROMPARTS(2020, 11, 26, 7, 40, 49, 000),ModifiedDate<=CURRENT_TIMESTAMP()"

InsertMode

Cette propriété est réservée à la destination. Elle spécifie le mode d'insertion des données dans les fichiers CSV.

  • FilePerBatch (obligatoire pour NEC Cloud) : Un nouveau fichier CSV sera créé pour chaque lot. Le nom du fichier aura le format yyyyMMddhhmmssSSS_batchId où la date et l'heure correspondent au commencement de la transaction.

  • SingleFile (par défaut) : Dans ce mode, tout est inséré dans un seul fichier CSV.

Note:  Notez que l'option SingleFile ne peut être utilisée que pour les chemins d'accès locaux et les chemins d'accès réseau.

CreateBatchFolder Cette propriété indique si un dossier doit être créé lorsque InsertMode est configuré à FilePerBatch. La valeur par défaut est True.
BatchNamingConvention

Détermine la convention d'appellation des fichiers en lot.

  • Timestamp_BatchNumber : Le nom du fichier aura le format yyyyMMddhhmmssSSS_batchNumber, où l'horodatage marque le début de la transaction.

  • TableName_BatchNumber (par défaut) : Le nom du fichier aura le format TableName_batchNumber.csv.