Paramètres pour fichier plat (TXT, CSV)
Cette rubrique décrit comment configurer une nouvelle connexion de fichier plat dans DataSync de Nectari.
-
Dans DataSync, créez une nouvelle connexion source pour un fichier plat.
-
Remplissez les champs décrits ci-dessous dans le panneau Propriétés de la connexion.
-
Cliquez sur Enregistrer.
Le panneau Autres propriétés de la connexion vous permet d'ajouter des paramètres supplémentaires aux connexions source ou de destination de type fichier plat. Les paramètres supplémentaires que vous ajoutez peuvent être visibles ou chiffrés. Vous trouverez ci-dessous les descriptions et les utilisations des propriétés les plus courantes.
Autres propriétés de la connexion | Description | ||||
---|---|---|---|---|---|
Charset |
Si votre fichier source est encodé au format ANSI, vous devez ajouter le paramètre Charset à votre configuration dans le volet des Autres propriétés de la connexion, exactement comme il s'affiche dans l'image ci-dessous (y compris la valeur windows-1252) : Si votre fichier source est encodé au format UTF-8, aucun paramètre supplémentaire n'est nécessaire. |
||||
Culture |
Par défaut, DataSync utilise le séparateur décimal des paramètres du format régional Windows de votre ordinateur. Pour les connexions de type fichier plat, les fichiers source et destination doivent utiliser un séparateur décimal compatible avec votre configuration DataSync. Si le fichier source ou de destination utilise un séparateur décimal différent (par exemple, un fichier plat qui utilise des virgules comme séparateur décimal alors que vous avez choisi l'anglais américain comme format régional), vous devez ajouter la propriété supplémentaire Culture à votre configuration comme suit :
|
||||
Row Scan Depth |
La propriété supplémentaire Row Scan Depth vous permet de définir le nombre de lignes du fichier source qui seront analysées pour déterminer le type de données des colonnes de votre table. La détection par défaut est de 100 lignes. Si vous souhaitez modifier cette valeur, il suffit d'ajouter une propriété supplémentaire Row Scan Depth et saisir la valeur souhaitée (par exemple, 5000). Note
Si vous ajoutez une propriété supplémentaire Row Scan Depth avec une valeur de 0 (zéro), DataSync analysera l'intégralité du fichier plat, quelle que soit sa taille. La détection d'un plus grand nombre de lignes entraînera des temps de traitement plus longs, mais elle sera finalement plus précise. |
||||
AggregateFiles |
Ce paramètre va rassembler tous les fichiers situés dans le répertoire URI dans une seule table appelée AggregatedFiles. Par défaut, le premier fichier du dossier est utilisé pour définir le schéma ; cependant, le paramètre MetadataDiscoveryURI peut être spécifié pour utilisé un fichier différent à la place. Exemple
Deux fichiers CSV ont les contenus suivants.
Le tableau d'agrégation résultant est présenté ci-dessous. Notez que seules les colonnes présentes dans le schéma défini sont utilisées dans l'agrégat. AggregatedFiles ItemID,Name,NumInStock 1,Peanuts - Salted,76 2,Peanuts - Unsalted,43 3,Raisins,26 4,Pretzels - Original,55 5,Pretzels - Chocolate,35 6,Toffee,44 |
||||
IncludeFiles |
Ce paramètre vous permet de fournir une liste d'extensions de fichiers, séparées par des virgules, à inclure dans l'ensemble des fichiers modélisés en tant que tables. La valeur par défaut est "CSV,TXT,TAB" ; par exemple, IncludeFiles=TXT,TAB. Vous pouvez inclure des fichiers sans extension en spécifiant la valeur NOEXT. Vous pouvez également inclure des fichiers d'archives de ces types : ZIP, TAR et GZ. Lorsque des fichiers d'archive sont trouvés, ils sont téléchargés sur la machine locale afin que le pilote puisse extraire et analyser les fichiers contenus. Les fichiers contenus dans une archive doivent correspondre à une extension répertoriée dans IncludeFiles pour être inclus dans l'ensemble de fichiers modélisés en tant que tables. Les masques de fichiers peuvent être spécifiés à l'aide d'un astérisque (*) pour améliorer la capacité de filtrage ; par exemple : IncludeFiles=2020*.csv,TXT. Les fichiers spécifiés dans Schema.ini sont inclus en plus des fichiers spécifiés par cette propriété. Il est également possible de spécifier des filtres de date et d'heure à l'aide de CreatedDate et ModifiedDate. Tous les filtres d'extension sont évalués en disjonction (en utilisant l'opérateur OR), puis le filtre résultant est évalué en conjonction (en utilisant l'opérateur AND) avec les filtres de date et d'heure. Exemples : IncludeFiles="TXT,CreatedDate<='2020-11-26T07:39:34-05:00'" IncludeFiles="TXT,ModifiedDate<=DATETIMEFROMPARTS(2020, 11, 26, 7, 40, 50, 000)" IncludeFiles="ModifiedDate>=DATETIMEFROMPARTS(2020, 11, 26, 7, 40, 49, 000),ModifiedDate<=CURRENT_TIMESTAMP()" |
||||
ExcludeFiles |
Ce paramètre fournit une liste d'extensions de fichiers, séparées par des virgules, à exclure de l'ensemble des fichiers modélisés en tant que tables. Il est également possible de spécifier des filtres de date et d'heure à l'aide de CreatedDate et ModifiedDate. Tous les filtres d'extension sont évalués en disjonction (en utilisant l'opérateur OR), puis le filtre résultant est évalué en conjonction (en utilisant l'opérateur AND) avec les filtres de date et d'heure. Exemples : ExcludeFiles="TXT,CreatedDate<='2020-11-26T07:39:34-05:00'" ExcludeFiles="TXT,ModifiedDate<=DATETIMEFROMPARTS(2020, 11, 26, 7, 40, 50, 000)" ExcludeFiles="ModifiedDate>=DATETIMEFROMPARTS(2020, 11, 26, 7, 40, 49, 000),ModifiedDate<=CURRENT_TIMESTAMP()" |
||||
InsertMode |
Cette propriété est réservée à la destination. Elle spécifie le mode d'insertion des données dans les fichiers CSV.
|
||||
CreateBatchFolder | Cette propriété indique si un dossier doit être créé lorsque InsertMode est configuré à FilePerBatch. La valeur par défaut est True. | ||||
BatchNamingConvention |
Détermine la convention d'appellation des fichiers en lot.
|