Partenariats de données OpenAI
Partenariats de données OpenAI


OpenAI lance les partenariats de données OpenAI, dans le cadre desquels ils travaillerons avec des organisations pour produire des ensembles de données publics et privés pour la formation de modèles d’IA.
La technologie moderne de l’IA apprend des compétences et des aspects de notre monde – des personnes, de nos motivations, de nos interactions et de la façon dont ils communiquent – en donnant un sens aux données sur lesquelles elle est formée. Pour finalement créer une AGI sûre et bénéfique pour toute l’humanité, nous aimerions que les modèles d’IA comprennent en profondeur tous les sujets, industries, cultures et langues, ce qui nécessite un ensemble de données de formation aussi large que possible.
L’inclusion de votre contenu peut rendre les modèles d’IA plus utiles en améliorant leur compréhension de votre domaine. OpenAI travaille déjà avec de nombreux partenaires désireux de représenter les données de leur pays ou de leur secteur d’activité. Par exemple, ils ont récemment établi un partenariat avec le gouvernement islandais et Miðeind ehf pour améliorer la capacité de GPT-4 à parler islandais en intégrant leurs ensembles de données organisés. Ils se sont également associés à une organisation à but non lucratif Projet de droit libre, qui vise à démocratiser l’accès à la compréhension juridique en incluant leur vaste collection de documents juridiques dans la formation en IA. OpenAI sait que bien d’autres personnes souhaitent également contribuer à l’avenir de la recherche sur l’IA tout en découvrant le potentiel de leurs données uniques.
Les partenariats de données visent à permettre à davantage d’organisations de contribuer à orienter l’avenir de l’IA et de bénéficier de modèles qui leur sont plus utiles, en incluant du contenu qui les intéresse.
Les types de données que recherchées
OpenAI s’intéresse aux ensembles de données à grande échelle qui reflètent la société humaine et qui ne sont pas encore facilement accessibles au public en ligne aujourd’hui. Ils pouvent travailler avec n’importe quelle modalité, y compris le texte, les images, l’audio ou la vidéo. Nous recherchons particulièrement des données qui expriment l’intention humaine (par exemple, des écrits longs ou des conversations plutôt que des extraits déconnectés), dans n’importe quelle langue, sujet et format.
OpenAI peut travailler avec des données sous presque toutes les formes et utiliser notre technologie d’IA interne de nouvelle génération pour vous aider à numériser et structurer vos données. Par exemple, nous disposons d’une technologie de reconnaissance optique de caractères (OCR) de classe mondiale pour numériser des fichiers tels que des PDF, et d’une reconnaissance automatique de la parole (ASR) pour transcrire les mots prononcés. Si les données doivent être nettoyées (par exemple, elles contiennent de nombreux artefacts générés automatiquement ou des erreurs de transcription), nous pouvons travailler avec votre équipe pour les traiter sous la forme la plus utile. Nous ne recherchons pas d’ensembles de données contenant des informations sensibles ou personnelles, ou des informations appartenant à un tiers ; nous pouvons travailler avec vous pour supprimer ces informations si vous avez besoin d’aide.
Façons de collaborer avec OpenAI
Ils disposons actuellement de deux méthodes de partenariat et pourrait se développer à l’avenir :
Archive open source : OpenAI recherche des partenaires pour les aider à créer un ensemble de données open source pour la formation de modèles linguistiques. Cet ensemble de données serait public et pourrait être utilisé par quiconque dans la formation de modèles d’IA. Ils envisageraient également de l’utiliser pour former eux-mêmes en toute sécurité des modèles open source supplémentaires. OpenAI pense que l’open source joue un rôle important dans l’écosystème. Ensembles de données privés : ils préparent également des ensembles de données privés pour la formation de modèles d’IA propriétaires, y compris nos modèles de base et nos modèles affinés et personnalisés. Si vous avez des données que vous souhaitez garder privées, mais que vous souhaitez que leurs modèles d’IA aient une meilleure compréhension de votre domaine (ou que vous souhaitez simplement évaluer le potentiel de vos données pour le faire), c’est le moyen optimal pour s’associer. Ils disent qu’ils traiterons vos données avec le niveau de sensibilité et de contrôle d’accès que vous préférez.
Dans l’ensemble, OpenAI recherche des partenaires qui souhaitent aider à enseigner l’IA à comprendre notre monde afin d’aider au maximum tout le monde. Ensemble, OpenAI veut avancer vers une AGI qui profite à toute l’humanité.









