SolidityBench by IQ foi lançado porquê o primeiro placar para calcular LLMs na geração de código Solidity. Disponível no Hugging Face, ele apresenta dois benchmarks inovadores, NaïveJudge e HumanEval for Solidity, projetados para calcular e qualificar a proficiência de modelos de IA na geração de códigos de contratos inteligentes.
Desenvolvido pelo BrainDAO da IQ porquê secção de seu próximo conjunto IQ Code, o SolidityBench serve para refinar seus próprios LLMs EVMind e compará-los com modelos generalistas e criados pela comunidade. O IQ Code visa oferecer modelos de IA adaptados para gerar e auditar códigos de contratos inteligentes, atendendo à crescente urgência de aplicações blockchain seguras e eficientes.
Uma vez que o QI disse CriptoSlateo NaïveJudge oferece uma abordagem inovadora ao encarregar os LLMs de implementar contratos inteligentes com base em especificações detalhadas derivadas de contratos OpenZeppelin auditados. Esses contratos fornecem um padrão ouro de correção e eficiência. O código gerado é medido em relação a uma implementação de referência usando critérios porquê integridade funcional, adesão às melhores práticas e padrões de segurança do Solidity e eficiência de otimização.
O processo de avaliação aproveita LLMs avançados, incluindo diferentes versões do GPT-4 da OpenAI e do Claude 3.5 Sonnet porquê revisores de código imparciais. Eles avaliam o código com base em critérios rigorosos, incluindo a implementação de todas as funcionalidades principais, tratamento de casos extremos, gerenciamento de erros, uso adequado de sintaxe e estrutura universal e capacidade de manutenção do código.
Considerações de otimização porquê eficiência de gás e gerenciamento de armazenamento também são avaliadas. As pontuações variam de 0 a 100, fornecendo uma avaliação abrangente de funcionalidade, segurança e eficiência, refletindo as complexidades do desenvolvimento profissional de contratos inteligentes.
Quais modelos de IA são melhores para o desenvolvimento de contratos inteligentes com solidez?
Os resultados do benchmarking mostraram que o protótipo GPT-4o da OpenAI alcançou a pontuação universal mais subida de 80,05, com uma pontuação NaïveJudge de 72,18 e taxas de aprovação HumanEval for Solidity de 80% em pass@1 e 92% em pass@3.
Curiosamente, modelos de raciocínio mais recentes, porquê o1-preview e o1-mini da OpenAI, foram derrotados no primeiro lugar, pontuando 77,61 e 75,08, respectivamente. Modelos da Anthropic e XAI, incluindo Claude 3.5 Sonnet e grok-2, demonstraram desempenho competitivo com pontuações gerais girando em torno de 74. Llama-3.1-Nemotron-70B da Nvidia teve a pontuação mais baixa entre os 10 primeiros, 52,54.
De concórdia com o IQ, HumanEval for Solidity adapta o benchmark HumanEval original da OpenAI de Python para Solidity, abrangendo 25 tarefas de dificuldade variada. Cada tarefa inclui testes correspondentes compatíveis com Hardhat, um envolvente de desenvolvimento popular do Ethereum, facilitando a compilação e teste precisos do código gerado. As métricas de avaliação, pass@1 e pass@3, medem o sucesso do protótipo nas tentativas iniciais e em múltiplas tentativas, oferecendo insights sobre precisão e capacidade de solução de problemas.
Objetivos da utilização de modelos de IA no desenvolvimento de contratos inteligentes
Ao introduzir esses benchmarks, o SolidityBench procura seguir no desenvolvimento de contratos inteligentes assistidos por IA. Ele incentiva a geração de modelos de IA mais sofisticados e confiáveis, ao mesmo tempo que fornece aos desenvolvedores e pesquisadores informações valiosas sobre as capacidades e limitações atuais da IA no desenvolvimento do Solidity.
O kit de ferramentas de benchmarking visa seguir os LLMs EVMind do IQ Code e também estabelecer novos padrões para o desenvolvimento de contratos inteligentes assistidos por IA em todo o ecossistema blockchain. A iniciativa espera responder a uma urgência sátira da indústria, onde a procura por contratos inteligentes seguros e eficientes continua a crescer.
Desenvolvedores, pesquisadores e entusiastas de IA estão convidados a explorar e contribuir com o SolidityBench, que visa impulsionar o refinamento contínuo de modelos de IA, promover melhores práticas e desenvolver aplicações descentralizadas.
Visite a tábua de classificação do SolidityBench no Hugging Face para saber mais e inaugurar a calcular modelos de geração do Solidity.
Mencionado neste item